Python socket如何解析HTTP请求内容

 更新时间:2022年02月12日 10:03:06   作者:aefuimn  
这篇文章主要介绍了Python socket如何解析HTTP请求内容,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

socket解析HTTP请求内容

思路

1. 解析HTTP请求的头部

HTTP请求头部的结束符行为"\r\n",可以按行读取HTTP请求头的内容,如果读到一行为"\r\n",说明HTTP请求头结束。

2. 请求头里面含有Content-Length参数

如果HTTP请求里面有Content-Length参数,说明HTTP请求的内容大小是确定的,请求直接读取Content-Length的值,然后读取相应字节的的内容即可。

3. 请求头里面含有Transfer-Encoding: chunked 参数

如果HTTP请求里面有Transfer-Encoding参数,说明HTTP请求的内容大小是不确定的,这种内容的结束符是"0\r\n\r\n",因此可以按行读取HTTP请求的内容部分,如果连续读到"0\r\n"和"\r\n"说明内容读取完毕。

代码实现

代码中: self._file 代表的是socket.makefile() 

 def get_http_content(self):
        content_length = 0
        transfer_encoding = False
        while True:
            req_line = self._file.readline()
            req_line = str(req_line, "utf-8")
 
            # 遇到http头结束符
            # 读取http内容
            if req_line == "\r\n":
                if content_length != 0:
                    content = self._file.read(content_length)
                    content = str(content, "utf-8")
                    self._content = content
                    return None
 
                if transfer_encoding:
                    content = ""
                    self._file.readline()
                    while True:
                        line = self._file.readline()
                        line = str(line, "utf-8")
                        if line == "0\r\n":
                            sub_line = self._file.readline()
                            sub_line = str(sub_line, "utf-8")
                            if sub_line == "\r\n":
                                self._content = content
                                return None
                        else:
                            content += line
                            continue
                    self._content = False
 
            # 头文件没有结束
            # 并且没有找到关于内容大小的字段
            else:
                if content_length == 0 and transfer_encoding is False:
                    words = req_line.split()
                    if words[0] == "Content-Length:":
                        content_length = int(words[1])
                    if words[0] == "Transfer-Encoding:":
                        transfer_encoding = True
 
            self._content = False

socket 模拟http请求

# coding: utf-8
import socket
from urllib.parse import urlparse
def get_url(url):
    url = urlparse(url)
    host = url.netloc
    path = url.path
    if path == "":
        path = "/"
    # 建立 socket 连接
    client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    client.connect((host, 80))
    client.send("GET {} HTTP/1.1\r\nHost:{}\r\nConnection:close\r\n\r\n".format(path, host).encode("utf-8"))
    data = b""
    while True:
        d = client.recv(1024)
        if d:
            data += d
        else:
            break
    data = data.decode("utf-8")
    html_data = data.split("\r\n\r\n")[1]
    print(html_data)
    client.close()
    pass
if __name__ == '__main__':
    get_url("http://www.baidu.com")

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Pytorch 中retain_graph的用法详解

    Pytorch 中retain_graph的用法详解

    今天小编就为大家分享一篇Pytorch 中retain_graph的用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python环境使用OpenCV检测人脸实现教程

    Python环境使用OpenCV检测人脸实现教程

    这篇文章主要介绍了Python环境使用OpenCV检测人脸实现教程,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • 关于python中的xpath解析定位

    关于python中的xpath解析定位

    这篇文章主要介绍了关于python中的xpath解析定位,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python Xarray处理设置二维数组作为coordinates方式

    python Xarray处理设置二维数组作为coordinates方式

    这篇文章主要介绍了python Xarray处理设置二维数组作为coordinates方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-07-07
  • Python设计模式行为型观察者模式

    Python设计模式行为型观察者模式

    这篇文章主要介绍了Python设计模式行为型观察者模式,观察者模式即Publish Subscribe Pattern,定义了一种一对多的关系,让多个观察对象同时监听一个主题对象,当主题对象状态发生变化时会通知所有观察者,是它们能够自动更新自己,下面和小编一起进入文章学习详细内容吧
    2022-02-02
  • python 利用panda 实现列联表(交叉表)

    python 利用panda 实现列联表(交叉表)

    这篇文章主要介绍了python 利用panda 实现列联表(交叉表),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • 详解python datetime模块

    详解python datetime模块

    这篇文章主要介绍了python datetime模块的相关资料,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-08-08
  • Python二叉搜索树与双向链表转换算法示例

    Python二叉搜索树与双向链表转换算法示例

    这篇文章主要介绍了Python二叉搜索树与双向链表转换算法,涉及Python二叉树构建、遍历及链表构造等相关操作技巧,需要的朋友可以参考下
    2019-03-03
  • Flask快速实现分页效果示例

    Flask快速实现分页效果示例

    本文主要介绍了Flask快速实现分页效果示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • pip install命令安装扩展库整理

    pip install命令安装扩展库整理

    这篇文章主要介绍了pip install命令安装扩展库整理,文中代码和图文讲解的很详细,有需要的同学可以参考下
    2021-03-03

最新评论