Python技能树共建之python urllib 模块

 更新时间:2022年05月22日 16:07:05   作者:梦想橡皮擦  
这篇文章介绍了Python技能树共建之python urllib 模块,urllib模块是 Python 标准库,更多相关介绍需要的小伙伴可以参考下面文章的详细内容

一、Python urllib 模块是什么

urllib 模块是 Python 标准库,其价值在于抓取网络上的 URL 资源,入门爬虫时必学的一个模块。

不过更多的爬虫工程师上手学习的模块已经更换为 requests 了。

在 Python3 中 urllib 模块包括如下内容。

  • urllib.request:请求模块,用于打开和读取 URL;
  • urllib.error:异常处理模块,捕获 urllib.error 抛出异常;
  • urllib.parse:URL 解析,爬虫程序中用于处理 URL 地址;
  • urllib.robotparser:解析 robots.txt 文件,判断目标站点哪些内容可爬,哪些不可以爬,但是用的很少。

二、使用方法

上手案例

打开一个测试站点,然后返回服务器响应内容。

from urllib.request import urlopen
with urlopen('https://www.example.net') as html:
    page = html.read()
print(page)

上述代码用到了 urllib.requests 模块,其内部定义了打开 URL 的函数,授权验证的方法,重定向,cookie 操作等方法。

代码中用到的 urlopen() 函数,就是打开一个 URL,该函数的语法格式如下所示:

urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
            *, cafile=None, capath=None, cadefault=False, context=None)

参数描述如下所示:

  • url:请求地址;
  • data:发送到服务器的其他数据对象,默认为 None;
  • timeout:超时时间;
  • cafile 和 capath:cafile 为 CA 证书, capath 为 CA 证书的路径,使用 HTTPS 需要用到;
  • context:ssl.SSLContext 类型,用来指定 SSL 设置。

调用该对象的 read() 方法,可以读取到整个网页数据。

其余的函数与文件读取类似,分别是 readline()readlines()

还可以调用对象的 getcode() 方法,获取网页状态码。

print(html.getcode()) # 返回 200

urlopen() 返回对象的更多方法

使用 urlopen() 可以得到一个 HTTPResposne 类型的对象,它包括上文提及的 read() 方法,getcode() 方法,除此之外,还有如下内容可以使用。

  • getheaders():获取请求头内容;
  • getheader(name):获取指定请求头;
  • msg:信息属性;
  • version:版本属性;
  • status:状态属性。

urllib.Request() 类

URL 请求抽象类,使用它可以扩展更多的请求配置,其构造方法如下所示:

def __init__(self, url, data=None, headers={},
                 origin_req_host=None, unverifiable=False,
                 method=None)

其参数说明如下所示:

  • url:请求地址,必选参数;
  • data:请求参数,必须为 bytes 类型数据,可以使用 urlencode() 进行编码;
  • headers:字典类型,请求头设置;
  • origin_req_host:请求的主机地址,IP 或域名;
  • method:请求方法。

测试代码如下所示:

from urllib import request, parse
url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的UA'
}
dict = {
    'name': 'xiangpica'
}
# 转换数据类型
data = bytes(parse.urlencode(dict), encoding='utf8')
# 实例化对象
req = request.Request(url=url, data=data, headers=headers, method='POST')
# 添加请求头
req.add_header('HOST', 'httpbin.org')
# 发送数据
response = request.urlopen(req)
print(response.read().decode('utf-8'))

urllib.parse

该模块主要用于解析 URL,函数原型如下所示:

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

参数说明如下:

  • urlstring:URL 地址;
  • scheme:协议类型,可用的包括 file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet……;
  • allow_fragments:是否忽略 URL 中的 fragment 部分。

标准的 URL 格式如下:

scheme://netloc/path;params?query#fragment

说明如下所示:

  • scheme:URL 协议;
  • netloc:域名和端口;
  • path:路径;
  • params:最后一个路径元素参数,不常用;
  • query:查询字符串;
  • fragment:片段标志。
from urllib.parse import urlparse
result = urlparse('http://www.example.com/index.html;info?id=10086#comment')
print(type(result), result)
print(result.scheme, result[0])
print(result.netloc, result[1])
print(result.path, result[2])
print(result.params, result[3])
print(result.query, result[4])
print(result.fragment, result[5])

运行结果如下所示:

<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.example.com', path='/index.html', params='info', query='id=10086', fragment='comment')
http http
www.example.com www.example.com
/index.html /index.html
info info
id=10086 id=10086
comment comment

urlparse() 返回结果是一个 ParseResult 类型的对象。

其余内容

  • urlunparse() 方法与上述方法逻辑相反;
  • urljoin() 方法用于拼接链接;
  • urlencode():格式化请求参数;
  • quote():将内容转换为 URL 编码格式,尤其是转换中文字符
  • unquote():对 URL 进行解码。

三、提高场景

error 模块

在 urllib 中,error 模块定义异常,其包含如下类:

  • URLError:OSError 的一个子类,用于处理程序在遇到问题时会引发此异常;
  • HTTPError:URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候

到此这篇关于Python技能树共建之python urllib 模块的文章就介绍到这了,更多相关 python urllib 模块内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中的单继承与多继承实例分析

    Python中的单继承与多继承实例分析

    这篇文章主要介绍了Python中的单继承与多继承,结合实例详细分析了Python面向对象程序设计中单继承与多继承的概念、原理、实现方法及相关操作注意事项,需要的朋友可以参考下
    2018-05-05
  • Python实现创建词云的示例详解

    Python实现创建词云的示例详解

    词云一般是根据输入的大量词语生成的,如果某个词语出现的次数越多,那么相应的大小就会越大,本文将利用wordcloud模块实现词云生成,需要的可以参考下
    2023-10-10
  • python调用OpenCV实现人脸识别功能

    python调用OpenCV实现人脸识别功能

    这篇文章主要为大家详细介绍了python调用OpenCV实现人脸识别功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • 使用Python脚本实现批量网站存活检测遇到问题及解决方法

    使用Python脚本实现批量网站存活检测遇到问题及解决方法

    本文是小编自己编写的一个使用python实现批量网站存活检测。在项目测试中非常有用。本文给大家分享了遇到的问题及解决方案,非常不错,具有参考借鉴价值,感兴趣的朋友一起看看吧
    2016-10-10
  • 使用PyCharm批量爬取小说的完整代码

    使用PyCharm批量爬取小说的完整代码

    这篇文章主要介绍了使用PyCharm批量爬取小说,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-04-04
  • Python字符集和字符编码详情

    Python字符集和字符编码详情

    这篇文章主要介绍了Python字符集和字符编码详情,Python中的字符串是通过unicode来表示的,在底层对应的结构体是PyUnicodeObject,但是具体为什么呢?带着疑问一起学习下面文章内容吧
    2022-05-05
  • Python如何实现在字符串里嵌入双引号或者单引号

    Python如何实现在字符串里嵌入双引号或者单引号

    今天小编就为大家分享一篇Python如何实现在字符串里嵌入双引号或者单引号,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python实现腾讯滑块验证码识别

    python实现腾讯滑块验证码识别

    这篇文章主要介绍了python如何实现腾讯滑块验证码识别,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-04-04
  • flask入门之表单的实现

    flask入门之表单的实现

    这篇文章主要介绍了flask入门之表单的实现,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07
  • python线程池ThreadPoolExecutor,传单个参数和多个参数方式

    python线程池ThreadPoolExecutor,传单个参数和多个参数方式

    这篇文章主要介绍了python线程池ThreadPoolExecutor,传单个参数和多个参数方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-03-03

最新评论