Python网络请求模块urllib与requests使用介绍

 更新时间:2022年10月11日 09:20:03   作者:Python热爱者  
网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib和requests进行网页数据获取,这篇文章主要介绍了Python网络请求模块urllib与requests使用

Python 网络请求模块 urllib 、requests

Python 给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是 urllib、requests这两个模块。

urlib 介绍

  • urllib.request 提供了一个 urlopen 函数,来实现获取页面。支持不同的协议、基本验证、cookie、代理等特性。
  • urllib 有两个版本 urllib 以及 urllib2。
  • urllib2 能够接受 Request 对象,urllib 则只能接受 url。
  • urllib 提供了 urlencode 函数来对GET请求的参数进行转码,urllib2 没有对应函数。
  • urllib 抛出了 一个 URLError 和一个 HTTPError 来处理客户端和服务端的异常情况。

Requests 介绍

Requests 是一个简单易用的,用Python编写的HTTP库。这个库让我们能够用简单的参数就完成HTTP请求,而不必像 urllib 一样自己指定参数。同时能够自动将响应转码为Unicode,而且具有丰富的错误处理功能。

  • International Domains and URLs
  • Keep-Alive & Connection Pooling
  • Sessions with Cookie Persistence
  • Browser-style SSL Verification
  • Basic/Digest Authentication
  • Elegant Key/Value Cookies
  • Automatic Decompression
  • Unicode Response Bodies
  • Multipart File Uploads
  • Connection Timeouts
  • .netrc support
  • List item
  • Python 2.6—3.4
  • Thread-safe

以下为一些示例代码,本文环境为 Python 3.6

无需参数直接请求单个页面

import urllib
from urllib.request import request
from urllib.urlopen import urlopen
# import urllib2
import requests
# 使用 urllib 方式获取
response = urllib.request.urlopen('http://www.baidu.com')
# read() 读取的是服务器的原始返回数据 decode() 后会进行转码
print(response.read().decode())
# 使用 requests 方式获取
# request 模块相比
resp = requests.get('http://www.baidu.com')
print(resp)
print(resp.text)

HTTP 是基于请求和响应的工作模式,urllib.request 提供了一个 Request 对象来代表请求,因此上面的代码也可以这么写

req = urllib.request.Request('http://www.baidu.com')
with urllib.request.urlopen(req) as response:
print(response.read())

Request对象可以增加header信息

req = urllib.request.Request('http://www.baidu.com')
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
with urllib.request.urlopen(req) as response:
print(response.read())

或者直接将 header 传入 Request 构建函数。

带参数的 GET 请求

带有参数的请求和上面的例子本质一样,可以事先拼出URL请求字符串,然后再进行请求。

本例使用了 腾讯 的股票API,可以传入不同的股票代码以及日期,查询对应股票在对应时间的价格、交易信息。

# 使用带参数的接口访问
tencent_api = "http://qt.gtimg.cn/q=sh601939"
response = urllib.request.urlopen(tencent_api)
# read() 读取的是服务器的原始返回数据 decode() 后会进行转码
print(response.read())
resp = requests.get(tencent_api)
print(resp)
print(resp.text)

发送 POST 请求

urllib 没有单独区分 GET 和 POST 请求的函数,只是通过 Request 对象是否有 data 参数传入来判断。

import urllib.parse
import urllib.request
url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {'name' : 'Michael Foord',
          'location' : 'Northampton',
          'language' : 'Python' }
data = urllib.parse.urlencode(values)
data = data.encode('ascii') # data should be bytes req = urllib.request.Request(url, data)
with urllib.request.urlopen(req) as response:
   the_page = response.read()

到此这篇关于Python网络请求模块urllib与requests使用介绍的文章就介绍到这了,更多相关Python urllib与requests内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用matplotlib实现基础绘图功能示例

    Python使用matplotlib实现基础绘图功能示例

    这篇文章主要介绍了Python使用matplotlib实现基础绘图功能,结合实例形式分析了Python基于matplotlib实现正弦、余弦图形及多轴图的相关绘制操作技巧,需要的朋友可以参考下
    2018-07-07
  • selenium 多窗口切换的实现(windows)

    selenium 多窗口切换的实现(windows)

    这篇文章主要介绍了selenium 多窗口切换的实现(windows),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-01-01
  • Python实现类别变量的独热编码

    Python实现类别变量的独热编码

    这篇文章主要为大家详细介绍了基于Python下OneHotEncoder与pd.get_dummies两种方法,实现机器学习中最优的编码方法——独热编码的方法,需要的可以参考一下
    2023-02-02
  • linux上运行python脚本,SyntaxError: invalid syntax的解决

    linux上运行python脚本,SyntaxError: invalid syntax的解决

    这篇文章主要介绍了linux上运行python脚本,SyntaxError: invalid syntax的解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12
  • WxPython界面如何用pubsub展示进程工作的进度条

    WxPython界面如何用pubsub展示进程工作的进度条

    这篇文章主要介绍了WxPython界面如何用pubsub展示进程工作的进度条,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11
  • Python虚拟环境venv实战过程详解

    Python虚拟环境venv实战过程详解

    Python的虚拟环境可以帮助我们在同一台机器上,同时使用不同的Python版本和库,方便管理和开发,下面这篇文章主要给大家介绍了关于Python虚拟环境venv的相关资料,需要的朋友可以参考下
    2023-06-06
  • Django用内置方法实现简单搜索功能的方法

    Django用内置方法实现简单搜索功能的方法

    这篇文章主要介绍了Django用内置方法实现简单搜索功能的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Matplotlib实战之堆叠面积图绘制详解

    Matplotlib实战之堆叠面积图绘制详解

    堆叠面积图和面积图都是用于展示数据随时间变化趋势的统计图表,但它们的特点有所不同,堆叠面积图既能看到各数据系列的走势,又能看到整体的规模,下面我们就来看看如何绘制堆叠面积图吧
    2023-08-08
  • python 代码实现k-means聚类分析的思路(不使用现成聚类库)

    python 代码实现k-means聚类分析的思路(不使用现成聚类库)

    这篇文章主要介绍了python 代码实现k-means聚类分析(不使用现成聚类库),本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • window11系统下Python3.11安装numpy库超详细教程

    window11系统下Python3.11安装numpy库超详细教程

    这篇文章主要给大家介绍了关于window11系统下Python3.11安装numpy库的相关资料,NumPy是Python的第三方扩展包,但它并没有包含在Python标准库中,因此您需要单独安装它,需要的朋友可以参考下
    2023-12-12

最新评论