Python爬虫之urllib库详解

 更新时间:2022年02月09日 11:18:51   作者:人猿宇宙  
大家好,本篇文章主要讲的是Python爬虫之urllib库详解,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下

一、说明:

urllib库是python内置的一个http请求库,requests库就是基于该库开发出来的,虽然requests库使用更方便,但作为最最基本的请求库,了解一下原理和用法还是很有必要的。

二、urllib四个模块组成:

urllib.request  
请求模块(就像在浏览器输入网址,敲回车一样)

urllib.error   
异常处理模块(出现请求错误,可以捕捉这些异常)

urllib.parse  
url解析模块

urllib.robotparser
robots.txt解析模块,判断哪个网站可以爬,哪个不可以爬,用的比较少

在python2与python3中有所不同

在python2中:

import urllib2
response = urllib2.urlopen('http://www.baidu.com')

在python3中:

import  urllib.request
response = urllib.request.urlopen('http://www.baidu.com')

三、urllib.request

1、urlopen函数

urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,*, cafile=None, capath=None, cadefault=False, context=None)

url参数

from urllib import request
response = request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8'))

data参数

没有data参数时,发送的是一个get请求,加上data参数后,请求就变成了post方式(利用’http://httpbin.org测试网址)

import urllib.request
import urllib.parse

data1= bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf-8')
response = urllib.request.urlopen('http://httpbin.org/post',data = data1)
print(response.read())

data参数需要bytes类型,所以需要使用bytes()函数进行编码,而bytes函数的第一个参数需要时str类型,所以使用urllib.parse.urlencode将字典转化为字符串。

timeout参数

设置一个超时的时间,如果在这个时间内没有响应,便会抛出异常

import urllib.request

try:
    response = urllib.request.urlopen('http://www.baidu.com', timeout=0.001)
    print(response.read())
except:
    print('error') 

将超时时间设置为0.001秒,在这个时间内,没有响应,输出error

2、response 响应类型

import urllib
from urllib import request
 
response = urllib.request.urlopen('http://www.baidu.com')
print(type(response))

状态码与响应头

import urllib
from urllib import request

response = urllib.request.urlopen('http://www.baidu.com')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

read方法

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
print(type(response.read()))
print(response.read().decode('utf-8'))

response.read()返回的是bytes形式的数据,所以需要用decode(‘utf-8’)进行解码。

3、Request对象 

如果我们需要发送复杂的请求,在urllib库中就需要使用一个Request对象

import urllib.request
 
#直接声明一个Request对象,并把url当作参数直接传递进来
request = urllib.request.Request('http://www.baidu.com')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

声明了一个Request对象,把url当作参数传递给这个对象,然后把这个对昂作为urlopen函数的参数

更复杂的请求,加headers

#利用Request对象实现一个post请求

import urllib.request
url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
data = {'word':'hello'}
data = bytes(str(data),encoding='utf-8')
req = urllib.request.Request(url = url,data = data,headers = headers,method = 'POST')
response = urllib.request.urlopen(req)
print(response.read().decode('utf-8'))

上面的这个请求包含了请求方式、url,请求头,请求体,逻辑清晰。

Request对象还有一个add_header方法,这样也可以添加多个键值对的header

4、高级请求方式

设置代理

很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。ProxyHandler(设置代理的handler),可以变换自己的IP地址。

from urllib import request # 导入request模块
 
url = 'http://httpbin.org' # url地址
handler = request.ProxyHandler({'http': '122.193.244.243:9999'}) # 使用request模块ProxyHandler类创建代理
#handler = request.ProxyHandler({"http":"账号:密码@'122.193.244.243:9999'"})
#付费代理模式 
opener = request.build_opener(handler) # 用handler创建opener
resp = opener.open(url) # 使用opener.open()发送请求
print(resp.read()) # 打印返回结果

cookie

import urllib.request
import urllib.parse

url = 'https://weibo.cn/5273088553/info'
# 正常的方式进行访问
# headers = {
#     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
# }
#携带cookie进行访问
headers = {
    'GET https': '//weibo.cn/5273088553/info HTTP/1.1',
    'Host': ' weibo.cn',
    'Connection': ' keep-alive',
    'Upgrade-Insecure-Requests': ' 1',
    'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',
    'Accept': ' text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    # 'Referer: https':'//weibo.cn/',
    'Accept-Language': ' zh-CN,zh;q=0.9',
    'Cookie': ' _T_WM=c1913301844388de10cba9d0bb7bbf1e; SUB=_2A253Wy_dDeRhGeNM7FER-CbJzj-IHXVUp7GVrDV6PUJbkdANLXPdkW1NSesPJZ6v1GA5MyW2HEUb9ytQW3NYy19U; SUHB=0bt8SpepeGz439; SCF=Aua-HpSw5-z78-02NmUv8CTwXZCMN4XJ91qYSHkDXH4W9W0fCBpEI6Hy5E6vObeDqTXtfqobcD2D32r0O_5jSRk.; SSOLoginState=1516199821',
}
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
# 输出所有
# print(response.read().decode('gbk'))
# 将内容写入文件中
with open('weibo.html', 'wb') as fp:
    fp.write(response.read())

四、urllib.error

可以捕获三种异常:URLError,HTTPError(是URLError类的一个子类),ContentTooShortError

URLError只有一个reason属性

HTTPError有三个属性:code,reason,headers

import urllib.request
from urllib import error

try:
    response = urllib.request.urlopen('http://123.com')
except error.URLError as e:
    print(e.reason)
import urllib
from urllib import request
from urllib import error
#先捕捉http异常,再捕捉url异常
try:
    response = urllib.request.urlopen('http://123.com')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers)
except error.URLError as e:
    print(e.reason)
else:
    print('RequestSucess!')

五、URL解析urllib.parse

urlparse函数

该函数是对传入的url进行分割,分割成几部分,并对每部分进行赋值

import urllib
from urllib import parse

result = urllib.parse.urlparse('http://www,baidu.com/index.html;user?id=5#comment')
print(type(result))
print(result)

结果方便的拆分了url

<class 'urllib.parse.ParseResult'>
ParseResult(scheme='http', netloc='www,baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')
Process finished with exit code 0

从输出结果可以看出,这几部分包括:协议类型、域名、路径、参数、query、fragment

urlparse有几个参数:url,scheme,allow_fragments

在使用urlparse时,可以通过参数scheme = 'http’的方式来指定默认的协议类型,如果url有协议类型,scheme参数就不会生效了

urlunparse函数

与urlparse函数作用相反,是对url进行拼接的 

在这里插入图片描述

urljoin函数

用来拼接url

在这里插入图片描述

urlencode函数

可以把一个字典转化为get请求参数

在这里插入图片描述

六、urllib.robotparser

使用较少,可作为了解

总结

到此这篇关于Python爬虫之urllib库详解的文章就介绍到这了,更多相关Python urllib库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 3.x 判断 dict 是否包含某键值的实例讲解

    Python 3.x 判断 dict 是否包含某键值的实例讲解

    今天小编就为大家分享一篇Python 3.x 判断 dict 是否包含某键值的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • python模拟新浪微博登陆功能(新浪微博爬虫)

    python模拟新浪微博登陆功能(新浪微博爬虫)

    使用Python编写一个模拟登陆的程序,利用这个原来可以设计自己的爬虫,大家参考使用吧
    2013-12-12
  • pandas groupby()的使用小结

    pandas groupby()的使用小结

    在数据分析中,经常会用到分组,可用函数pandas中的groupby(),本文就来介绍一下pandas groupby()的使用小结,具有一定的参考价值,感兴趣的可以了解一下
    2023-11-11
  • Ubuntu20下的Django安装的方法步骤

    Ubuntu20下的Django安装的方法步骤

    这篇文章主要介绍了Ubuntu20下的Django安装的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 使用IronPython把Python脚本集成到.NET程序中的教程

    使用IronPython把Python脚本集成到.NET程序中的教程

    这篇文章主要介绍了使用IronPython把Python脚本集成到.NET程序中的教程,现在刚刚被微软开源的.NET重新成为业界热点、本文介绍了使Python和.NET交互的IronPython,需要的朋友可以参考下
    2015-03-03
  • 解决pycharm下载库时出现Failed to install package的问题

    解决pycharm下载库时出现Failed to install package的问题

    很多小伙伴遇到pycharm下载库时出现Failed to install package不知道怎么解决,下面小编给大家带来了解决方法,需要的朋友参考下吧
    2021-09-09
  • python小白练习题之条件控制与循环控制

    python小白练习题之条件控制与循环控制

    Python 中的条件控制和循环语句都非常简单,也非常容易理解,与其他编程语言类似,下面这篇文章主要给大家介绍了关于python小白练习题之条件控制与循环控制的相关资料,需要的朋友可以参考下
    2021-10-10
  • python sklearn常用分类算法模型的调用

    python sklearn常用分类算法模型的调用

    这篇文章主要介绍了python sklearn常用分类算法模型的调用,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-10-10
  • Python常见反爬虫机制解决方案

    Python常见反爬虫机制解决方案

    这篇文章主要介绍了Python常见反爬虫机制解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python pandas RFM模型应用实例详解

    Python pandas RFM模型应用实例详解

    这篇文章主要介绍了Python pandas RFM模型应用,结合实例形式详细分析了pandas RFM模型的概念、原理、应用及相关操作注意事项,需要的朋友可以参考下
    2019-11-11

最新评论