python3使用urllib模块制作网络爬虫
urllib
urllib模块是python3的URL处理包
其中:
1、urllib.request主要是打开和阅读urls
个人平时主要用的1:
打开对应的URL:urllib.request.open(url)
用urllib.request.build_opener([handler, ...]),来伪装成对应的浏览器
import urllib
#要伪装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
print(data)
2、urllib.parse主要是用来解析url
主要方法:
urllib.parse.urlparse(urlstring)
功能:将对应的URL解析成六部分,并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)
import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())
对应的结果:
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
2、构建一个新的url——urllib.parse.urljoin(base, url)
参数:base:基本的URL链接
url:另一个url
from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)
结果:http://www.cwi.nl/%7Eguido/FAQ.html
这个函数在爬虫的时候应该方便多了,我之前用的是比较笨的方法直接字符串拼接
3、异常处理 urllib.error
用 try-except来捕捉异常
主要的错误方式就两种 URLError和HTTPError
因为HTTPError是URLError的子类,所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲,找到父亲,不一定知道儿子。
try:
data=urllib.request.urlopen(url)
print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
print(e.code)
except urllib.error.URLError as e:
print(e.reason)
结果:[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。
如果捕获到了HTTPError,则输出code,不会再处理URLError异常。如果发生的不是HTTPError,则会去捕获URLError异常,输出错误原因
- Python爬虫之urllib基础用法教程
- Python爬虫 urllib2的使用方法详解
- python urllib爬虫模块使用解析
- python爬虫 urllib模块发起post请求过程解析
- python爬虫 urllib模块url编码处理详解
- python爬虫 urllib模块反爬虫机制UA详解
- 用python3 urllib破解有道翻译反爬虫机制详解
- 详解Python3网络爬虫(二):利用urllib.urlopen向有道翻译发送数据获得翻译结果
- Python3爬虫之urllib携带cookie爬取网页的方法
- python爬虫之urllib,伪装,超时设置,异常处理的方法
- python爬虫之urllib库常用方法用法总结大全
- python爬虫之urllib3的使用示例
- Python爬虫中urllib库的进阶学习
- python利用urllib实现爬取京东网站商品图片的爬虫实例
- Python中使用urllib2模块编写爬虫的简单上手示例
- Python中urllib+urllib2+cookielib模块编写爬虫实战
- 使用Python的urllib和urllib2模块制作爬虫的实例教程
- python爬虫开发之urllib模块详细使用方法与实例全解
相关文章
python中print()函数的“,”与java中System.out.print()函数中的“+”功能详解
python中的print()函数和java中的System.out.print()函数都有着打印字符串的功能。接下来通过本文给大家分享python中print()函数的“,”与java中System.out.print()函数中的“+”功能,需要的朋友参考下吧2017-11-11
如何实现在jupyter notebook中播放视频(不停地展示图片)
这篇文章主要介绍了如何实现在jupyter notebook中播放视频(不停地展示图片),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-04-04
windows 10下安装搭建django1.10.3和Apache2.4的方法
最近发现很多教程都是在linux上搭建,windows上似乎天生不太适合,但是我还是愿意试试这个坑。下面这篇文章主要给大家介绍了在windows 10系统下安装搭建django1.10.3和Apache2.4的方法,需要的朋友可以参考借鉴,下面来一起看看吧。2017-04-04
Python + OpenCV 实现LBP特征提取的示例代码
这篇文章主要介绍了Python + OpenCV 实现LBP特征提取的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2019-07-07


最新评论