python3使用urllib模块制作网络爬虫

更新时间：2016年04月08日 08:58:46 作者：mrmusic

本文给大家介绍的是利用urllib模块通过指定的URL抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地，有需要的小伙伴可以参考下

urllib

urllib模块是python3的URL处理包

其中：

1、urllib.request主要是打开和阅读urls

个人平时主要用的1：

打开对应的URL：urllib.request.open(url)

用urllib.request.build_opener([handler, ...])，来伪装成对应的浏览器

import urllib
#要伪装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
print(data)

2、urllib.parse主要是用来解析url

主要方法：

urllib.parse.urlparse(urlstring)

功能：将对应的URL解析成六部分，并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)

import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

对应的结果：

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、构建一个新的url——urllib.parse.urljoin(base, url)

参数：base:基本的URL链接

url:另一个url

from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

结果：http://www.cwi.nl/%7Eguido/FAQ.html

这个函数在爬虫的时候应该方便多了，我之前用的是比较笨的方法直接字符串拼接

3、异常处理 urllib.error

用 try-except来捕捉异常

主要的错误方式就两种 URLError和HTTPError

因为HTTPError是URLError的子类，所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲，找到父亲，不一定知道儿子。

try:
  data=urllib.request.urlopen(url)
  print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
  print(e.code)
except urllib.error.URLError as e:
  print(e.reason)

结果：[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

如果捕获到了HTTPError，则输出code，不会再处理URLError异常。如果发生的不是HTTPError，则会去捕获URLError异常，输出错误原因

您可能感兴趣的文章:

python中print()函数的“，”与java中System.out.print()函数中的“+”功能详解
python中的print()函数和java中的System.out.print()函数都有着打印字符串的功能。接下来通过本文给大家分享python中print()函数的“，”与java中System.out.print()函数中的“+”功能，需要的朋友参考下吧
2017-11-11
python发送告警邮件脚本
这篇文章主要介绍了python发送告警邮件脚本的配置方法，zabbix通过python脚本发告警邮件，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-09-09
对python中GUI,Label和Button的实例详解
今天小编就为大家分享一篇对python中GUI,Label和Button的实例详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
Python如何创建装饰器时保留函数元信息
这篇文章主要介绍了Python如何创建装饰器时保留函数元信息，文中讲解非常细致，帮助大家更好的理解和学习，感兴趣的朋友可以了解下
2020-08-08
Python装饰器的练习题
这篇文章主要给大家分享的是 Python装饰器的练习题，习题不多，就三个基础练习题,需要的朋友可以参考一下，希望对你有所帮助
2021-11-11
如何实现在jupyter notebook中播放视频(不停地展示图片)
这篇文章主要介绍了如何实现在jupyter notebook中播放视频(不停地展示图片)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
windows 10下安装搭建django1.10.3和Apache2.4的方法
最近发现很多教程都是在linux上搭建，windows上似乎天生不太适合，但是我还是愿意试试这个坑。下面这篇文章主要给大家介绍了在windows 10系统下安装搭建django1.10.3和Apache2.4的方法，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-04-04
Python + OpenCV 实现LBP特征提取的示例代码
这篇文章主要介绍了Python + OpenCV 实现LBP特征提取的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
TensorFlow损失函数专题详解
本篇文章主要介绍了TensorFlow损失函数专题详解，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-04-04
Python复合赋值运算符由浅入深实例探究
这篇文章主要为大家介绍了Python复合赋值运算符由浅入深实例探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01

python3使用urllib模块制作网络爬虫

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具