python3使用urllib模块制作网络爬虫

 更新时间:2016年04月08日 08:58:46   作者:mrmusic  
本文给大家介绍的是利用urllib模块通过指定的URL抓取网页内容 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地,有需要的小伙伴可以参考下

urllib

urllib模块是python3的URL处理包

其中:

1、urllib.request主要是打开和阅读urls

个人平时主要用的1:

打开对应的URL:urllib.request.open(url)

用urllib.request.build_opener([handler, ...]),来伪装成对应的浏览器

import urllib
#要伪装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
print(data)

2、urllib.parse主要是用来解析url

主要方法:

urllib.parse.urlparse(urlstring)

功能:将对应的URL解析成六部分,并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)

import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

对应的结果:

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、构建一个新的url——urllib.parse.urljoin(base, url)

参数:base:基本的URL链接

   url:另一个url

from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

结果:http://www.cwi.nl/%7Eguido/FAQ.html

这个函数在爬虫的时候应该方便多了,我之前用的是比较笨的方法直接字符串拼接

3、异常处理 urllib.error

用 try-except来捕捉异常

主要的错误方式就两种 URLError和HTTPError

因为HTTPError是URLError的子类,所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲,找到父亲,不一定知道儿子。

try:
  data=urllib.request.urlopen(url)
  print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
  print(e.code)
except urllib.error.URLError as e:
  print(e.reason)

结果:[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

如果捕获到了HTTPError,则输出code,不会再处理URLError异常。如果发生的不是HTTPError,则会去捕获URLError异常,输出错误原因

相关文章

  • 使用Flask开发RESTful API的方法实现

    使用Flask开发RESTful API的方法实现

    RESTful API是一种基于REST架构风格设计的Web服务接口,本文主要介绍了使用Flask开发RESTful API的方法实现,具有一定的参考价值,感兴趣的可以了解一下
    2023-11-11
  • python获取引用对象的个数方式

    python获取引用对象的个数方式

    今天小编就为大家分享一篇python获取引用对象的个数方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Flask 让jsonify返回的json串支持中文显示的方法

    Flask 让jsonify返回的json串支持中文显示的方法

    下面小编就为大家分享一篇Flask 让jsonify返回的json串支持中文显示的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-03-03
  • conda虚拟环境使用pip下载包到当前环境的两种方法

    conda虚拟环境使用pip下载包到当前环境的两种方法

    conda管理包很方便,但并不是所有包都有最新的conda版本,所以仍需要使用conda中的pip来安装包,下面这篇文章主要给大家介绍了关于conda虚拟环境使用pip下载包到当前环境的两种方法,需要的朋友可以参考下
    2022-08-08
  • Python对数据库操作

    Python对数据库操作

    本文给大家介绍Windows、Linux下安装MySQL-python,及安装过程中常遇到的问题,该如何解决,非常具有参考借鉴价值,特此分享供大家参考
    2016-03-03
  • 对变量赋值的理解--Pyton中让两个值互换的实现方法

    对变量赋值的理解--Pyton中让两个值互换的实现方法

    下面小编就为大家分享一篇Pyton中让两个值互换的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-11-11
  • Python for循环及基础用法详解

    Python for循环及基础用法详解

    这篇文章为大家介绍python for 循环,它常用于遍历字符串、列表、元组、字典、集合等序列类型,逐个获取序列中的各个元素
    2019-11-11
  • python实现百度语音识别api

    python实现百度语音识别api

    这篇文章主要为大家详细介绍了python实现百度语音识别api,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • Jupyter notebook中如何添加Pytorch运行环境

    Jupyter notebook中如何添加Pytorch运行环境

    这篇文章主要介绍了Jupyter notebook中如何添加Pytorch运行环境,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • numpy.concatenate函数用法详解

    numpy.concatenate函数用法详解

    本文主要介绍了numpy.concatenate函数用法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02

最新评论