python爬虫urllib中的异常模块处理

更新时间：2022年05月10日 09:33:11 作者：苏凉.py

这篇文章主要为大家介绍了python爬虫在爬取网页时urllib中的异常模块处理，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

urllib中的异常处理

在我们写爬虫程序时，若出现url中的错误，那么我们就无法爬取我们想要的内容，对此，我们引入了urllib中的异常处理。

url的组成部分

URL由6个部分组成：eg：

https://www.baidu.com/s?wd=易烊千玺

协议（http/https）
主机（www.baidu.com）
端口号（80/443）
路径（s）
参数（wd=易烊千玺）
锚点

常见的端口号：

http（80） https（443） mysql(3306) oracle(1521) redis(6379) mongodb(27017)

URLError

通常来说，URLError报错通常为url地址中主机部分的错误：

实例：

url = 'https://www.baidu.com1/'

运行结果：

urllib.error.URLError: <urlopen error [Errno 11001] getaddrinfo failed

HTTPError

这个异常的通常是url地址中参数或是路径的错误。

实例：

url = 'https://www.jianshu.com/p/3388cf148dba1'

运行结果：

urllib.error.HTTPError: HTTP Error 404: Not Found

简介

HTTPError类是URLError类的子类
导入的包urllib.error.HTTPError/urllib.error.URLError
http错误：http错误是针对浏览器无法连接到服务器而增加的出来的错误提示，引导并告诉浏览者该页是出了什么问题。
通过urllib发送请求的时候，有可能会发送失败，这个时候如果想让你的代码更健壮，可以通过try -except进行捕获异常。

Urllib.error 模块

urllib.error 模块为 urllib.request 所引发的异常定义了异常类，基础异常类是 URLError。

urllib.error 包含了两个方法，URLError 和 HTTPError。

URLError 是 OSError 的一个子类，用于处理程序在遇到问题时会引发此异常（或其派生的异常）。

HTTPError 是 URLError 的一个子类，用于处理特殊 HTTP 错误例如作为认证请求的时候，包含的属性 code 为 HTTP 的状态码， reason 为引发异常的原因，headers 为导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。

异常处理

用try except语句块捕获并处理异常，其基本语法结构如下所示：

try:可能产生异常的代码块

except [ (Error1, Error2, … ) [as e] ]:处理异常的代码块1

except [ (Error3, Error4, … ) [as e] ]:处理异常的代码块2

except [Exception]:处理其它异常

实例：

原url= ‘https://www.jianshu.com/p/3388cf148dba’

源码：

import urllib.request
import urllib.error
url = 'https://www.jianshu.com1/p/3388cf148dba'
# url的组成 eg：https://www.baidu.com/s?wd=易烊千玺
# 1.协议（http/https） 2.主机（www.baidu.com） 3.端口号（80/443） 4.路径（s） 5.参数（wd=易烊千玺） 6.锚点
#  常见的端口号
# http（80） https（443） mysql(3306) oracle(1521) redis(6379) mongodb(27017)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
try:
    request = urllib.request.Request(url = url,headers = headers)
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf8')
    print(content)
except urllib.error.HTTPError:
    print('HTTP异常，请稍后！')
except urllib.error.URLError:
    print('URL异常，请稍后！')

1.URLError

url = ‘https://www.jianshu.com1/p/3388cf148dba’

运行结果：

2.HTTPError

url = ‘https://www.jianshu.com/p/3388cf148dba111’

运行结果：

由于HTTPRError是URLError的子类，所以需先写httperror的异常处理,否则一律认为是URLError的异常。urllib的异常处理就写到这啦，希望大家都不会出现异常，更多关于python爬虫urllib异常处理的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python中整数的缓存机制讲解
今天小编就为大家分享一篇关于Python中整数的缓存机制讲解，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
2019-02-02
Flask搭建api服务的实现步骤
本文主要介绍了Flask搭建api服务的实现步骤，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-06-06
使用python修改文件并立即写回到原始位置操作(inplace读写)
这篇文章主要介绍了使用python修改文件并立即写回到原始位置操作(inplace读写)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
python django使用haystack:全文检索的框架(实例讲解)
下面小编就为大家带来一篇python django使用haystack:全文检索的框架(实例讲解)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-09-09
Python中pip安装非PyPI官网第三方库的方法
这篇文章主要介绍了Python中pip安装非PyPI官网第三方库的方法,pip最新的版本(1.5以上的版本), 出于安全的考虑,pip不允许安装非PyPI的URL,本文就给出两种解决方法,需要的朋友可以参考下
2015-06-06
python 自动重连wifi windows的方法
今天小编就为大家分享一篇python 自动重连wifi windows的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
Python3.5基础之NumPy模块的使用图文与实例详解
这篇文章主要介绍了Python3.5基础之NumPy模块的使用,结合图文与实例形式详细分析了Python3.5中Numpy模块的原理、功能、使用方法及操作注意事项,需要的朋友可以参考下
2019-04-04
Python编程中的文件操作攻略
这篇文章主要介绍了Python编程中的文件操作攻略,包括打开关闭重命名删除等相关函数的使用,需要的朋友可以参考下
2015-10-10
python实现批量转换图片为黑白
这篇文章主要为大家详细介绍了python实现批量转换图片为黑白，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-06-06
Flask框架debug与配置项的开启与设置详解
这篇文章主要介绍了Flask框架debug与配置项的开启与设置，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-09-09