Python爬虫之网络请求

更新时间：2022年04月11日 20:55:05 作者：长得丑就要多读书

这篇文章主要介绍了Python爬虫之网络请求，文章基于Python展开对网络请求的相关介绍，需要的小伙伴可以参考一下

1.IP代理

某些网站会检测一段时间内某IP的访问次数，若访问次数过多会禁止访问，这时需要设置一些代理服务器，每隔一段时间换一个代理。IP代理的分类：

①透明代理：目标网站可以得知使用了代理以及源IP地址，显然这不符合要求；
②匿名代理：目标网站知道使用了代理，但不知道源IP地址；
③高匿代理：最保险的方式，目标网站既不知道使用了代理，也不知道源IP地址。

2.Cookie

解决http的无状态性，第一次向服务器发送请求时，服务器生成Cookie作为请求头并储存到浏览器中；浏览器再次发送请求时将携带Cookie信息。

import urllib.request
from http import cookiejar
filename = 'cookie.txt'
#获取Cookie
def get_cookie():
    #实例化一个MozillaCookieJar用于存储cookie
    cookie = cookiejar.MozillaCookieJar(filename)
    #创建handler对象
    handler = urllib.request.HTTPCookieProcessor(cookie)
    #创建opener对象
    opener = urllib.request.build_opener(handler)
    #请求网址
    url = 'https://tieba.baidu.com/index.html?traceid=#'
    resp = opener.open(url) #发送请求
    #存储cookie文件
    cookie.save()
 
#读取cookie
def use_cookie():
    #实例化MozillaCookieJar
    cookie = cookiejar.MozillaCookieJar()
    #加载cookie文件
    cookie.load(filename)
    print(cookie)
 
get_cookie()
use_cookie()

3.异常处理

①urllib.error.URLError：用于捕获由urllib.request产生的异常，使用reason属性返回错误原因

import urllib.request
import urllib.error
 
url = 'http://www.google.com'
try:
    resp = urllib.request.urlopen(url)
except urllib.error.URLError as e:
    print(e.reason)

输出结果：

[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

②urllib.error.HTTPError：用于处理HTTP与HTTPS请求的错误，

有三个属性：

code：请求返回的状态码
reason：返回错误的原因
headers：请求返回的响应头信息

import urllib.request
import urllib.error
 
url = 'https://movie.douban.com/'
try:
    resp = urllib.request.urlopen(url)
except urllib.error.HTTPError as e:
    print('原因：',e.reason)
    print('响应状态码：',str(e.code))
    print('响应头数据：',e.headers)

到此这篇关于Python爬虫之网络请求的文章就介绍到这了,更多相关Python 网络请求内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python实现折半查找和归并排序算法
这篇文章主要介绍了python实现折半查找和归并排序算法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-04-04
python2.7无法使用pip的解决方法(安装easy_install)
下面小编就为大家分享一篇python2.7无法使用pip的解决方法(安装easy_install)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
python实现简单的学生管理系统
这篇文章主要为大家详细介绍了python实现简单的学生管理系统，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-02-02
python利用 pytesseract快速识别提取图片中的文字((图片识别)
本文介绍了tesseract的python调用，也就是pytesseract库，其中还有一些其他的内容并没有涉及，仅涉及到了图片提取文字，如果你对其感兴趣，可以深入探索一下，也希望能和我探讨一下
2022-11-11
在pycharm中显示python画的图方法
今天小编就为大家分享一篇在pycharm中显示python画的图方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
解决Tensorflow占用GPU显存问题
今天小编就为大家分享一篇解决Tensorflow占用GPU显存问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
详解基于Transformer实现电影评论星级分类任务
这篇文章主要为大家介绍了详解基于Transformer实现电影评论星级分类任务过程解析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-04-04
Python机器学习iris数据集预处理和模型训练方式
iris数据集包含150个样本,每个样本有4个特征及其类别信息,本文介绍了iris数据集的基本操作和如何使用knn模型进行花卉种类预测,是机器学习中的经典案例,适用于监督式学习
2024-10-10
python使用py2neo查询Neo4j的节点、关系及路径
本文介绍了使用Py2neo的NodeMatcher和RelationshipMatcher查询图中的节点和关系，以及通过执行Cypher语句的查询方式。感兴趣的小伙伴请看下文
2021-08-08
Django2.1.3 中间件使用详解
这篇文章主要介绍了Django2.1.3 中间件使用详解，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-11-11

Python爬虫之网络请求

目录

1.IP代理

2.Cookie

3.异常处理

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具