python爬虫系列网络请求案例详解

更新时间：2021年04月08日 11:07:55 作者：互联网老辛

这篇文章主要介绍了【Python从零到壹】python爬虫系列-网络请求，从零开始学习Python网络爬虫，如何从中获取需要的数据信息，现整理出零基础如何学爬虫技术以供学习

urllib的介绍

urllib是Python自带的标准库中用于网络请求的库，无需安装，直接引用即可。
主要用来做爬虫开发，API数据获取和测试中使用。

urllib库的四大模块：

urllib.request: 用于打开和读取url
urllib.error : 包含提出的例外，urllib.request
urllib.parse:用于解析url
urllib.robotparser：用于解析robots.txt

案例

# 作者：互联网老辛
# 开发时间：2021/4/5/0005 8:23
import urllib.parse
kw={'wd':"互联网老辛"}
result=urllib.parse.urlencode(kw)
print(result)
#解码
res=urllib.parse.unquote(result)
print(res)

在这里插入图片描述

浏览器中会把互联网老辛，改成非中文的形式

我在浏览器中搜互联网老辛，然后把浏览中的复制下来：

在这里插入图片描述

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E4%BA%92%E8%81%94%E7%BD%91%E8%80%81%E8%BE%9B&fenlei=256&oq=%25E7%25BE%258E%25E5%259B%25A2&rsv_pq=aa5b8079001eec3e&rsv_t=9ed1VMqcHzdaH7l2O1E8kMBcAS8OfSAGWHaXNgUYsfoVtGNbNVzHRatL1TU&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_btype=t&inputT=3542&rsv_sug2=0&rsv_sug4=3542

仔细看下，加粗的部分是不是就是我们在代码中输出的wd的结果

发送请求

urllib.request 库

模拟浏览器发起一个http请求，并获取请求的响应结果

urllib.request.urlopen 的语法格式：

urlopen(url,data=None,[timeout]*,cafile=None,capath=None,cadefault=False,context=None

参数说明：

url： str类型的地址，也就是要访问的URL，例如https://www/baidu.com
data: 默认值为None
urlopen: 函数返回的是一个http.client.HTTPResponse对象

代码案例

get请求

# 作者：互联网老辛
# 开发时间：2021/4/5/0005 8:23
import urllib.request
url="http://www.geekyunwei.com/"
resp=urllib.request.urlopen(url)
html=resp.read().decode('utf-8')  #将bytes转成utf-8类型
print(html)

为什么要改成utf-8而不是gbk, 这里要看网页的检查网页源代码里是什么：

在这里插入图片描述

发送请求-Request请求

我们去爬取豆瓣

# 作者：互联网老辛
# 开发时间：2021/4/5/0005 8:23
import urllib.request

url="https://movie.douban.com/"

resp=urllib.request.urlopen(url)
print(resp)

豆瓣有反爬虫策略，会直接报418错误

在这里插入图片描述

对于这种我们需要伪装请求头：

我们找到网页中的user-Agent:

User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400

# 作者：互联网老辛
# 开发时间：2021/4/5/0005 8:23
import urllib.request

url="https://movie.douban.com/"
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}

#构建请求对象
req=urllib.request.Request(url,headers=headers)
#使用urlopen打开请求
resp=urllib.request.urlopen(req)
#从响应结果中读取数据
html=resp.read().decode('utf-8')
print(html)

这样我们就用Python成功的伪装成浏览器获取到了数据

IP代理

opener的使用，构建自己的opener发送请求

# 作者：互联网老辛
# 开发时间：2021/4/5/0005 8:23
import urllib.request
url="https://www.baidu.com/"
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}
#构建请求对象

req=urllib.request.Request(url,headers=headers)

opener=urllib.request.build_opener()
resp=opener.open(req)
print(resp.read().decode())

如果你不停的发送请求，他有可能给你禁止IP，所以我们每隔一段时间就换一个IP代理。

IP代理分类：

透明代理：目标网站知道你使用了代理并且知道你的源IP地址，这种代理肯定不符合我们的初衷
匿名代理：网站知道你使用了代理，但不知道你的源ip
高匿代理：这是最保险的方式，目录网站不知道你使用了代理

ip代理的方式：

免费的： https://www.xicidaili.com/nn/

收费的：大象代理，快代理,芝麻代理

# 作者：互联网老辛
# 开发时间：2021/4/5/0005 8:23
from urllib.request import build_opener
from urllib.request import ProxyHandler
proxy=ProxyHandler({'https':'222.184.90.241:4278'})

opener=build_opener(proxy)

url='https://www.baidu.com/'
resp=opener.open(url)
print(resp.read().decode('utf-8'))

百度其实能够做到反爬，即使是高匿代理也做不到百分百的绕过。

使用cookie

为什么使用cookie？

使用cookie主要是为了解决http的无状态性。

使用步骤：

实例化MozillaCookiejar（保存cookie）
创建handler对象（cookie的处理器）
创建opener对象
打开网页（发送请求获取响应）
保存cookie文件

案例：获取百度贴的cookie存储下来

import urllib.request
from http import cookiejar
filename='cookie.txt'
def get_cookie():
    cookie=cookiejar.MozillaCookieJar(filename)
    #创建handler对象

    handler=urllib.request.HTTPCookieProcessor(cookie)
    opener=urllib.request.build_opener((handler))
    #请求网址
    url='https://tieba.baidu.com/f?kw=python3&fr=index'

    resp=opener.open(url)
    # 保存cookie
    cookie.save()
#读取数据
def use_cookie():
    #实例化MozillaCookieJar
    cookie=cookiejar.MozillaCookieJar()
    #加载cookie文件
    cookie.load(filename)
    print(cookie)
if __name__=='__main--':
    use_cookie()
    #get_cookie()

异常处理

我们爬取一个访问不了的网站来捕获异常

# 作者：互联网老辛
# 开发时间：2021/4/6/0006 7:38

import urllib.request
import urllib.error
url='https://www.google.com'
try:
    resp=urllib.request.urlopen(url)
except urllib.error.URLError as e:
    print(e.reason)

可以看到捕获到了异常

在这里插入图片描述

网络请求我们已经学完了，后面我们将学习几个常用的库，之后就可以进行数据的爬取了。

到此这篇关于python爬虫系列网络请求案例详解的文章就介绍到这了,更多相关python爬虫网络请求内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

利用Python-iGraph如何绘制贴吧/微博的好友关系图详解
这篇文章主要给大家介绍了关于利用Python-iGraph如何绘制贴吧/微博好友关系图的相关资料，文中显示介绍了在windows系统下安装python-igraph的步骤，然后通过示例代码演示了绘制好友关系图的方法，需要的朋友可以参考下。
2017-11-11
Python sqlite3事务处理方法实例分析
这篇文章主要介绍了Python sqlite3事务处理方法,结合具体实例形式分析了Python针对sqlite3事务处理的操作技巧,代码中包含详尽的注释,需要的朋友可以参考下
2017-06-06
Numpy 数据处理 ndarray使用详解
这篇文章主要为大家介绍了Numpy 数据处理 ndarray使用详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-08-08
Python异步在非阻塞子进程中运行命令详解
这篇文章主要为大家介绍了Python异步在非阻塞子进程中运行命令详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
使用Python和OpenCV进行图像处理和分析
图像处理和分析是计算机视觉领域的重要组成部分，本文将介绍如何使用Python编程语言和OpenCV库进行图像处理和分析，我们将涵盖图像读取、显示、滤波、边缘检测和图像分割等常见的图像处理操作，并提供相应的代码示例
2023-07-07
python实现简易连点器
本文主要介绍了python实现简易连点器，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-01-01
浅谈python的输入输出，注释，基本数据类型
这篇文章主要介绍了python的输入输出，注释，基本数据类型，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
如何使用Python逆向抓取APP数据
今天给大伙分享一下 Python 爬虫的教程，这次主要涉及到的是关于某 APP 的逆向分析并抓取数据，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-05-05
python 进阶学习之python装饰器小结
这篇文章主要介绍了python 进阶学习之python装饰器小结,本文通过场景分析给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-09-09
python 如何通过KNN来填充缺失值
这篇文章主要介绍了python 通过KNN来填充缺失值的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-05-05