Python异步爬虫实现原理与知识总结

更新时间：2021年05月13日 08:31:14 作者：amcomputer

之前有很多小伙伴想看Python异步爬虫的有关知识总结,这次它来了,文中有非常详细的代码示例与注释,即使对刚开始学python的小伙伴也很友好,,需要的朋友可以参考下

一、背景

默认情况下，用get请求时，会出现阻塞，需要很多时间来等待，对于有很多请求url时，速度就很慢。因为需要一个url请求的完成，才能让下一个url继续访问。一种很自然的想法就是用异步机制来提高爬虫速度。通过构建线程池或者进程池完成异步爬虫，即使用多线程或者多进程来处理多个请求（在别的进程或者线程阻塞时）。

import time 
#串形
 
def getPage(url):
    print("开始爬取网站",url)
    time.sleep(2)#阻塞
    print("爬取完成！！！",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#开始计时
 
for url in urls:
    getPage(url)
 
endTime= time.time()#结束计时
print("完成时间%d"%(endTime - beginTime))

下面通过模拟爬取网站来完成对多线程，多进程，协程的理解。

二、多线程实现

import time 
#使用线程池对象
from multiprocessing.dummy import Pool
 
def getPage(url):
    print("开始爬取网站",url)
    time.sleep(2)#阻塞
    print("爬取完成！！！",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#开始计时
 
#准备开启5个线程,并示例化对象
pool = Pool(5)
pool.map(getPage, urls)#urls是可迭代对象，里面每个参数都会给getPage方法处理
 
endTime= time.time()#结束计时
print("完成时间%d"%(endTime - beginTime))

完成时间只需要2s!!!!!!!!

线程池使用原则：适合处理耗时并且阻塞的操作

三、协程实现

单线程+异步协程！！！！！！！！！！强烈推荐，目前流行的方式。

四、多任务协程实现

import time 
#使用多任务协程
import asyncio
 
 
 
 
urls = ['url1','url2','url3','url4','url5']
 
 
 
async def getPage(url):  #定义了一个协程对象，python中函数也是对象
    print("开始爬取网站",url)
    #在异步协程中如果出现同步模块相关的代码，那么无法实现异步
    #time.sleep(2)#阻塞
    await asyncio.sleep(2)#遇到阻塞操作必须手动挂起
    print("爬取完成！！！",url)
    return url
    
 
beginTime = time.time()  
 
 
#任务列表，有多个任务
tasks = []
 
for url in urls:
    c = getPage(url)
    task = asyncio.ensure_future(c)#创建任务对象
    tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))#不能直接放task，需要封装进入asyncio,wait()方法中
 
endTime = time.time()   
print("完成时间%d"%(endTime - beginTime))

此时不能用time.sleep(2)，用了还是10秒

对于真正爬取过程中，如在getPage()方法中真正爬取数据时，即requests.get(url) ,它是基于同步方式实现。应该使用异步网络请求模块aiohttp

参考下面代码：

async def getPage(url):  #定义了一个协程对象，python中函数也是对象
    print("开始爬取网站",url)
    #在异步协程中如果出现同步模块相关的代码，那么无法实现异步
    #requests.get(url)#阻塞
    async with aiohttp.ClintSession() as session:
 
                     async with await  session.get(url) as response: #手动挂起
 
                                       page_text =  await response.text() #.text()返回字符串，read()返回二进制数据，注意不是content
    print("爬取完成！！！",url)
    return page_text

到此这篇关于Python异步爬虫实现原理与知识总结的文章就介绍到这了,更多相关Python异步爬虫内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

利用Python进行异常值分析实例代码
数据挖掘工作中的第一步就是异常值检测，异常值的存在会影响实验结果。下面这篇文章主要给大家介绍了关于利用Python进行异常值分析的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-12-12
Python实现识别图片为文字的示例代码
这篇文章主要为大家详细介绍了Python如何不调用三方收费接口，照样实现识别图片为文字的功能。文中的示例代码讲解详细，感兴趣的可以了解一下
2022-08-08
python调用MySql保姆级图文教程(包会的)
MySQL是当今市场上最受欢迎的数据库系统之一,由于大多数应用程序需要以某种形式与数据交互,因此像Python这样的编程语言提供了用于存储和访问这些数据的工具,这篇文章主要给大家介绍了关于python调用MySql的相关资料,需要的朋友可以参考下
2024-12-12
关于Numpy中的行向量和列向量详解
今天小编就为大家分享一篇关于Numpy中的行向量和列向量详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
python办公自动化(Excel)的实例教程
使用Excel自动化处理,将会用到Python第三方库,所以我们需要提前通过来进行安装,下面这篇文章主要给大家介绍了关于python办公自动化(Excel)的相关资料,需要的朋友可以参考下
2022-11-11
Tensorflow tf.nn.depthwise_conv2d如何实现深度卷积的
这篇文章主要介绍了Tensorflow tf.nn.depthwise_conv2d如何实现深度卷积的，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-04-04
Python matplotlib中plt.plot()函数的颜色参数设置及可以直接运行的程序代码
在数据可视化中matplotlib.pyplot模块的plot函数是一个非常重要且常用的工具,用于绘制2D图形,这篇文章主要给大家介绍了关于Python matplotlib中plt.plot()函数的颜色参数设置及可以直接运行的程序代码,需要的朋友可以参考下
2024-03-03
k-means 聚类算法与Python实现代码
这篇文章主要介绍了k-means 聚类算法与Python实现代码,本文通过示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-06-06
python中的参数类型匹配提醒
这篇文章主要介绍了python中的参数类型匹配提醒，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-12-12
Python入门教程(二十)Python的Lambda表达式
这篇文章主要介绍了Python入门教程(二十)Python的Lambda表达式,lambda表达式是一行的函数。它们在其他语言中也被称为匿名函数,lambda表达式非常有用，可以让代码简单，简洁,需要的朋友可以参考下
2023-04-04