python爬虫进阶之协程详解

 更新时间:2023年08月09日 10:58:54   作者:南岸青栀*  
这篇文章主要介绍了python爬虫进阶之协程详解,coroutine中文翻译叫协程,在 Python 中昌指代为协程对象类型,可以将协程对象注册到时间循环中被调用,需要的朋友可以参考下

python爬虫–协程

基本知识

  • event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。
  • coroutine:携程对象,我们可以将携程对象注册到事件循环中,它会被时间循环调用。我们可以使用async关键字来定义一个方法,这个方法在调用时不会被立即执行,而是返回一个协程对象。
  • task:任务,它是对协程对象的进一步封装, 包含了任务的各个状态。
  • future:代表将来执行或还没有执行的任务,实际上和task 没有本质区别。
  • async定义-个协程.
  • await用来挂起阻塞方法的执行。

协程的基本使用

import asyncio
async def request(url):
    print('正在请求的url是:',url)
    print('请求成功:',url)
#async修饰的函数,调用之后返回的一个协程对象
c = request('www.baidu.com')
# #创建一个事件循环对象
# loop = asyncio.get_event_loop()
#
# #将携程对象注册到loop中,然后启动loop
# loop.run_until_complete(c)
# #task的使用
# loop = asyncio.get_event_loop()
# #基于loop创建一个task对象
# task = loop.create_task(c)
# print(task)
# loop.run_until_complete(task)
# print(task)
#future的使用
loop = asyncio.get_event_loop()
task = asyncio.ensure_future(c)
print(task)
loop.run_until_complete(task)
print(task)

多任务协程实现

import asyncio
import time
async def request(url):
    print('正在请求的url是:',url)
    #在异步协程中如果出现同步模块相关的代码,那么就无法实现异步
    #time.sleep(2)
    await asyncio.sleep(2)
    print('请求成功:',url)
#async修饰的函数,调用之后返回的一个协程对象
start = time.time()
urls = {
    'www.123.com',
    'www.234.com',
    'www.345.com'
}
#存放多个任务对象
stask = []
for url in urls:
    c = request(url)
    task = asyncio.ensure_future(c)
    stask.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(stask))
print(time.time()-start)

多任务协程异步实现

在进行多任务协程实现前,还需要建立一个简单的本地http服务

from flask import Flask
import time
app = Flask(__name__)
@app.route('/azb')
def index_azb():
    time.sleep(2)
    return 'Hello azb'
@app.route('/xx')
def index_xx():
    time.sleep(2)
    return 'Hello xx'
@app.route('/hh')
def index_hh():
    time.sleep(2)
    return 'Hello hh'
if __name__ == '__main__':
    app.run(threaded=True)

在这里插入图片描述

实现

import requests,asyncio,time
start = time.time()
urls = [
    'http://127.0.0.1:5000/azb','http://127.0.0.1:5000/xx','http://127.0.0.1:5000/hh'
]
async def get_page(url):
    print('正在下载',url)
    #request是基于同步,必须使用基于异步的网络请求模块
    response = requests.get(url=url)
    print('下载成功!',url)
tasks = []
for url in urls:
    c = get_page(url)
    task = asyncio.ensure_future(c)
    tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
print('总耗时',time.time()-start)

在这里插入图片描述

aiohttp模块引入

import requests,asyncio,time,aiohttp
start = time.time()
urls = [
    'http://127.0.0.1:5000/azb','http://127.0.0.1:5000/xx','http://127.0.0.1:5000/hh'
]
async def get_page(url):
    async with aiohttp.ClientSession() as session:
        async with await session.get(url) as response:
            #text()返回字符串形式的响应数据
            #read()返回的二进制形式的响应数据
            #json()返回的就是json对象
            #获取响应数据操作之前一定要使用await进行手动挂起
            page_text = await response.text()
            print(page_text)
tasks = []
for url in urls:
    c = get_page(url)
    task = asyncio.ensure_future(c)
    tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
print('总耗时',time.time()-start)

在这里插入图片描述

到此这篇关于python爬虫进阶之协程详解的文章就介绍到这了,更多相关python协程爬虫内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python使用str & repr转换字符串

    python使用str & repr转换字符串

    str() 是将 数值 转成字符串 repr() 是将一个对象 转成字符串 显示 看明白了么:str()是将一个对象转化成str对象 repr()是将一个对象可视化,使用字符串输出,使编程人员看到其的内部结构
    2016-10-10
  • pip 错误unused-command-line-argument-hard-error-in-future解决办法

    pip 错误unused-command-line-argument-hard-error-in-future解决办法

    这篇文章主要介绍了Python包管理器pip安装软件时出现unused-command-line-argument-hard-error-in-future错误的解决办法,需要的朋友可以参考下
    2014-06-06
  • python3.5使用tkinter制作记事本

    python3.5使用tkinter制作记事本

    TkInter是标准的Python GUI库。的Python与Tkinter的结合提供了一个快速和容易的方法来创建GUI应用程序。 Tkinter的提供了一个强大的面向对象的接口Tk的GUI工具包.
    2016-06-06
  • 解决Python安装后pip不能用的问题

    解决Python安装后pip不能用的问题

    今天小编就为大家分享一篇解决Python安装后pip不能用的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • python获取指定字符串中重复模式最高的字符串方法

    python获取指定字符串中重复模式最高的字符串方法

    今天小编就为大家分享一篇python获取指定字符串中重复模式最高的字符串方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • Python编写memcached启动脚本代码实例

    Python编写memcached启动脚本代码实例

    这篇文章主要介绍了Python编写memcached启动脚本代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • python 视频下载神器(you-get)的具体使用

    python 视频下载神器(you-get)的具体使用

    这篇文章主要介绍了python 视频下载神器(you-get)的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 使用Python的Django框架结合jQuery实现AJAX购物车页面

    使用Python的Django框架结合jQuery实现AJAX购物车页面

    这篇文章主要介绍了使用Python的Django框架结合jQuery实现AJAX购物车页面的方法,示例基于Django中构建好的JSON格式的RESTful API需要的朋友可以参考下
    2016-04-04
  • Python中使用moviepy进行视频分割的实现方法

    Python中使用moviepy进行视频分割的实现方法

    MoviePy是一个关于视频编辑的python库,主要包括:剪辑,嵌入拼接,标题插入,视频合成(又名非线性编辑),视频处理,和自定制效果。本文重点给大家介绍Python中使用moviepy进行视频分割的实现方法,需要的朋友一起看看吧
    2021-12-12
  • Python数据结构队列解决约瑟夫斯问题

    Python数据结构队列解决约瑟夫斯问题

    这篇文章主要介绍了Python数据结构队列解决约瑟夫斯问题
    2023-02-02

最新评论