Python协程异步爬取数据(asyncio+aiohttp)实例

 更新时间:2023年08月21日 09:37:55   作者:YiYa_咿呀  
这篇文章主要为大家介绍了Python协程异步爬取数据(asyncio+aiohttp)实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

使用asyncio+aiohttp异步爬取一部小说

思路

里面涉及到异步文件的读写aiofiles,同时在发送请求时涉及到将字典转化为字符串,接受响应时将字符串转化为字典,故这个里面涉及到json库,同时在请求下载链接的cidtitle时使用的是同步获取一条请求的响应,故其为同步操作,使用requests

代码

import requests
import aiohttp
import asyncio
import json
import aiofiles
# url = 'http://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%224306063500%22}'
# bookid = 'http://dushu.baidu.com/api/pc/getChapterContent?data={%22book_id%22:%224306063500%22,%22cid%22:%224306063500|1569782244%22,%22need_bookinfo%22:1'
async def downloadNovel(cid,title,bid):
    data2 = {
        "book_id": bid,
        "cid": f"{bid}|{cid}",
        "need_bookinfo": 1
    }
    # 将字典转化为字符串
    data2 = json.dumps(data2)
    # 创建请求链接
    bookurl = f'http://dushu.baidu.com/api/pc/getChapterContent?data={data2}'
    # 这里老是忘记打括号 aiohttp.ClientSession()
    async with aiohttp.ClientSession() as session:
        async with session.get(bookurl) as resp:
            # 等待结果返回
            dic = await resp.json()
            # 设置编码格式encoding='utf-8'
            async with aiofiles.open(f'./articles/{title}',mode = 'w',encoding='utf-8') as f:
                # 异步将内容写入文件
                await f.write(dic['data']['novel']['content'])
async def getCataList(url):
    # 同步爬取所有的章节相关信息
    resp = requests.get(url)
    # 将返回的字符转化为字典形式
    dic = resp.json()
    # print(dic)
    # 创建一个空对象用于存储异步任务
    tasks = []
    # 循环创建异步任务并且添加至tasks中
    for item in dic['data']['novel']['items']:
        title = item['title']
        cid = item['cid']
        tasks.append(asyncio.create_task(downloadNovel(cid,title,bid)))
        print(title,cid)
        # 执行异步任务
    await asyncio.wait(tasks)
if __name__ == '__main__':
    bid = "4306063500"
    url = 'http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"' + bid + '"}'
    print(url)
    asyncio.run(getCataList(url))

效果如下

数据爬取成功

以上就是Python协程异步爬取数据(asyncio+aiohttp)实例的详细内容,更多关于Python协程异步爬取数据的资料请关注脚本之家其它相关文章!

相关文章

  • 理解Python中函数的参数

    理解Python中函数的参数

    这篇文章主要介绍了Python中函数的参数,掌握函数中的参数传递在任何一门语言的学习过程当中都是基本功,需要的朋友可以参考下
    2015-04-04
  • python三引号输出方法

    python三引号输出方法

    在本文里我们给大家分析那个了关于python三引号输出方法以及相关知识点,需要的朋友们学习下。
    2019-02-02
  • 分析Python感知线程状态的解决方案之Event与信号量

    分析Python感知线程状态的解决方案之Event与信号量

    本文主要介绍了如何感知线程状态、如何停止一个线程、线程之间的Event用法
    2021-06-06
  • Pandas替换NaN值的方法实现

    Pandas替换NaN值的方法实现

    本文主要介绍了Pandas替换NaN值的方法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • 浅谈Python使用pickle模块序列化数据优化代码的方法

    浅谈Python使用pickle模块序列化数据优化代码的方法

    这篇文章主要介绍了浅谈Python使用pickle模块序列化数据优化代码的方法,pickle模块可以对多种Python对象进行序列化和反序列化,序列化称为pickling,反序列化称为unpickling,需要的朋友可以参考下
    2023-07-07
  • Python的SQLalchemy模块连接与操作MySQL的基础示例

    Python的SQLalchemy模块连接与操作MySQL的基础示例

    SQLalchemy是Python世界中驱动MySQL的一款高人气模块,这里我们从入门开始来看一下Python的SQLalchemy模块连接与操作MySQL的基础示例:
    2016-07-07
  • python实现数据图表

    python实现数据图表

    plotly是现代平台的敏捷商业智能和数据科学库,它作为一款开源的绘图库,可以应用于Python、R、MATLAB、Excel、JavaScript和jupyter等多种语言,主要使用的js进行图形绘制,实现过程中主要就是调用plotly的函数接口,底层实现完全被隐藏,便于初学者的掌握。
    2017-07-07
  • Python中Json使用示例详解

    Python中Json使用示例详解

    这篇文章主要介绍了Python中Json使用,主要介绍一下python 中 json的使用 如何把dict转成json 、object 转成json 、以及json转成对象,需要的朋友可以参考下
    2022-07-07
  • 浅析Python requests 模块

    浅析Python requests 模块

    这篇文章主要介绍了Python requests 模块的相关资料,帮助大家利用requests 模块进行爬虫,感兴趣的朋友可以了解下
    2020-10-10
  • Python中迭代器的创建与使用详解

    Python中迭代器的创建与使用详解

    Python中的迭代器是一个对象,用于迭代可迭代对象,如列表,元组,字典和集合,这篇文章主要为大家介绍了Python中迭代器的创建与使用,需要的可以参考下
    2023-08-08

最新评论