Python使用aiohttp实现每秒千次的网页抓取

 更新时间:2025年08月28日 10:43:56   作者:小白学大数据  
在当今大数据时代,高效的网络爬虫是数据采集的关键工具,传统的同步爬虫由于受限于I/O阻塞,难以实现高并发请求,而Python的aiohttp可以轻松实现异步高并发爬虫,达到每秒千次甚至更高的请求速率,所以本文介绍了Python如何使用aiohttp实现每秒千次的网页抓取

引言

在当今大数据时代,高效的网络爬虫是数据采集的关键工具。传统的同步爬虫(如**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">requests</font>**库)由于受限于I/O阻塞,难以实现高并发请求。而Python的**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">aiohttp</font>**库结合**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">asyncio</font>**,可以轻松实现异步高并发爬虫,达到每秒千次甚至更高的请求速率。

本文将详细介绍如何使用**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">aiohttp</font>**构建一个高性能爬虫,涵盖以下内容:

  1. aiohttp的基本原理与优势
  2. 搭建异步爬虫框架
  3. 优化并发请求(连接池、超时控制)
  4. 代理IP与User-Agent轮换(应对反爬)
  5. 性能测试与优化(实现1000+ QPS)

最后,我们将提供一个完整的代码示例,并进行基准测试,展示如何真正实现每秒千次的网页抓取。

1. aiohttp的基本原理与优势

1.1 同步 vs. 异步爬虫

  • 同步爬虫(如requests):每个请求必须等待服务器响应后才能继续下一个请求,I/O阻塞导致性能低下。
  • 异步爬虫(aiohttp + asyncio):利用事件循环(Event Loop)实现非阻塞I/O,多个请求可同时进行,极大提高并发能力。

1.2 aiohttp的核心组件

  • **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">ClientSession</font>**:管理HTTP连接池,复用TCP连接,减少握手开销。
  • **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">async/await</font>**语法:Python 3.5+的异步编程方式,使代码更简洁。
  • **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">asyncio.gather()</font>**:并发执行多个协程任务。

2. 搭建异步爬虫框架

2.1 安装依赖

2.2 基础爬虫示例

import aiohttp
import asyncio
from bs4 import BeautifulSoup

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def parse(url):
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, url)
        soup = BeautifulSoup(html, 'html.parser')
        title = soup.title.string
        print(f"URL: {url} | Title: {title}")

async def main(urls):
    tasks = [parse(url) for url in urls]
    await asyncio.gather(*tasks)

if __name__ == "__main__":
    urls = [
        "https://example.com",
        "https://python.org",
        "https://aiohttp.readthedocs.io",
    ]
    asyncio.run(main(urls))

代码解析

  1. **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">fetch()</font>** 发起HTTP请求并返回HTML。
  2. **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">parse()</font>** 解析HTML并提取标题。
  3. **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">main()</font>** 使用**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">asyncio.gather()</font>**并发执行多个任务。

3. 优化并发请求(实现1000+ QPS)

3.1 使用连接池(TCP Keep-Alive)

默认情况下,**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">aiohttp</font>**会自动复用TCP连接,但我们可以手动优化:

conn = aiohttp.TCPConnector(limit=100, force_close=False)  # 最大100个连接
async with aiohttp.ClientSession(connector=conn) as session:
    # 发起请求...

3.2 控制并发量(Semaphore)

避免因请求过多被目标网站封禁:

semaphore = asyncio.Semaphore(100)  # 限制并发数为100

async def fetch(session, url):
    async with semaphore:
        async with session.get(url) as response:
            return await response.text()

3.3 超时设置

防止某些请求卡住整个爬虫:

timeout = aiohttp.ClientTimeout(total=10)  # 10秒超时
async with session.get(url, timeout=timeout) as response:
    # 处理响应...

4. 代理IP与User-Agent轮换(应对反爬)

4.1 随机User-Agent

from fake_useragent import UserAgent

ua = UserAgent()
headers = {"User-Agent": ua.random}

async def fetch(session, url):
    async with session.get(url, headers=headers) as response:
        return await response.text()

4.2 代理IP池

import aiohttp
import asyncio
from fake_useragent import UserAgent

# 代理配置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 构建带认证的代理URL
proxy_auth = aiohttp.BasicAuth(proxyUser, proxyPass)
proxy_url = f"http://{proxyHost}:{proxyPort}"

ua = UserAgent()
semaphore = asyncio.Semaphore(100)  # 限制并发数

async def fetch(session, url):
    headers = {"User-Agent": ua.random}
    timeout = aiohttp.ClientTimeout(total=10)
    async with semaphore:
        async with session.get(
            url,
            headers=headers,
            timeout=timeout,
            proxy=proxy_url,
            proxy_auth=proxy_auth
        ) as response:
            return await response.text()

async def main(urls):
    conn = aiohttp.TCPConnector(limit=100, force_close=False)
    async with aiohttp.ClientSession(connector=conn) as session:
        tasks = [fetch(session, url) for url in urls]
        await asyncio.gather(*tasks)

if __name__ == "__main__":
    urls = ["https://example.com"] * 1000
    asyncio.run(main(urls))

5. 性能测试(实现1000+ QPS)

5.1 基准测试代码

import time

async def benchmark():
    urls = ["https://example.com"] * 1000  # 测试1000次请求
    start = time.time()
    await main(urls)
    end = time.time()
    qps = len(urls) / (end - start)
    print(f"QPS: {qps:.2f}")

asyncio.run(benchmark())

5.2 优化后的完整代码

import aiohttp
import asyncio
from fake_useragent import UserAgent

ua = UserAgent()
semaphore = asyncio.Semaphore(100)  # 限制并发数

async def fetch(session, url):
    headers = {"User-Agent": ua.random}
    timeout = aiohttp.ClientTimeout(total=10)
    async with semaphore:
        async with session.get(url, headers=headers, timeout=timeout) as response:
            return await response.text()

async def main(urls):
    conn = aiohttp.TCPConnector(limit=100, force_close=False)
    async with aiohttp.ClientSession(connector=conn) as session:
        tasks = [fetch(session, url) for url in urls]
        await asyncio.gather(*tasks)

if __name__ == "__main__":
    urls = ["https://example.com"] * 1000
    asyncio.run(main(urls))

5.3 测试结果

  • 未优化(单线程requests):~10 QPS
  • 优化后(aiohttp + 100并发):~1200 QPS

结论

通过**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">aiohttp</font>****<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">asyncio</font>**,我们可以轻松构建一个高并发的异步爬虫,实现每秒千次以上的网页抓取。

关键优化点包括:

  • 使用**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">ClientSession</font>**管理连接池
  • 控制并发量(Semaphore)
  • 代理IP和随机User-Agent防止封禁
  • 超时设置避免卡死

以上就是Python使用aiohttp实现每秒千次的网页抓取的详细内容,更多关于Python aiohttp网页抓取的资料请关注脚本之家其它相关文章!

相关文章

  • Python devel安装失败问题解决方案

    Python devel安装失败问题解决方案

    这篇文章主要介绍了Python devel安装失败问题解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python判断两个对象相等的原理

    Python判断两个对象相等的原理

    这篇文章主要介绍了Python判断两个对象相等的原理,需要的朋友可以参考下
    2017-12-12
  • 用python 批量操作redis数据库

    用python 批量操作redis数据库

    这篇文章主要介绍了如何用python 批量操作redis数据库,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • Python中sys模块功能与用法实例详解

    Python中sys模块功能与用法实例详解

    这篇文章主要介绍了Python中sys模块功能与用法,结合实例形式详细分析了Python sys模块基本功能、原理、使用方法及操作注意事项,需要的朋友可以参考下
    2020-02-02
  • Python实现批量获取文件夹内文件名并重命名

    Python实现批量获取文件夹内文件名并重命名

    这篇文章主要为大家详细介绍了Python如何批量获取文件夹内文件名及重命名文件,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2025-02-02
  • Python中raise用法简单实例(超级详细,看了无师自通)

    Python中raise用法简单实例(超级详细,看了无师自通)

    python中raise语句用于手动触发异常,通过raise语句可以在代码中显式地引发异常,从而使程序进入异常处理流程,下面这篇文章主要给大家介绍了关于Python中raise用法的相关资料,需要的朋友可以参考下
    2024-03-03
  • python交互模式基础知识点学习

    python交互模式基础知识点学习

    在本篇内容里小编给大家整理的是关于python交互模式是什么的相关基础知识点,需要的朋友们可以参考下。
    2020-06-06
  • Django 限制用户访问频率的中间件的实现

    Django 限制用户访问频率的中间件的实现

    这篇文章主要介绍了Django 限制用户访问频率的中间件的实现,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-08-08
  • Python脚本实现datax全量同步mysql到hive

    Python脚本实现datax全量同步mysql到hive

    这篇文章主要和大家分享一下mysql全量同步到hive自动生成json文件的python脚本,文中的示例代码讲解详细,有需要的小伙伴可以参加一下
    2024-10-10
  • Python中SyntaxError的常见场景和修正指南

    Python中SyntaxError的常见场景和修正指南

    在Python编程中,语法错误(SyntaxError)是最基础的异常类型之一,它发生在代码违反Python语法规则时,本文将系统梳理Python中常见的SyntaxError场景,结合典型案例与修正策略,帮助开发者快速定位并修复语法问题,需要的朋友可以参考下
    2025-12-12

最新评论