python如何提升爬虫效率

更新时间：2020年09月27日 14:44:14 作者：straightup

这篇文章主要介绍了python如何提升爬虫效率，帮助大家更好的理解和使用python 爬虫，感兴趣的朋友可以参考下

单线程+多任务异步协程

协程

在函数(特殊函数)定义的时候,使用async修饰,函数调用后,内部语句不会立即执行,而是会返回一个协程对象

任务对象

任务对象=高级的协程对象(进一步封装)=特殊的函数
任务对象必须要注册到时间循环对象中
给任务对象绑定回调:爬虫的数据解析中

事件循环

当做是一个装载任务对象的容器
当启动事件循环对象的时候,存储在内的任务对象会异步执行

特殊函数内部不能写不支持异步请求的模块,如time,requests...否则虽然不报错但实现不了异步

time.sleep -- asyncio.sleep
requests -- aiohttp

import asyncio
import time

start_time = time.time()
async def get_request(url):
  await asyncio.sleep(2)
  print(url,'下载完成!')

urls = [
  'www.1.com',
  'www.2.com',
]

task_lst = [] # 任务对象列表
for url in urls:
  c = get_request(url) # 协程对象
  task = asyncio.ensure_future(c) # 任务对象
  # task.add_done_callback(...)  # 绑定回调
  task_lst.append(task)

loop = asyncio.get_event_loop() # 事件循环对象
loop.run_until_complete(asyncio.wait(task_lst)) # 注册,手动挂起

线程池+requests模块

# 线程池
import time
from multiprocessing.dummy import Pool

start_time = time.time()
url_list = [
  'www.1.com',
  'www.2.com',
  'www.3.com',
]
def get_request(url):
  print('正在下载...',url)
  time.sleep(2)
  print('下载完成!',url)

pool = Pool(3)
pool.map(get_request,url_list)
print('总耗时:',time.time()-start_time)

两个方法提升爬虫效率

起一个flask服务端

from flask import Flask
import time

app = Flask(__name__)

@app.route('/bobo')
def index_bobo():
  time.sleep(2)
  return 'hello bobo!'

@app.route('/jay')
def index_jay():
  time.sleep(2)
  return 'hello jay!'

@app.route('/tom')
def index_tom():
  time.sleep(2)
  return 'hello tom!'

if __name__ == '__main__':
  app.run(threaded=True)

aiohttp模块+单线程多任务异步协程

import asyncio
import aiohttp
import requests
import time

start = time.time()
async def get_page(url):
  # page_text = requests.get(url=url).text
  # print(page_text)
  # return page_text
  async with aiohttp.ClientSession() as s: #生成一个session对象
    async with await s.get(url=url) as response:
      page_text = await response.text()
      print(page_text)
  return page_text

urls = [
  'http://127.0.0.1:5000/bobo',
  'http://127.0.0.1:5000/jay',
  'http://127.0.0.1:5000/tom',
]
tasks = []
for url in urls:
  c = get_page(url)
  task = asyncio.ensure_future(c)
  tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

end = time.time()
print(end-start)

# 异步执行!
# hello tom!
# hello bobo!
# hello jay!
# 2.0311079025268555

'''
aiohttp模块实现单线程+多任务异步协程
并用xpath解析数据
'''
import aiohttp
import asyncio
from lxml import etree
import time

start = time.time()
# 特殊函数:请求的发送和数据的捕获
# 注意async with await关键字
async def get_request(url):
  async with aiohttp.ClientSession() as s:
    async with await s.get(url=url) as response:
      page_text = await response.text()
      return page_text    # 返回页面源码

# 回调函数,解析数据
def parse(task):
  page_text = task.result()
  tree = etree.HTML(page_text)
  msg = tree.xpath('/html/body/ul//text()')
  print(msg)

urls = [
  'http://127.0.0.1:5000/bobo',
  'http://127.0.0.1:5000/jay',
  'http://127.0.0.1:5000/tom',
]
tasks = []
for url in urls:
  c = get_request(url)
  task = asyncio.ensure_future(c)
  task.add_done_callback(parse) #绑定回调函数!
  tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

end = time.time()
print(end-start)

requests模块+线程池

import time
import requests
from multiprocessing.dummy import Pool

start = time.time()
urls = [
  'http://127.0.0.1:5000/bobo',
  'http://127.0.0.1:5000/jay',
  'http://127.0.0.1:5000/tom',
]
def get_request(url):
  page_text = requests.get(url=url).text
  print(page_text)
  return page_text

pool = Pool(3)
pool.map(get_request, urls)
end = time.time()
print('总耗时:', end-start)

# 实现异步请求
# hello jay!
# hello bobo!
# hello tom!
# 总耗时: 2.0467123985290527

小结

爬虫的加速目前掌握了两种方法:

aiohttp模块+单线程多任务异步协程
requests模块+线程池

爬虫接触的模块有三个:

requests
urllib
aiohttp

接触了一下flask开启服务器

以上就是python如何提升爬虫效率的详细内容，更多关于python提升爬虫效率的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python使用技巧之实现Excel转为PDF
这篇文章主要为大家详细介绍了使用第三方Python库Spire.XLS for Python 实现Excel转PDF的简单方法,文中的示例代码讲解详细,需要的可以参考下
2023-11-11
Python plt.boxplot函数及其参数使用小结
plt.boxplot函数用于绘制箱线图,本文介绍了Python plt.boxplot函数及其参数使用小结,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
2024-02-02
python lambda函数及三个常用的高阶函数
这篇文章主要介绍了python lambda函数及三个常用的高阶函数,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2020-02-02
Python3内置模块pprint让打印比print更美观详解
这篇文章主要给大家介绍了关于Python3内置模块pprint让打印比print更美观的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用Python3具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-06-06
如何理解Python中包的引入
在本篇文章里小编给各位分享的是一篇关于Python中包的引入详解内容，需要的朋友们可以参考学习下。
2020-05-05
python并发2之使用asyncio处理并发
本篇文章主要介绍了python并发2之使用asyncio处理并发，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-12-12
详解python方法之绑定方法与非绑定方法
这篇文章主要介绍了python方法之绑定方法与非绑定方法的相关资料，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-08-08
Python标准库shutil用法实例详解
这篇文章主要介绍了Python标准库shutil用法,结合实例形式分析了shutil库针对文件与文件夹各种常见操作技巧与相关使用注意事项,需要的朋友可以参考下
2018-08-08
关于python 的legend图例,参数使用说明
这篇文章主要介绍了关于python 的legend图例,参数使用说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
python对比两个字典dict的差异详解
这篇文章主要为大家详细介绍了python 如何对比两个字典dict的不同差异，文中的示例代码简洁易懂，具有一定的学习价值，感兴趣的可以了解一下
2023-05-05

python如何提升爬虫效率

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具