在scrapy中使用phantomJS实现异步爬取的方法

 更新时间:2018年12月17日 11:16:02   作者:郎总  
今天小编就为大家分享一篇在scrapy中使用phantomJS实现异步爬取的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

使用selenium能够非常方便的获取网页的ajax内容,并且能够模拟用户点击和输入文本等诸多操作,这在使用scrapy爬取网页的过程中非常有用。

网上将selenium集成到scrapy的文章很多,但是很少有能够实现异步爬取的,下面这段代码就重写了scrapy的downloader,同时实现了selenium的集成以及异步。

使用时需要PhantomJSDownloadHandler添加到配置文件的DOWNLOADER中。

# encoding: utf-8
from __future__ import unicode_literals
 
from scrapy import signals
from scrapy.signalmanager import SignalManager
from scrapy.responsetypes import responsetypes
from scrapy.xlib.pydispatch import dispatcher
from selenium import webdriver
from six.moves import queue
from twisted.internet import defer, threads
from twisted.python.failure import Failure
 
 
class PhantomJSDownloadHandler(object):
 
 def __init__(self, settings):
  self.options = settings.get('PHANTOMJS_OPTIONS', {})
 
  max_run = settings.get('PHANTOMJS_MAXRUN', 10)
  self.sem = defer.DeferredSemaphore(max_run)
  self.queue = queue.LifoQueue(max_run)
 
  SignalManager(dispatcher.Any).connect(self._close, signal=signals.spider_closed)
 
 def download_request(self, request, spider):
  """use semaphore to guard a phantomjs pool"""
  return self.sem.run(self._wait_request, request, spider)
 
 def _wait_request(self, request, spider):
  try:
   driver = self.queue.get_nowait()
  except queue.Empty:
   driver = webdriver.PhantomJS(**self.options)
 
  driver.get(request.url)
  # ghostdriver won't response when switch window until page is loaded
  dfd = threads.deferToThread(lambda: driver.switch_to.window(driver.current_window_handle))
  dfd.addCallback(self._response, driver, spider)
  return dfd
 
 def _response(self, _, driver, spider):
  body = driver.execute_script("return document.documentElement.innerHTML")
  if body.startswith("<head></head>"): # cannot access response header in Selenium
   body = driver.execute_script("return document.documentElement.textContent")
  url = driver.current_url
  respcls = responsetypes.from_args(url=url, body=body[:100].encode('utf8'))
  resp = respcls(url=url, body=body, encoding="utf-8")
 
  response_failed = getattr(spider, "response_failed", None)
  if response_failed and callable(response_failed) and response_failed(resp, driver):
   driver.close()
   return defer.fail(Failure())
  else:
   self.queue.put(driver)
   return defer.succeed(resp)
 
 def _close(self):
  while not self.queue.empty():
   driver = self.queue.get_nowait()
   driver.close()

以上这篇在scrapy中使用phantomJS实现异步爬取的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python MD5加密实例详解

    Python MD5加密实例详解

    这篇文章主要介绍了Python MD5加密实例详解的相关资料,这里提供实现方法及实例,需要的朋友可以参考下
    2017-08-08
  • 使用Python将Exception异常错误堆栈信息写入日志文件

    使用Python将Exception异常错误堆栈信息写入日志文件

    这篇文章主要介绍了使用Python将Exception异常错误堆栈信息写入日志文件,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python正则表达式re模块的使用示例详解

    python正则表达式re模块的使用示例详解

    这篇文章主要为大家介绍了python正则表达式re模块的使用示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06
  • Python中yield函数的用法详解

    Python中yield函数的用法详解

    这篇文章详细介绍了Python中的yield关键字及其用法,yield关键字用于生成器函数中,使得函数可以像迭代器一样工作,但不会一次性将所有结果加载到内存中,文中将用法介绍的非常详细,需要的朋友可以参考下
    2025-03-03
  • python scipy.spatial.distance 距离计算函数  

    python scipy.spatial.distance 距离计算函数  

    本文主要介绍了python scipy.spatial.distance 距离计算函数,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • pandas使用get_dummies进行one-hot编码的方法

    pandas使用get_dummies进行one-hot编码的方法

    今天小编就为大家分享一篇pandas使用get_dummies进行one-hot编码的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • 详解Python中深浅拷贝的使用及注意事项

    详解Python中深浅拷贝的使用及注意事项

    Python中的深浅拷贝是经常被使用的概念,对于初学者来说可能会比较难以理解,本文将详细阐述Python深浅拷贝的概念、使用场景、注意事项以及如何实现深浅拷贝
    2023-04-04
  • python密码错误三次锁定(实例讲解)

    python密码错误三次锁定(实例讲解)

    下面小编就为大家分享一篇python密码错误三次锁定的实例讲解。具有很好的参考价值。希望对大家有所帮助。一起跟随小编过来看看吧
    2017-11-11
  • pyqt5实现按钮添加背景图片以及背景图片的切换方法

    pyqt5实现按钮添加背景图片以及背景图片的切换方法

    今天小编就为大家分享一篇pyqt5实现按钮添加背景图片以及背景图片的切换方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • 清理pip和conda缓存的方法示例

    清理pip和conda缓存的方法示例

    本文主要介绍了清理pip和conda缓存的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-03-03

最新评论