Scrapy爬虫文件批量运行的实现

更新时间：2020年09月30日 10:31:15 作者：SteveForever

这篇文章主要介绍了Scrapy爬虫文件批量运行的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Scrapy批量运行爬虫文件的两种方法：

1、使用CrawProcess实现

https://doc.scrapy.org/en/latest/topics/practices.html

2、修改craw源码+自定义命令的方式实现

（1）我们打开scrapy.commands.crawl.py 文件可以看到：

 def run(self, args, opts):
    if len(args) < 1:
      raise UsageError()
    elif len(args) > 1:
      raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")
    spname = args[0]

    self.crawler_process.crawl(spname, **opts.spargs)
    self.crawler_process.start()

这是crawl.py 文件中的run() 方法，在此可以指定运行哪个爬虫，要运行所有的爬虫，则需要更改这个方法。

run() 方法中通过crawler_process.crawl(spname, **opts.spargs) 实现了爬虫文件的运行，spname代表爬虫名。要运行多个爬虫文件，首先要获取所有的爬虫文件，可以通过crawler_process.spider_loader.list() 实现。

（2）实现过程：

a、在spider目录的同级目录下创建存放源代码的文件夹mycmd，并在该目录下创建文件mycrawl.py；

b、将crawl.py 中的代码复制到mycrawl.py 文件中，然后进行修改：

#修改后的run() 方法
  def run(self, args, opts):
    #获取爬虫列表
    spd_loader_list = self.crawler_process.spider_loader.list()
    #遍历各爬虫
    for spname in spd_loader_list or args:
      self.crawler_process.crawl(spname, **opts.spargs)
      print("此时启动的爬虫："+spname)
    self.crawler_process.start()

同时可以修改：

 def short_desc(self):
    return "Run all spider"

c、在mycmd文件夹下添加一个初始化文件__init__.py，在项目配置文件（setting.py）中添加格式为“COMMANDS_MODULES='项目核心目录.自定义命令源码目录'”的配置；

例如：COMMANDS_MODULE = 'firstpjt.mycmd'

随后通过命令“scrapy -h”，可以查看到我们添加的命令mycrawl

这样，我们就可以同时启动多个爬虫文件了，使用命令：

scrapy mycrawl --nolog

到此这篇关于Scrapy爬虫文件批量运行的实现的文章就介绍到这了,更多相关Scrapy 批量运行内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python爬虫框架Scrapy实战之批量抓取招聘信息

Django在Win7下的安装及创建项目hello word简明教程
这篇文章主要介绍了Django在Win7下的安装及创建项目hello word,需要的朋友可以参考下
2014-07-07
python主线程捕获子线程的方法
这篇文章主要为大家详细介绍了python主线程捕获子线程的方法，具有一定的参考价值，感兴趣的朋友可以参考一下
2018-06-06
python中的测试框架
这篇文章主要介绍了python中测试框架的相关资料，帮助大家更好的理解和使用python进行测试，感兴趣的朋友可以了解下
2020-11-11
Python设计模式编程中Adapter适配器模式的使用实例
这篇文章主要介绍了Python设计模式编程中Adapter适配器模式的使用实例,一般来说适配器模式可以细分为类适配器和对象适配器模式,需要的朋友可以参考下
2016-03-03
flask入门之表单的实现
这篇文章主要介绍了flask入门之表单的实现，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-07-07
深入了解Django View（视图系统）
这篇文章主要介绍了简单了解Django View（视图系统）,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
Python中read,readline和readlines的区别案例详解
这篇文章主要介绍了Python中read,readline和readlines的区别案例详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
2021-09-09
PyTorch零基础入门之逻辑斯蒂回归
PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序，它是一个可续计算包，提供两个高级功能：1、具有强大的GPU加速的张量计算（如NumPy）。2、包含自动求导系统的深度神经网络
2021-10-10
浅谈python下含中文字符串正则表达式的编码问题
今天小编就为大家分享一篇浅谈python下含中文字符串正则表达式的编码问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
详解selenium + chromedriver 被反爬的解决方法
这篇文章主要介绍了详解selenium + chromedriver 被反爬的解决方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10

Scrapy爬虫文件批量运行的实现

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具