Scrapy爬虫文件批量运行的实现

 更新时间:2020年09月30日 10:31:15   作者:SteveForever  
这篇文章主要介绍了Scrapy爬虫文件批量运行的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

Scrapy批量运行爬虫文件的两种方法:

1、使用CrawProcess实现

https://doc.scrapy.org/en/latest/topics/practices.html

2、修改craw源码+自定义命令的方式实现

(1)我们打开scrapy.commands.crawl.py 文件可以看到:

 def run(self, args, opts):
    if len(args) < 1:
      raise UsageError()
    elif len(args) > 1:
      raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")
    spname = args[0]

    self.crawler_process.crawl(spname, **opts.spargs)
    self.crawler_process.start()

这是crawl.py 文件中的run() 方法,在此可以指定运行哪个爬虫,要运行所有的爬虫,则需要更改这个方法。

run() 方法中通过crawler_process.crawl(spname, **opts.spargs) 实现了爬虫文件的运行,spname代表爬虫名。要运行多个爬虫文件,首先要获取所有的爬虫文件,可以通过crawler_process.spider_loader.list() 实现。

(2)实现过程:

a、在spider目录的同级目录下创建存放源代码的文件夹mycmd,并在该目录下创建文件mycrawl.py;

b、将crawl.py 中的代码复制到mycrawl.py 文件中,然后进行修改:

#修改后的run() 方法
  def run(self, args, opts):
    #获取爬虫列表
    spd_loader_list = self.crawler_process.spider_loader.list()
    #遍历各爬虫
    for spname in spd_loader_list or args:
      self.crawler_process.crawl(spname, **opts.spargs)
      print("此时启动的爬虫:"+spname)
    self.crawler_process.start()

同时可以修改:

 def short_desc(self):
    return "Run all spider"

c、在mycmd文件夹下添加一个初始化文件__init__.py,在项目配置文件(setting.py)中添加格式为“COMMANDS_MODULES='项目核心目录.自定义命令源码目录'”的配置;

例如:COMMANDS_MODULE = 'firstpjt.mycmd'

随后通过命令“scrapy -h”,可以查看到我们添加的命令mycrawl

这样,我们就可以同时启动多个爬虫文件了,使用命令:

scrapy mycrawl --nolog

到此这篇关于Scrapy爬虫文件批量运行的实现的文章就介绍到这了,更多相关Scrapy 批量运行内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python复制文件操作实例详解

    Python复制文件操作实例详解

    这篇文章主要介绍了Python复制文件操作的方法,涉及Python针对文件与目录的复制及删除操作相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-11-11
  • Python实现上传Minio和阿里Oss文件

    Python实现上传Minio和阿里Oss文件

    这篇文章主要介绍了如何通过Python上传Minio和阿里OSS文件,文中的示例代码介绍得很详细,对我们的工作和学习都有一定的价值,感兴趣的小伙伴可以了解一下
    2021-12-12
  • Python Selenium破解滑块验证码最新版(GEETEST95%以上通过率)

    Python Selenium破解滑块验证码最新版(GEETEST95%以上通过率)

    这篇文章主要介绍了Python Selenium破解滑块验证码最新版(GEETEST95%以上通过率),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 使用Python实现企业微信通知功能案例分析

    使用Python实现企业微信通知功能案例分析

    这篇文章主要介绍了使用Python实现企业微信通知功能,主要目的是通过企业微信应用给企业成员发消息,通过案例分析给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-04-04
  • python并发编程多进程之守护进程原理解析

    python并发编程多进程之守护进程原理解析

    这篇文章主要介绍了python并发编程多进程之守护进程原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python调用C/C++动态链接库的方法详解

    Python调用C/C++动态链接库的方法详解

    这篇文章主要介绍了Python调用C/C++动态链接库的方法,需要的朋友可以参考下
    2014-07-07
  • python实现拓扑排序的基本教程

    python实现拓扑排序的基本教程

    拓扑排序是对有向无环图的一种排序,发现自己并没有真的理解拓扑排序,再次学习了下,所以下面这篇文章主要给大家介绍了关于python实现拓扑排序的基本教程,文中通过示例代码介绍的非常详细,需要的朋友可以参考下,
    2018-03-03
  • python制作爬虫爬取京东商品评论教程

    python制作爬虫爬取京东商品评论教程

    本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下
    2016-12-12
  • Django serializer优化类视图的实现示例

    Django serializer优化类视图的实现示例

    这篇文章主要介绍了Django serializer优化类视图的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-07-07
  • python读写自定义格式的pcd文件的示例代码

    python读写自定义格式的pcd文件的示例代码

    这篇文章主要介绍了python读写自定义格式的pcd文件,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-07-07

最新评论