如何向scrapy中的spider传递参数的几种方法

 更新时间:2020年11月18日 11:20:41   作者:bluespacezero  
这篇文章主要介绍了如何向scrapy中的spider传递参数的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

有时需要根据项目的实际需求向spider传递参数以控制spider的行为,比如说,根据用户提交的url来控制spider爬取的网站。在这种情况下,可以使用两种方法向spider传递参数。

第一种方法,在命令行用crawl控制spider爬取的时候,加上-a选项,例如:

scrapy crawl myspider -a category=electronics

然后在spider里这样写:

import scrapy

class MySpider(scrapy.Spider):
  name = 'myspider'

  def __init__(self, category=None, *args, **kwargs):
    super(MySpider, self).__init__(*args, **kwargs)
    self.start_urls = ['http://www.example.com/categories/%s' % category]
    # ...

也就是在spider的构造函数里加上带入的参数即可。

第二种方法,在用scrapyd控制spider的时候,可以向schedule.json发送-d选项加入参数,同样的,也需要在spider的构造函数里如上写法。例如:

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

另外,如果需要在scrapy发出的request上加入参数,可以使用request的meta参数,然后就可以相应的在返回的respose对象中获得传入的参数。这在某些情况下相当有用,比如说需要确定这个url是哪个用户请求爬取的,可以先用上面两种方法之一将信息传递给spider,spider就可以把这个信息加入到request中,然后在相应的reponse中就可以将这个信息与从url的页面中获得的信息一起存入数据库。例如:

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request

def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

到此这篇关于如何向scrapy中的spider传递参数的几种方法的文章就介绍到这了,更多相关scrapy spider传递参数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 如何在scrapy中捕获并处理各种异常

    如何在scrapy中捕获并处理各种异常

    这篇文章主要介绍了如何在scrapy中捕获并处理各种异常,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • Python爬虫抓取技术的一些经验

    Python爬虫抓取技术的一些经验

    这篇文章主要介绍了Python爬虫抓取技术的一些经验,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • python3读取csv文件任意行列代码实例

    python3读取csv文件任意行列代码实例

    这篇文章主要介绍了python3读取csv文件任意行列代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-01-01
  • Python打印输出数组中全部元素

    Python打印输出数组中全部元素

    使用Python打印数组时会遇到一个问题,当打印的数组元素比较多时,会出现只打印出数组开始与结尾部分中间部分用省略省略了,下面的方法可以完美解决这个问题
    2018-03-03
  • Python3标准库之functools管理函数的工具详解

    Python3标准库之functools管理函数的工具详解

    functools模块提供的主要工具就是partial类,可以用来“包装”一个有默认参数的callable对象。这篇文章主要介绍了Python3标准库functools管理函数的工具的实例详解,需要的朋友可以参考下
    2020-02-02
  • 使用pycharm和pylint检查python代码规范操作

    使用pycharm和pylint检查python代码规范操作

    这篇文章主要介绍了使用pycharm和pylint检查python代码规范操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • Python 3.x读写csv文件中数字的方法示例

    Python 3.x读写csv文件中数字的方法示例

    在我们日常开发中经常需要对csv文件进行读写,下面这篇文章主要给大家介绍了关于Python 3.x读写csv文件中数字的相关资料,文中通过示例代码介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面跟着小编来一起学习学习吧。
    2017-08-08
  • 使用Python给头像戴上圣诞帽的图像操作过程解析

    使用Python给头像戴上圣诞帽的图像操作过程解析

    这篇文章主要介绍了使用Python给头像戴上圣诞帽的过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • 对python函数签名的方法详解

    对python函数签名的方法详解

    今天小编就为大家分享一篇对python函数签名的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Pandas对数值进行分箱操作的4种方法总结

    Pandas对数值进行分箱操作的4种方法总结

    分箱是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。本文将使用python Pandas库对数值进行分箱的4种方法,感兴趣的可以了解一下
    2022-05-05

最新评论