关于爬虫中scrapy.Request的更多参数用法

 更新时间:2022年07月15日 09:42:04   作者:黑马蓝汐  
这篇文章主要介绍了关于爬虫中scrapy.Request的更多参数用法说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

爬虫中scrapy.Request的更多参数

scrapy.Request的参数

scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=Fallse])

参数解释:

中括号中的参数为可选参数,可写可不写

  • callback:表示当前的url响应交给哪个函数去处理(默认为parse函数)
  • meta:实现数据在不同解析函数中传递,meta默认带有部分数据,比如下载延迟、请求深度等(用于解析方法之间的数据传递,常用在一条数据分散在多个不同结构的页面中的情况)
  • dont_filter:默认为False,会过滤请求的url地址,即请求过的url地址不会继续被请求,对需要重复请求的url地址可以把它设置为True,start_urls中的地址会被反复请求,否则程序不会启动
  • headers:接收一个字典,其中不包括cookies
  • cookies:接收一个字典,专门放置cookies
  • method:指定POST或GET请求
  • body:接收json字符串,为post的数据发送payload_post请求

meta参数

meta的作用:meta可以实现数据在不同的解析函数中的传递

在爬虫文件的parse方法中,增加一个函数parse_detail函数(用来解析另一个页面):

def parse(self,response):
    ...
    yield scrapy.Request(detail_url, callback=self.parse_detail,meta={"item":item})
...

def parse_detail(self,response):
    #获取之前传入的item
    item = resposne.meta["item"]

就相当于,把parse中解析的数据存到了meta字典中,对应的key为item;而在另一个函数(parse_detail)中,通过meta字典中的key:item来提取parse中的数据,从而实现不同页面数据的拼接

注意:

  • meta参数是一个字典
  • meta字典中有一个固定的键proxy,表示代理ip

scrapy中Request中常用参数

  • url: 就是需要请求,并进行下一步处理的url
  • callback: 指定该请求返回的Response,由那个函数来处理。
  • method: 一般不需要指定,使用默认GET方法请求即可
  • headers: 请求时,包含的头文件。一般不需要。内容一般如下:使用 urllib2 自己写过爬虫的肯定知道
Host: media.readthedocs.org
User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
Accept: text/css,*/*;q=0.1
Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
Cookie: _ga=GA1.2.1612165614.1415584110;
Connection: keep-alive
If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT
Cache-Control: max-age=0
  • meta: 比较常用,在不同的请求之间传递数据使用的。字典dict型
request_with_cookies = Request(url="http://www.example.com",
       cookies={'currency': 'USD', 'country': 'UY'},
       meta={'dont_merge_cookies': True})
  • encoding: 使用默认的 'utf-8' 就行。

dont_filter: indicates that this request should not be filtered by the scheduler. 
     This is used when you want to perform an identical request multiple times, 
     to ignore the duplicates filter. Use it with care, or you will get into crawling loops. 
     Default to False.

  • errback: 指定错误处理函数

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python 实现生成均匀分布的点

    python 实现生成均匀分布的点

    今天小编就为大家分享一篇python 实现生成均匀分布的点,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python中优雅使用assert断言的方法实例

    Python中优雅使用assert断言的方法实例

    我们在开发一个程序时候,与其让它运行时崩溃,不如在它出现错误条件时就崩溃(返回错误),这时候断言assert就显得非常有用,这篇文章主要给大家介绍了关于Python中优雅使用assert断言的相关资料,需要的朋友可以参考下
    2021-09-09
  • python代码如何调出cmd命令行窗口并在cmd窗口中执行指定的命令

    python代码如何调出cmd命令行窗口并在cmd窗口中执行指定的命令

    这篇文章主要介绍了python代码如何调出cmd命令行窗口并在cmd窗口中执行指定的命令问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Python中字符串的修改及传参详解

    Python中字符串的修改及传参详解

    最近在一次使用python实现字符串反转的时候,发现写出的代码居然是错误的,于是通过思考后决定要总结下这次的经历,于是写了这篇文章,本文的内容主要给大家介绍了Python中字符串的修改及传参,有需要的朋友们可以参考借鉴,下面来一起学习学习吧。
    2016-11-11
  • python中的元组与列表及元组的更改

    python中的元组与列表及元组的更改

    这篇文章主要介绍了python中的元组与列表及元组的更改,元组是由一对方括号构成的序列。列表创建后,可以根据自己的需要改变他的内容,下面更多详细内容,需要的小伙伴可以参考一下
    2022-03-03
  • Django-imagekit的使用详解

    Django-imagekit的使用详解

    ImageKit是一个用于处理图像的Django应用程序。这篇文章主要介绍了Django-imagekit的使用,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-07-07
  • PyQt5高级界面控件之QTableWidget的具体使用方法

    PyQt5高级界面控件之QTableWidget的具体使用方法

    这篇文章主要介绍了PyQt5高级界面控件之QTableWidget的具体使用方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02
  • 使用OpenCV实现仿射变换—缩放功能

    使用OpenCV实现仿射变换—缩放功能

    这篇文章主要介绍了使用OpenCV实现仿射变换—缩放功能,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • 使用matplotlib动态刷新指定曲线实例

    使用matplotlib动态刷新指定曲线实例

    这篇文章主要介绍了使用matplotlib动态刷新指定曲线实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • 如何将Python列表转换为字符串

    如何将Python列表转换为字符串

    字符串是Python中最常用的数据类型,下面这篇文章主要给大家介绍了关于如何将Python列表转换为字符串的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-03-03

最新评论