记录一下scrapy中settings的一些配置小结

 更新时间:2020年09月28日 11:16:22   作者:Davide~苏  
这篇文章主要介绍了记录一下scrapy中settings的一些配置小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'

# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}

# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10

# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:

相关文章

  • Python 调用C++封装的进一步探索交流

    Python 调用C++封装的进一步探索交流

    这篇文章主要介绍了Python 调用C++封装的进一步探索交流,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • python实现简易版计算器

    python实现简易版计算器

    这篇文章主要为大家详细介绍了python实现简易版计算器,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • Python中struct模块对字节流/二进制流的操作教程

    Python中struct模块对字节流/二进制流的操作教程

    最近在学习python网络编程这一块,在写简单的socket通信代码时,遇到了struct这个模块的使用,当时不太清楚这到底有和作用,后来查阅了相关资料大概了解了,这篇文章就主要介绍了Python中struct模块对字节流/二进制流的操作,需要的朋友可以参考借鉴。
    2017-01-01
  • python实现批量转换文件编码(批转换编码示例)

    python实现批量转换文件编码(批转换编码示例)

    这篇文章主要介绍了python实现批量转换文件编码示例,指定文件编码、目录或扩展名即可进行转换,大家参考使用吧
    2014-01-01
  • 一文搞懂Python中subprocess模块的使用

    一文搞懂Python中subprocess模块的使用

    subprocess是子流程,即进程的意思,该模块可以启动一个新进程,并连接到它们的输入/输出/错误管道,从而获取返回值。本文将和大家聊聊subprocess模块的使用,需要的可以参考一下
    2022-11-11
  • Python多进程并发与多线程并发编程实例总结

    Python多进程并发与多线程并发编程实例总结

    这篇文章主要介绍了Python多进程并发与多线程并发编程,结合实例形式总结分析了Python编程中的多进程并发与多线程并发相关概念、使用方法与操作注意事项,需要的朋友可以参考下
    2018-02-02
  • Python内建类型list源码学习

    Python内建类型list源码学习

    这篇文章主要为大家介绍了Python内建类型list源码学习,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • Python变量和字符串详解

    Python变量和字符串详解

    本篇文章主要介绍了Python变量和字符串的相关资料。具有很好的参考价值。下面跟着小编一起来看下吧
    2017-04-04
  • Django传递数据给前端的3种方式小结

    Django传递数据给前端的3种方式小结

    Django从后台往前台传递数据时有多种方法可以实现,下面这篇文章主要给大家介绍了关于Django传递数据给前端的3种方式,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-01-01
  • Jupyter加载文件的实现方法

    Jupyter加载文件的实现方法

    这篇文章主要介绍了Jupyter加载文件的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04

最新评论