Python使用scrapy采集数据过程中放回下载过大页面的方法

 更新时间:2015年04月08日 10:27:20   作者:pythoner  
这篇文章主要介绍了Python使用scrapy采集数据过程中放回下载过大页面的方法,可实现限制下载过大页面的功能,非常具有实用价值,需要的朋友可以参考下

本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下:

添加以下代码到settings.py,myproject为你的项目名称

复制代码 代码如下:
DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'

自定义限制下载过大页面的模块

复制代码 代码如下:
MAX_RESPONSE_SIZE = 1048576 # 1Mb
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
class LimitSizePageGetter(ScrapyHTTPPageGetter):
    def handleHeader(self, key, value):
        ScrapyHTTPPageGetter.handleHeader(self, key, value)
        if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE:
            self.connectionLost('oversized')
class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory):
     protocol = LimitSizePageGetter

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • OpenCV图像处理GUI功能详解

    OpenCV图像处理GUI功能详解

    GUI功能是opencv的入门知识,本文给大家介绍下OpenCV图像处理GUI功能,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,感兴趣的朋友一起看看吧
    2022-03-03
  • Python中turtle.write方法使用说明

    Python中turtle.write方法使用说明

    turtle模块以面向对象和面向过程的方式提供turtle图形基元,由于它使用Tkinter作为基础图形,因此需要安装有Tk支持的Python版本,下面这篇文章主要给大家介绍了关于Python中turtle.write方法使用说明的相关资料,需要的朋友可以参考下
    2022-02-02
  • Python替换NumPy数组中大于某个值的所有元素实例

    Python替换NumPy数组中大于某个值的所有元素实例

    这篇文章主要介绍了Python替换NumPy数组中大于某个值的所有元素实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • Python3实现网页内容转换成PDF文档和图片

    Python3实现网页内容转换成PDF文档和图片

    pdfkit是把 HTML+CSS 格式的文件转换成 PDF 的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。本文将利用pdfkit实现网页内容转换成PDF文档和图片效果,感兴趣的可以学习一下
    2022-06-06
  • linux环境下的python安装过程图解(含setuptools)

    linux环境下的python安装过程图解(含setuptools)

    这篇文章主要介绍了linux环境下的python安装过程图解(含setuptools),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-11-11
  • Python3 replace()函数使用方法

    Python3 replace()函数使用方法

    这篇文章主要介绍了Python3 replace()函数使用方法,需要的朋友可以参考下
    2018-03-03
  • 在VS2017中用C#调用python脚本的实现

    在VS2017中用C#调用python脚本的实现

    这篇文章主要介绍了在VS2017中用C#调用python脚本的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • 如何使用Selenium实现简单的网络自动化操作指南

    如何使用Selenium实现简单的网络自动化操作指南

    Selenium是一个用于Web应用测试的工具,Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,这篇文章主要给大家介绍了关于如何使用Selenium实现简单的网络自动化操作的相关资料,需要的朋友可以参考下
    2024-03-03
  • Python之os模块案例详解

    Python之os模块案例详解

    这篇文章主要介绍了Python之os模块案例详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
    2021-09-09
  • python excel使用xlutils类库实现追加写功能的方法

    python excel使用xlutils类库实现追加写功能的方法

    今天小编就为大家带来一篇python excel使用xlutils类库实现追加写功能的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05

最新评论