Python自定义scrapy中间模块避免重复采集的方法

 更新时间:2015年04月07日 16:36:56   作者:pythoner  
这篇文章主要介绍了Python自定义scrapy中间模块避免重复采集的方法,实例分析了Python实现采集的技巧,非常具有实用价值,需要的朋友可以参考下

本文实例讲述了Python自定义scrapy中间模块避免重复采集的方法。分享给大家供大家参考。具体如下:

from scrapy import log
from scrapy.http import Request
from scrapy.item import BaseItem
from scrapy.utils.request import request_fingerprint
from myproject.items import MyItem
class IgnoreVisitedItems(object):
  """Middleware to ignore re-visiting item pages if they
  were already visited before. 
  The requests to be filtered by have a meta['filter_visited']
  flag enabled and optionally define an id to use 
  for identifying them, which defaults the request fingerprint,
  although you'd want to use the item id,
  if you already have it beforehand to make it more robust.
  """
  FILTER_VISITED = 'filter_visited'
  VISITED_ID = 'visited_id'
  CONTEXT_KEY = 'visited_ids'
  def process_spider_output(self, response, result, spider):
    context = getattr(spider, 'context', {})
    visited_ids = context.setdefault(self.CONTEXT_KEY, {})
    ret = []
    for x in result:
      visited = False
      if isinstance(x, Request):
        if self.FILTER_VISITED in x.meta:
          visit_id = self._visited_id(x)
          if visit_id in visited_ids:
            log.msg("Ignoring already visited: %s" % x.url,
                level=log.INFO, spider=spider)
            visited = True
      elif isinstance(x, BaseItem):
        visit_id = self._visited_id(response.request)
        if visit_id:
          visited_ids[visit_id] = True
          x['visit_id'] = visit_id
          x['visit_status'] = 'new'
      if visited:
        ret.append(MyItem(visit_id=visit_id, visit_status='old'))
      else:
        ret.append(x)
    return ret
  def _visited_id(self, request):
    return request.meta.get(self.VISITED_ID) or request_fingerprint(request)

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • Python使用穷举法求两个数的最大公约数问题

    Python使用穷举法求两个数的最大公约数问题

    这篇文章主要介绍了Python使用穷举法求两个数的最大公约数问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • python的pyecharts绘制各种图表详细(附代码)

    python的pyecharts绘制各种图表详细(附代码)

    这篇文章主要介绍了python的pyecharts绘制各种图表详细(附代码),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • python suds访问webservice服务实现

    python suds访问webservice服务实现

    这篇文章主要介绍了python suds访问webservice服务实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2020-06-06
  • python Opencv将图片转为字符画

    python Opencv将图片转为字符画

    这篇文章主要为大家详细介绍了python Opencv将图片转为字符画的方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • GPU排队脚本实现空闲触发python脚本实现示例

    GPU排队脚本实现空闲触发python脚本实现示例

    有的服务器是多用户使用,GPU的资源常常被占据着,很可能在夜间GPU空闲了,但来不及运行自己的脚本。如果没有和别人共享服务器的话,自己的多个程序想排队使用GPU,也可以用这个脚本
    2021-11-11
  • Python自动化办公之手机号提取

    Python自动化办公之手机号提取

    这篇文章主要介绍了如何利用Python语言编写一个手机号提取器,文中的示例代码讲解详细,对我们学习Python有一定的帮助,需要的可以参考一下
    2022-06-06
  • Python Flask全栈项目实战构建在线书店流程

    Python Flask全栈项目实战构建在线书店流程

    这篇文章主要为大家介绍了Python Flask全流程全栈项目实战之在线书店构建实现过程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-11-11
  • python实现层次聚类的方法

    python实现层次聚类的方法

    层次聚类就是一层一层的进行聚类,可以由上向下把大的类别(cluster)分割,叫作分裂法,这篇文章主要介绍了python实现层次聚类的方法,需要的朋友可以参考下
    2021-11-11
  • windows下安装python的C扩展编译环境(解决Unable to find vcvarsall.bat)

    windows下安装python的C扩展编译环境(解决Unable to find vcvarsall.bat)

    这篇文章主要介绍了windows下安装python的C扩展编译环境(解决Unable to find vcvarsall.bat),需要的朋友可以参考下
    2018-02-02
  • Python  处理 Pandas DataFrame 中的行和列

    Python  处理 Pandas DataFrame 中的行和列

    这篇文章主要介绍了Python处理Pandas DataFrame中的行和列,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-09-09

最新评论