Python自定义scrapy中间模块避免重复采集的方法

更新时间：2015年04月07日 16:36:56 作者：pythoner

这篇文章主要介绍了Python自定义scrapy中间模块避免重复采集的方法,实例分析了Python实现采集的技巧,非常具有实用价值,需要的朋友可以参考下

本文实例讲述了Python自定义scrapy中间模块避免重复采集的方法。分享给大家供大家参考。具体如下：

from scrapy import log
from scrapy.http import Request
from scrapy.item import BaseItem
from scrapy.utils.request import request_fingerprint
from myproject.items import MyItem
class IgnoreVisitedItems(object):
  """Middleware to ignore re-visiting item pages if they
  were already visited before. 
  The requests to be filtered by have a meta['filter_visited']
  flag enabled and optionally define an id to use 
  for identifying them, which defaults the request fingerprint,
  although you'd want to use the item id,
  if you already have it beforehand to make it more robust.
  """
  FILTER_VISITED = 'filter_visited'
  VISITED_ID = 'visited_id'
  CONTEXT_KEY = 'visited_ids'
  def process_spider_output(self, response, result, spider):
    context = getattr(spider, 'context', {})
    visited_ids = context.setdefault(self.CONTEXT_KEY, {})
    ret = []
    for x in result:
      visited = False
      if isinstance(x, Request):
        if self.FILTER_VISITED in x.meta:
          visit_id = self._visited_id(x)
          if visit_id in visited_ids:
            log.msg("Ignoring already visited: %s" % x.url,
                level=log.INFO, spider=spider)
            visited = True
      elif isinstance(x, BaseItem):
        visit_id = self._visited_id(response.request)
        if visit_id:
          visited_ids[visit_id] = True
          x['visit_id'] = visit_id
          x['visit_status'] = 'new'
      if visited:
        ret.append(MyItem(visit_id=visit_id, visit_status='old'))
      else:
        ret.append(x)
    return ret
  def _visited_id(self, request):
    return request.meta.get(self.VISITED_ID) or request_fingerprint(request)

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

Python实现判断变量是否是函数方式
这篇文章主要介绍了Python实现判断变量是否是函数方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02
使用python Telnet远程登录执行程序的方法
今天小编就为大家分享一篇使用python Telnet远程登录执行程序的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
Python常见的函数及格式化输出
这篇文章主要介绍了Python常见的upper()、lower()、title()等函数，感兴趣的朋友可以一起来学习学习文章内容
2021-09-09
python中类变量与成员变量的使用注意点总结
python 的类中主要会使用的两种变量:类变量与成员变量。类变量是类所有实例化对象共有的，而成员变量是每个实例化对象自身特有的。下面这篇文章主要给大家介绍了在python中类变量与成员变量的一些使用注意点，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-04-04
Python中tuple类型的使用
在Python中,元组（tuple）是一种不可变的序列类型,可以包含多个值,这些值可以是不同类型的,本文主要介绍了Python中tuple类型的使用,感兴趣的可以了解一下
2023-12-12
python按行读取文件并找出其中指定字符串
这篇文章主要介绍了python按行读取文件并找出其中指定字符串的方法，本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2019-08-08
python中的sys模块和os模块
这篇文章主要介绍了python中的sys模块和os模块，sys模块提供对解释器使用或维护的一些变量的访问，以及与解释器强烈交互的函数，os模块提供了多数操作系统的功能接口函数，下文更多相关内容需要的小伙伴可以参考一下
2022-03-03
Python实现简单状态框架的方法
这篇文章主要介绍了Python实现简单状态框架的方法,涉及Python状态框架的实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-03-03
使用python连接mysql数据库数据方式
这篇文章主要介绍了使用python连接mysql数据库数据方式，住哟有两种方式，具体内容，需要的小伙伴可以参考下面文章内容，希望对你有所帮助
2022-03-03
Python 数据处理更容易的12个辅助函数总结
Python的产生似乎就是专门用来处理数据的，顺理成章的成为大数据的主流语言，本文介绍十二个函数辅助你更容易更便捷的用Python进行数据处理
2021-11-11