scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

 更新时间:2015年04月16日 11:32:19   作者:pythoner  
这篇文章主要介绍了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法,涉及scrapy采集及操作mongodb数据库的技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下:

# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
  def __init__(self):
    self.server = settings['MONGODB_SERVER']
    self.port = settings['MONGODB_PORT']
    self.db = settings['MONGODB_DB']
    self.col = settings['MONGODB_COLLECTION']
    connection = pymongo.Connection(self.server, self.port)
    db = connection[self.db]
    self.collection = db[self.col]
  def process_item(self, item, spider):
    err_msg = ''
    for field, data in item.items():
      if not data:
        err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
    if err_msg:
      raise DropItem(err_msg)
    self.collection.insert(dict(item))
    log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
        level=log.DEBUG, spider=spider)
    return item

希望本文所述对大家的python程序设计有所帮助。

相关文章

  • Python FTP两个文件夹间的同步实例代码

    Python FTP两个文件夹间的同步实例代码

    本文通过实例代码给大家介绍了python ftp两个文件夹间的同步,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友参考下吧
    2018-05-05
  • Python实现CAN报文转换工具教程

    Python实现CAN报文转换工具教程

    这篇文章主要介绍了Python实现CAN报文转换工具教程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • 总结用Pdb库调试Python的方式及常用的命令

    总结用Pdb库调试Python的方式及常用的命令

    大家都知道Python是自带Pdb库,使用Pdb调试Python程序还是很方便的。但是远程调试、多线程,Pdb是搞不定的,下面一起来看看用Pdb库调试Python的方式及常用的命令。
    2016-08-08
  • Python作用域用法实例详解

    Python作用域用法实例详解

    这篇文章主要介绍了Python作用域用法,结合实例形式详细分析了Python作用域概念,用法与相关函数的使用技巧,需要的朋友可以参考下
    2016-03-03
  • python33 urllib2使用方法细节讲解

    python33 urllib2使用方法细节讲解

    Python 标准库中有很多实用的工具类,这里总结一些 urllib2 的使用细节:Proxy 的设置、Timeout 设置、在 HTTP Request 中加入特定的 、Cookie、使用 HTTP 的 PUT 和 DELETE 方法
    2013-12-12
  • 在pandas中一次性删除dataframe的多个列方法

    在pandas中一次性删除dataframe的多个列方法

    下面小编就为大家分享一篇在pandas中一次性删除dataframe的多个列方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Python中的anydbm模版和shelve模版使用指南

    Python中的anydbm模版和shelve模版使用指南

    这篇文章主要介绍了Python中的anydbm模版和shelve模版使用指南,两个模版都可用于数据存储的序列化,需要的朋友可以参考下
    2015-07-07
  • Python爬虫框架Scrapy基本用法入门教程

    Python爬虫框架Scrapy基本用法入门教程

    这篇文章主要介绍了Python爬虫框架Scrapy基本用法,结合实例形式分析了xpath简单使用、xmlfeed模板、csvfeed模板及crawlfeed模板简单使用方法,需要的朋友可以参考下
    2018-07-07
  • Python在Scrapy中设置采集深度的实现

    Python在Scrapy中设置采集深度的实现

    Scrapy是一个功能强大的Python爬虫框架,通过设置采集深度,可以优化爬虫效率,并防止爬虫陷入无尽的链接循环,本文详细介绍了如何在Scrapy中控制采集深度,感兴趣的可以了解一下
    2024-10-10
  • Python OpenCV实现图形检测示例详解

    Python OpenCV实现图形检测示例详解

    图形检测在计算机视觉开发中是一项非常重要的操作,算法通过对图像的检测,分析出图像中可能存在哪些形状。本文详细介绍了Python+OpenCV如何实现图形检测,感兴趣的可以了解一下
    2022-04-04

最新评论