scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

 更新时间:2015年04月16日 11:32:19   作者:pythoner  
这篇文章主要介绍了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法,涉及scrapy采集及操作mongodb数据库的技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下:

# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
  def __init__(self):
    self.server = settings['MONGODB_SERVER']
    self.port = settings['MONGODB_PORT']
    self.db = settings['MONGODB_DB']
    self.col = settings['MONGODB_COLLECTION']
    connection = pymongo.Connection(self.server, self.port)
    db = connection[self.db]
    self.collection = db[self.col]
  def process_item(self, item, spider):
    err_msg = ''
    for field, data in item.items():
      if not data:
        err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
    if err_msg:
      raise DropItem(err_msg)
    self.collection.insert(dict(item))
    log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
        level=log.DEBUG, spider=spider)
    return item

希望本文所述对大家的python程序设计有所帮助。

相关文章

  • python Django中models进行模糊查询的示例

    python Django中models进行模糊查询的示例

    今天小编就为大家分享一篇python Django中models进行模糊查询的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • 低版本中Python除法运算小技巧

    低版本中Python除法运算小技巧

    这篇文章主要介绍了低版本中Python除法运算小技巧,python 2.5版本中存在两种除法运算,即所谓的true除法和floor除法,本文讲解了两种方法的使用技巧,需要的朋友可以参考下
    2015-04-04
  • python画图常见不同图片格式保存方式

    python画图常见不同图片格式保存方式

    这篇文章主要介绍了python画图常见不同图片格式保存方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • 浅谈Python 命令行参数argparse写入图片路径操作

    浅谈Python 命令行参数argparse写入图片路径操作

    这篇文章主要介绍了浅谈Python 命令行参数argparse写入图片路径操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • Python实现打包成库供别的模块调用

    Python实现打包成库供别的模块调用

    这篇文章主要介绍了Python实现打包成库供别的模块调用,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • 简化Python的Django框架代码的一些示例

    简化Python的Django框架代码的一些示例

    这篇文章主要介绍了简化Python的Django框架代码的一些示例,实际上文中只是抽取了一些Django中最基本的功能用于简化入门者的上手复杂度,下,需要的朋友可以参考下
    2015-04-04
  • 带你学习Python如何实现回归树模型

    带你学习Python如何实现回归树模型

    这篇文章主要介绍了Python如何实现回归树模型,文中讲解非常细致,帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • python保存log日志,实现用log日志画图

    python保存log日志,实现用log日志画图

    今天小编就为大家分享一篇python保存log日志,实现用log日志来画图,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python中获取网页状态码的两个方法

    Python中获取网页状态码的两个方法

    这篇文章主要介绍了Python中获取网页状态码的两个方法,分别使用urllib模块和requests模块实现,需要的朋友可以参考下
    2014-11-11
  • 解决python使用pd.read_csv()出现错误UnicodeDecodeError: 'utf-8' codec can't decode......

    解决python使用pd.read_csv()出现错误UnicodeDecodeError: 'utf-8&

    你是否有过之前用pd.read打开csv文件都正常,但突然有一天运行以前的代码就突然报错,这篇文章主要给大家介绍了关于如何解决python使用pd.read_csv()出现错误UnicodeDecodeError: 'utf-8' codec can't decode......的相关资料,需要的朋友可以参考下
    2023-12-12

最新评论