scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

更新时间：2015年04月16日 11:32:19 作者：pythoner

这篇文章主要介绍了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法,涉及scrapy采集及操作mongodb数据库的技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下：

# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
  def __init__(self):
    self.server = settings['MONGODB_SERVER']
    self.port = settings['MONGODB_PORT']
    self.db = settings['MONGODB_DB']
    self.col = settings['MONGODB_COLLECTION']
    connection = pymongo.Connection(self.server, self.port)
    db = connection[self.db]
    self.collection = db[self.col]
  def process_item(self, item, spider):
    err_msg = ''
    for field, data in item.items():
      if not data:
        err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
    if err_msg:
      raise DropItem(err_msg)
    self.collection.insert(dict(item))
    log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
        level=log.DEBUG, spider=spider)
    return item

希望本文所述对大家的python程序设计有所帮助。

您可能感兴趣的文章:

python利用文件时间批量重命名照片和视频
这篇文章主要为大家详细介绍了python利用文件时间批量重命名照片和视频，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-02-02
Python WordCloud 修改色调的实现方式
这篇文章主要介绍了Python WordCloud 修改色调的实现方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
Python pandas DataFrame数据拼接方法
我们都知道在使用pandas处理数据的时候,往往会需要合并两个或者多个DataFrame的操作,下面这篇文章主要给大家介绍了关于Python pandas DataFrame数据拼接方法的相关资料,需要的朋友可以参考下
2022-07-07
Python中列表和元组的使用方法和区别详解
这篇文章主要介绍了Python中列表和元组的使用方法和区别详解的相关资料,需要的朋友可以参考下
2016-07-07
Python搭建FTP服务器的方法示例
本篇文章主要介绍了Python搭建FTP服务器的方法示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-01-01
对python 矩阵转置transpose的实例讲解
下面小编就为大家分享一篇对python 矩阵转置transpose的实例讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
python绘制立方体的方法
这篇文章主要为大家详细介绍了python绘制立方体的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-07-07
Python 将pdf转成图片的方法
下面小编就为大家分享一篇Python 将pdf转成图片的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
使用pytorch完成kaggle猫狗图像识别方式
今天小编就为大家分享一篇使用pytorch完成kaggle猫狗图像识别方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
Python+streamlit实现轻松创建人事系统
streamlit 是基于 Python 的一个非常强大的 web 构建系统，通过该类库，我们可以实现不需要编写一行前端代码而构建一个完整的 Web 应用。下面我们就来编写一个简单的人事系统吧
2023-02-02