scrapy自定义pipeline类实现将采集数据保存到mongodb的方法
更新时间:2015年04月16日 11:32:19 作者:pythoner
这篇文章主要介绍了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法,涉及scrapy采集及操作mongodb数据库的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下:
# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
def __init__(self):
self.server = settings['MONGODB_SERVER']
self.port = settings['MONGODB_PORT']
self.db = settings['MONGODB_DB']
self.col = settings['MONGODB_COLLECTION']
connection = pymongo.Connection(self.server, self.port)
db = connection[self.db]
self.collection = db[self.col]
def process_item(self, item, spider):
err_msg = ''
for field, data in item.items():
if not data:
err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
if err_msg:
raise DropItem(err_msg)
self.collection.insert(dict(item))
log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
level=log.DEBUG, spider=spider)
return item
希望本文所述对大家的python程序设计有所帮助。
相关文章
浅谈Python 命令行参数argparse写入图片路径操作
这篇文章主要介绍了浅谈Python 命令行参数argparse写入图片路径操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-07-07
解决python使用pd.read_csv()出现错误UnicodeDecodeError: 'utf-8&
你是否有过之前用pd.read打开csv文件都正常,但突然有一天运行以前的代码就突然报错,这篇文章主要给大家介绍了关于如何解决python使用pd.read_csv()出现错误UnicodeDecodeError: 'utf-8' codec can't decode......的相关资料,需要的朋友可以参考下2023-12-12


最新评论