scrapy框架ItemPipeline的使用

 更新时间:2022年08月15日 11:37:59   作者:卑微小钟  
本文主要介绍了scrapy框架ItemPipeline的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

Item Pipeline简介

Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,他的主要任务是清晰、验证和存储数据。
当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。
每个Item管道的组件都是有一个简单的方法组成的Python类。
他们获取了Item并执行他们的方法,同时他们还需要确定的是是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。

调用时间: 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。

功能:

  • 清理HTML数据
  • 验证爬取的数据(检查item包含某些字段)
  • 查重(并丢弃)
  • 将爬取结果保存到数据库中

一、一个自己的Pipeline类

必须实现以下方法:

process_item(self, item**,** spider**)**

每个item pipeline组件都需要调用该方法,这个方法必须返回一个具有数据的dict,或是 Item(或任何继承类)对象, 或是抛出 DropItem 异常,被丢弃的item将不会被之后的pipeline组件所处理。

参数:

  • item (Item 对象或者一个dict) – 被爬取的item
  • spider (Spider 对象) – 爬取该item的spider

open_spider(self, spider)

当spider被开启时,这个方法被调用。参数:spider (Spider对象) – 被开启的spider

from_crawler(cls,crawler)

如果存在,则调用该类方法以从中创建管道实例Crawler。它必须返回管道的新实例。搜寻器对象提供对所有Scrapy核心组件(如设置和信号)的访问;这是管道访问它们并将其功能挂钩到Scrapy中的一种方法。

close_spider(self, spider)

当spider被关闭时,这个方法被调用参数:spider (Spider对象) – 被关闭的spider

二、启用一个Item Pipeline组件

为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置,就像下面这个例子:

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

分配给每个类的整型值,确定了他们运行的顺序,item按数字从低到高的顺序,通过pipeline,通常将这些数字定义在0-1000范围内。

将item写入JSON文件

以下pipeline将所有爬取到的item,存储到一个独立地items.json 文件,每行包含一个序列化为'JSON'格式的'item':

import json
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = open('items.json', 'wb')
    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

在这里优化:

以下pipeline将所有爬取到的item,存储到一个独立地items.json 文件,每行包含一个序列化为'JSON'格式的'item':

import json
import codecs
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = codecs.open('items.json', 'w', encoding='utf-8')
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item
    def spider_closed(self, spider):
        self.file.close()

针对spider里面的utf-8编码格式去掉.encode('utf-8')

item = RecruitItem()
item['name']=name.encode('utf-8')
item['detailLink']=detailLink.encode('utf-8')
item['catalog']=catalog.encode('utf-8')
item['recruitNumber']=recruitNumber.encode('utf-8')
item['workLocation']=workLocation.encode('utf-8')
item['publishTime']=publishTime.encode('utf-8')

将item写入MongoDB

from_crawler(cls, crawler)

如果使用,这类方法被调用创建爬虫管道实例。必须返回管道的一个新实例。crawler提供存取所有Scrapy核心组件配置和信号管理器;对于pipelines这是一种访问配置和信号管理器 的方式。

在这个例子中,我们将使用pymongo将Item写到MongoDB。MongoDB的地址和数据库名称在Scrapy setttings.py配置文件中;

这个例子主要是说明如何使用from_crawler()方法

import pymongo
class MongoPipeline(object):
    collection_name = 'scrapy_items'
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    def close_spider(self, spider):
        self.client.close()
    def process_item(self, item, spider):
        self.db[self.collection_name].insert(dict(item))
        return item

到此这篇关于scrapy框架ItemPipeline的使用的文章就介绍到这了,更多相关scrapy ItemPipeline内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python脚本生成caffe train_list.txt的方法

    python脚本生成caffe train_list.txt的方法

    下面小编就为大家分享一篇python脚本生成caffe train_list.txt的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Tensorflow2.1实现Fashion图像分类示例详解

    Tensorflow2.1实现Fashion图像分类示例详解

    这篇文章主要为大家介绍了Tensorflow2.1实现Fashion图像分类示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • python实现的爬取电影下载链接功能示例

    python实现的爬取电影下载链接功能示例

    这篇文章主要介绍了python实现的爬取电影下载链接功能,涉及Python基于BeautifulSoup模块的网页信息爬取相关操作技巧,需要的朋友可以参考下
    2019-08-08
  • PyTorch中clone()、detach()及相关扩展详解

    PyTorch中clone()、detach()及相关扩展详解

    这篇文章主要给大家介绍了关于PyTorch中clone()、detach()及相关扩展的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Python程序自动以管理员权限运行的实现方法

    Python程序自动以管理员权限运行的实现方法

    Windows上为了安全起见,python语言启动的应用程序默认都不会使用admin管理员权限,但是在有些情况下我们又需要使用管理员权限启动应用,这篇文章主要给大家介绍了关于Python程序自动以管理员权限运行的实现方法,需要的朋友可以参考下
    2023-11-11
  • 基于Python列表解析(列表推导式)

    基于Python列表解析(列表推导式)

    今天小编就为大家分享一篇基于Python列表解析(列表推导式),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • OpenCV-Python实现图像梯度与Sobel滤波器

    OpenCV-Python实现图像梯度与Sobel滤波器

    在实际应用中我们只需要将图像矩阵与Sobel滤波器卷积就可以得到图像的梯度矩阵了。具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-06-06
  • Python操作MySQL数据库的三种方法总结

    Python操作MySQL数据库的三种方法总结

    下面小编就为大家分享一篇Python操作MySQL数据库的三种方法总结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-01-01
  • Python 画出来六维图

    Python 画出来六维图

    这篇文章主要介绍了Python 画出来六维图,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • numpy.bincount用于复数权重的方法

    numpy.bincount用于复数权重的方法

    numpy.bincount是NumPy库中的一个函数,它用于计算整数数组中每个值的出现次数,numpy.bincount函数在统计整数数组中每个值的出现次数或权重和时非常有用,本文给大家介绍numpy.bincount如何用于复数权重,感兴趣的朋友跟随小编一起看看吧
    2023-11-11

最新评论