python使用Scrapy库进行数据提取和处理的方法详解

 更新时间:2023年09月08日 08:51:21   作者:小小张说故事  
在我们的初级教程中,我们介绍了如何使用Scrapy创建和运行一个简单的爬虫,在这篇文章中,我们将深入了解Scrapy的强大功能,学习如何使用Scrapy提取和处理数据

一、数据提取:Selectors和Item

在Scrapy中,提取数据主要通过Selectors来完成。Selectors基于XPath或CSS表达式的查询语言来选取HTML文档中的元素。你可以在你的爬虫中使用response对象的xpathcss方法来创建一个Selector对象。

例如,我们可以修改我们的QuotesSpider爬虫,使用Selectors来提取每个引用的文本和作者:

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]
    def parse(self, response):
        for quote in response.css('div.quote'):
            text = quote.css('span.text::text').get()
            author = quote.css('span small::text').get()
            print(f'Text: {text}, Author: {author}')

此外,Scrapy还提供了Item类,可以定义你想要收集的数据结构。Item类非常适合收集结构化数据,如我们从quotes.toscrape.com中获取的引用:

import scrapy
class QuoteItem(scrapy.Item):
    text = scrapy.Field()
    author = scrapy.Field()

然后我们可以修改QuotesSpider爬虫,使其生成和收集QuoteItem对象:

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]
    def parse(self, response):
        for quote in response.css('div.quote'):
            item = QuoteItem()
            item['text'] = quote.css('span.text::text').get()
            item['author'] = quote.css('span small::text').get()
            yield item

二、数据处理:Pipelines

Scrapy使用数据管道(pipelines)来处理爬虫从网页中抓取的Item。当爬虫生成一个Item,它将被发送到Item Pipeline进行处理。

Item Pipeline是一些按照执行顺序排列的类,每个类都是一个数据处理单元。每个Item Pipeline组件都是一个Python类,必须实现一个process_item方法。这个方法必须返回一个Item对象,或者抛出DropItem异常,被丢弃的item将不会被之后的pipeline组件所处理。

例如,我们可以添加一个Pipeline,将收集的引用保存到JSON文件中:

import json
class JsonWriterPipeline(object):
    def open_spider(self, spider):
        self.file = open('quotes.jl', 'w')
    def close_spider(self, spider):
        self.file.close()
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

然后你需要在项目的设置文件(settings.py)中启用你的Pipeline:

ITEM_PIPELINES = {
   'tutorial.pipelines.JsonWriterPipeline': 1,
}

在这篇文章中,我们更深入地探讨了Scrapy的功能,包括如何使用Selectors和Item提取数据,如何使用Pipelines处理数据。在下一篇文章中,我们将学习如何使用Scrapy处理更复杂的情况,如登录、cookies、以及如何避免爬虫被网站识别和封锁等问题。

到此这篇关于python使用Scrapy库进行数据提取和处理的方法详解的文章就介绍到这了,更多相关python Scrapy数据提取和处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中的闭包与装饰器的用法详解

    Python中的闭包与装饰器的用法详解

    这篇文章主要介绍了Python中的闭包与装饰器的用法详解,装饰器本质上是一个Python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象,需要的朋友可以参考下
    2023-07-07
  • 详解python3中的真值测试

    详解python3中的真值测试

    这篇文章主要介绍了详解python3中的真值测试,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-08-08
  • Python进行指数和对数曲线拟合详解

    Python进行指数和对数曲线拟合详解

    曲线拟合是构造曲线或数学函数的过程,其具有对一系列数据点的最佳拟合,可能受到约束,本文主要介绍了如何使用Python实现指数和对数曲线拟合,需要的可以参考下
    2024-04-04
  • 聊聊python dropna()和notnull()的用法区别

    聊聊python dropna()和notnull()的用法区别

    这篇文章主要介绍了聊聊python dropna()和notnull()的用法区别,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • python 三种方法提取pdf中的图片

    python 三种方法提取pdf中的图片

    这篇文章主要介绍了python 三种方法提取pdf中的图片,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2021-02-02
  • 使用python+requests+pytest实现接口自动化

    使用python+requests+pytest实现接口自动化

    这篇文章主要介绍了使用python+requests+pytest实现接口自动化,在当前互联网产品迭代频繁的背景下,回归测试的时间越来越少,但接口自动化测试因其实现简单、维护成本低,容易提高覆盖率等特点,越来越受重视,需要的朋友可以参考下
    2023-08-08
  • Mac中pyenv的安装与使用教程

    Mac中pyenv的安装与使用教程

    pyenv支持linux下python多版本的共存和版本之间切换,非常方便,下面这篇文章主要给大家介绍了关于Mac中pyenv安装与使用的相关资料,需要的朋友可以参考下
    2022-02-02
  • python从gbff文件中直接提取cds序列

    python从gbff文件中直接提取cds序列

    这篇文章主要为大家介绍了python从gbff文件中直接提取cds序列示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • Ubuntu18.04安装 PyCharm并使用 Anaconda 管理的Python环境

    Ubuntu18.04安装 PyCharm并使用 Anaconda 管理的Python环境

    这篇文章主要介绍了Ubuntu18.04安装 PyCharm并使用 Anaconda 管理的Python环境的教程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • python机器学习之神经网络(三)

    python机器学习之神经网络(三)

    这篇文章主要为大家详细介绍了python机器学习之神经网络第三篇,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12

最新评论