Python Scrapy 框架简单介绍

 更新时间:2023年05月16日 11:15:59   作者:凌冰_  
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,这篇文章主要介绍了Scrapy框架优点及简单介绍,需要的朋友可以参考下

一、Scrapy是什么

Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

二、Scrapy优点

1、速度快

2、实现大批量爬取

三、Scrapy爬虫框架的架构

(1) Scrapy有五个部分组件组成:

中 > 引擎Scrapy Engine:用来处理整个系统的数据流处理、触发事务,是整个框架的核心

上 > 调度器Scheduler:用来接受引擎发过来的请求并加入队列中,并在引擎再次请求的时候提供给引擎。

左 > 管道item pipeline:负责处理由蜘蛛从网页中抽取的项目,它的主要任务是清洗、验证和存储数据。

下 > 爬虫器(爬虫组件) Spiders:其内定义了爬取的逻辑和网页的解析规则,它主要负责解析响应并生成提取结果和新的请求。

Spider Middlewares(Spiders中间件):位于引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛输入的响应和输出的结果及新的请求。

右 > 下载器 Downloader:用于下载网页内容,并将网页内容返回给Spiders爬虫器。

Downloader Middlewares(下载器中间件):位于引擎和下载器之间的钩子框架,主要是处理引擎与下载器之间的请求及响应。

(2) Scrapy数据流机制:

引擎Scrapy Engine : C位,不用做事,接收任务,分发任务。

爬虫器Spiders :
1.确认目标url,根据这个url构造一个request对象,交给引擎
4.接收了来自引擎的response,进行解析,解析完毕,把结果给引擎
解析结果分为2种
--(1)如果提取出来的是url,就把所有的步骤重头再走一遍
--(2)如果是需要进行保存的数据data

调度器Scheduler:
2.接收了来自引擎的request对象,进行一个排序,把排序之后的结果交给引擎(假设有100个request对象,安装调度,安排谁先谁后).

下载器Downloader:
3.接收了来自经过了排序之后的引擎的request对象,发送网络请求获取响应对象response,交给引擎.

管道item pipeline:
5.接收了来自引擎的数据data,进行保存.
通过多个组件的相互协作、不同组件完成工作的不同、组件很好地支持异步处理,scrapy 最大限度地利用了网络带宽,大大提高了数据爬取和处理的效率。

四、scrapy创建项目

(1) 爬虫项目

scrapy startproject 爬虫项目名

(2) 爬虫任务

1. cd 到项目的根目录

2. scrapy genspider 爬虫任务名称 域的范围.com

(3)运行scrapy爬虫

scrapy crawl 爬虫任务名称

(4) Scrapy创建结构图

各个文件的功能描述如下:

  • scrapy.cfg:它是 Scrapy 项目的配置文件,其内定义了项目的配置文件路径、部署相关信息等内容。
  • items.py:它定义 Item 数据结构,所有的 Item 的定义都可以放这里。
  • pipelines.py:它定义 Item Pipeline 的实现,所有的 Item Pipeline 的实现都可以放这里。
  • settings.py:它定义项目的全局配置。
  • middlewares.py:它定义 Spider Middlewares 和 Downloader Middlewares 的实现。
  • spiders:其内包含一个个 Spider 的实现,每个 Spider 都有一个文件。

到此这篇关于Scrapy框架介绍的文章就介绍到这了,更多相关Scrapy框架内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python用 KNN 进行验证码识别的实现方法

    Python用 KNN 进行验证码识别的实现方法

    这篇文章主要介绍了Python用 KNN 进行验证码识别的相关资料,非常不错,具有参考借鉴价值,需要的朋友可以参考下
    2018-02-02
  • 从基础到进阶带你玩转Python中的异常处理

    从基础到进阶带你玩转Python中的异常处理

    在编程过程中,我们经常会遇到各种运行时错误,比如除零错误、文件未找到错误等,本文将介绍Python异常处理的基础知识,希望对大家有所帮助
    2025-01-01
  • Python基于PycURL自动处理cookie的方法

    Python基于PycURL自动处理cookie的方法

    这篇文章主要介绍了Python基于PycURL自动处理cookie的方法,实例分析了Python基于curl操作cookie的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-07-07
  • 一文教你掌握Python中Lambda表达式的5种实用技巧

    一文教你掌握Python中Lambda表达式的5种实用技巧

    在Python编程的宇宙里,有一个强大而灵活的工具经常被高效的程序员所利用——那就是Lambda表达式,下面就让我们深入了解Lambda表达式的妙用吧
    2024-01-01
  • Python3中延时变量和 free_list链表的区别解析

    Python3中延时变量和 free_list链表的区别解析

    这篇文章主要介绍了Python3中延时变量和 free_list链表的区别,在Python3中,"延时变量" 和 "free_list链表" 是两个不同的概念,他们之间没有直接联系,本文给实例相结合给大家讲解的非常详细,需要的朋友可以参考下
    2023-04-04
  • python基础教程项目五之虚拟茶话会

    python基础教程项目五之虚拟茶话会

    这篇文章主要为大家详细介绍了python基础教程项目五之虚拟茶话会,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • vscode 配置 python3开发环境的方法

    vscode 配置 python3开发环境的方法

    这篇文章主要介绍了vscode 配置 python3开发环境的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-09-09
  • LyScript获取上一条与下一条汇编指令的方法详解

    LyScript获取上一条与下一条汇编指令的方法详解

    LyScript 插件默认并没有提供上一条与下一条汇编指令的获取功能,当然你可以使用LyScriptTools工具包直接调用内置命令得到,本文就为大家详细讲讲如何实现
    2022-07-07
  • 在服务器上运行python文件详细步骤

    在服务器上运行python文件详细步骤

    很多小伙伴想知道如何在服务器上跑python程序的方法,那么这篇文章主要给大家介绍了关于在服务器上运行python文件的详细步骤,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2024-02-02
  • python 用正则表达式筛选文本信息的实例

    python 用正则表达式筛选文本信息的实例

    今天小编就为大家分享一篇python 用正则表达式筛选文本信息的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06

最新评论