关于Python网络爬虫框架scrapy

 更新时间:2023年04月26日 10:19:11   作者:菜鸟小超  
这篇文章主要介绍了关于Python网络爬虫框架scrapy,爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合,需要的朋友可以参考下

scrapy爬虫框架介绍

scrapy不是一个简单的函数功能库,而是一个爬虫框架

爬虫框架:

  • 爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合。
  • 爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。

scrapy爬虫框架结构

“5+2”结构:

  • ENGINE :已有的,核心,控制所有模块之间的数据流,根据条件触发事件
  • SCHEDULER:已有的,对所有的爬虫请求进行调度管理
  • ITEM PIPELINES :框架出口,用户编写,以流水线方式处理Spider产生的爬取项,由一组操作顺序组成,类似流水线,每个操作是一个item pipline类型,可能操作包括:清理,检验和查重爬取项中的HTML数据,将数据存储到数据库
  • SPIDERS :框架入口,用户编写,解析downloader返回的响应,产生爬取项,以及额外的爬取请求
  • DOWNLOADER :已有的,根据请求下载网页
  • 2个MIDDLEWARE:Download Middleware:实施Engine,Scheduler和Downloader之间用户可配置的控制,即用户可以修改、丢弃、新增请求或响应。Spider Middleware,对spider的请求和爬取项的再处理。修改、丢弃、新增请求或爬取项。

requests库和scrapy库比较

相同点:两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线。 两者可用性好,文档丰富,入门简单。 两者都没有处理js、提交表单、应对验证码等功能(可扩展)

不同点:

requestsscrapy
页面级爬虫网站级爬虫
功能库框架
并发性考虑不足,性能较差并发性好,性能较高
重点在于页面下载重点在于爬虫结构
定制灵活一般定制灵活,深度定制困难
上手十分简单入门稍难

scrapy的常用命令

requestsscrapy
页面级爬虫网站级爬虫
功能库框架
并发性考虑不足,性能较差并发性好,性能较高
重点在于页面下载重点在于爬虫结构
定制灵活一般定制灵活,深度定制困难
上手十分简单入门稍难

到此这篇关于关于Python网络爬虫框架scrapy的文章就介绍到这了,更多相关Python爬虫框架scrapy内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python删除列表中特定元素的几种方法

    python删除列表中特定元素的几种方法

    这篇文章主要介绍了python删除列表中特定元素的几种方法,文章围绕主题展开详细的内容介绍,具有一定的参考价价值,需要的小伙伴可以参考一下
    2022-05-05
  • Pygame实现监听鼠标示例详解

    Pygame实现监听鼠标示例详解

    这篇文章主要介绍了通过Pygame模块实现监听鼠标的功能,文章的示例代码讲解详细,对我们的学习或工作有一定的价值,感兴趣的小伙伴可以了解一下
    2021-12-12
  • 使用python的pandas为你的股票绘制趋势图

    使用python的pandas为你的股票绘制趋势图

    这篇文章主要介绍了通过python为你的股票绘制趋势图,动手写个小程序, 把股票趋势每天早上发到邮箱里,用 python 的 pandas, matplotlib 写起来很容易, 几十行代码搞定。,需要的朋友可以参考下
    2019-06-06
  • 谈一谈数组拼接tf.concat()和np.concatenate()的区别

    谈一谈数组拼接tf.concat()和np.concatenate()的区别

    今天小编就为大家分享一篇谈谈数组拼接tf.concat()和np.concatenate()的区别,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • springboot整合单机缓存ehcache的实现

    springboot整合单机缓存ehcache的实现

    本文主要介绍了springboot整合单机缓存ehcache的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Python如何读取PDF文档(或TXT)

    Python如何读取PDF文档(或TXT)

    这篇文章主要介绍了Python如何读取PDF文档(或TXT),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • Python SQLAlchemy之SQL工具包和ORM的用法详解

    Python SQLAlchemy之SQL工具包和ORM的用法详解

    SQLAlchemy 是 Python 中一款非常流行的数据库工具包,它对底层的数据库操作提供了高层次的抽象,在本篇文章中,我们将介绍SQLAlchemy的两个主要组成部分:SQL工具包和对象关系映射器的基本使用,需要的朋友可以参考下
    2023-08-08
  • Linux下Python安装完成后使用pip命令的详细教程

    Linux下Python安装完成后使用pip命令的详细教程

    这篇文章主要介绍了Linux下Python安装完成后使用pip命令的详细教程,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-11-11
  • Python装饰器用法实例总结

    Python装饰器用法实例总结

    这篇文章主要介绍了Python装饰器用法,结合实例形式总结分析了Python常用装饰器的概念、功能、使用方法及相关注意事项,需要的朋友可以参考下
    2018-02-02
  • python 利用百度API识别图片文字(多线程版)

    python 利用百度API识别图片文字(多线程版)

    这篇文章主要介绍了python 利用百度API识别图片文字(多线程版),帮助大家更好的利用python进行机器识别,感兴趣的朋友可以了解下
    2020-12-12

最新评论