Python爬虫程序架构和运行流程原理解析

 更新时间:2020年03月09日 13:22:31   作者:躬耕南阳  
这篇文章主要介绍了Python爬虫程序架构和运行流程原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

1 前言

Python开发网络爬虫获取网页数据的基本流程为:

发起请求

通过URL向服务器发起request请求,请求可以包含额外的header信息。

获取响应内容

服务器正常响应,将会收到一个response,即为所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。

解析内容

如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件做进一步处理。

保存数据

可以保存到本地文件,也可以保存到数据库(MySQL,Redis,MongoDB等)。

2 爬虫程序架构及运行流程

网络爬虫程序框架主要包括以下五大模块:

  • 爬虫调度器
  • URL管理器
  • HTML下载器
  • HTML解析器
  • 数据存储器

五大模块功能如下所示:

  • 爬虫调度器:主要负责统筹其它四个模块的协调工作。
  • URL管理器:负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。
  • HTML下载器:用于从URL管理器中获取未爬取的URL链接并下载HTML网页。
  • HTML解析器:用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
  • 数据存储器:用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。

网络爬虫程序框架的动态运行流程如下所示:

3 小结

本文简要介绍了Python开发网络爬虫的程序框架,将网络爬虫运行流程按照具体功能划分为不同模块,以便各司其职、协同运作。搭建好网络爬虫框架后,能够有效地提高我们开发网络爬虫项目的效率,避免一些重复造车轮的工作。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python实现将元祖转换成数组的方法

    python实现将元祖转换成数组的方法

    这篇文章主要介绍了python实现将元祖转换成数组的方法,涉及Python中list方法的使用技巧,需要的朋友可以参考下
    2015-05-05
  • Python星号*与**用法分析

    Python星号*与**用法分析

    这篇文章主要介绍了Python星号*与**用法,结合实例形式较为详细的分析了Python中的星号*与**在函数参数及数值运算中的相关使用技巧,需要的朋友可以参考下
    2018-02-02
  • Python3 replace()函数使用方法

    Python3 replace()函数使用方法

    这篇文章主要介绍了Python3 replace()函数使用方法,需要的朋友可以参考下
    2018-03-03
  • Pyecharts 绘制3种常用的图形

    Pyecharts 绘制3种常用的图形

    这篇文章主要介绍了Pyecharts 绘制3种常用的图形,上下组合图、左右组合图、一轴多图,下文绘制过程几介绍,需要的小伙伴可以参考一下
    2022-02-02
  • 关于python的mmh3库安装以及使用详解

    关于python的mmh3库安装以及使用详解

    这篇文章主要介绍了关于python的mmh3库安装以及使用详解,哈希方法主要有MD、SHA、Murmur、CityHash、MAC等几种方法,mmh3全程murmurhash3,是一种非加密的哈希算法,常用于hadoop等分布式存储情境中,需要的朋友可以参考下
    2023-07-07
  • 利用django和mysql实现一个简单的web登录页面

    利用django和mysql实现一个简单的web登录页面

    这篇文章主要给大家介绍了关于如何利用django和mysql实现一个简单的web登录页面的相关资料,文中通过图文以及实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2023-05-05
  • 让python json encode datetime类型

    让python json encode datetime类型

    python2.6+ 自带的json模块,不支持datetime的json encode,每次都需要手动转为字符串,很累人,我们可以自己封装一个简单的方法处理此问题。
    2010-12-12
  • Python数据清洗工具之Numpy的基本操作

    Python数据清洗工具之Numpy的基本操作

    Numpy的操作对象是一个ndarray,所以在使用这个库进行计算的时候需要将数据进行转化,这篇文章主要介绍了Python数据清洗工具之Numpy的基本操作,需要的朋友可以参考下
    2021-04-04
  • 基于Django与ajax之间的json传输方法

    基于Django与ajax之间的json传输方法

    今天小编就为大家分享一篇基于Django与ajax之间的json传输方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • 无法使用pip命令安装python第三方库的原因及解决方法

    无法使用pip命令安装python第三方库的原因及解决方法

    今天小编就为大家分享一篇无法使用pip命令安装python第三方库的原因及解决方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06

最新评论