Python网络爬虫四大选择器用法原理总结

更新时间：2020年06月01日 15:50:38 作者：dcpeng

这篇文章主要介绍了Python网络爬虫四大选择器用法原理总结,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

前几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。

一、正则表达式

正则表达式为我们提供了抓取数据的快捷方式。虽然该正则表达式更容易适应未来变化，但又存在难以构造、可读性差的问题。当在爬京东网的时候，正则表达式如下图所示：

利用正则表达式实现对目标信息的精准采集

此外，我们都知道，网页时常会产生变更，导致网页中会发生一些微小的布局变化时，此时也会使得之前写好的正则表达式无法满足需求，而且还不太好调试。当需要匹配的内容有很多的时候，使用正则表达式提取目标信息会导致程序运行的速度减慢，需要消耗更多内存。

二、BeautifulSoup

BeautifulSoup是一个非常流行的 Pyhon 模块。该模块可以解析网页，并提供定位内容的便捷接口。通过'pip install beautifulsoup4'就可以实现该模块的安装了。

利用美丽的汤去提取目标信息

使用 BeautifulSoup的第一步是将己下载的 HTML 内容解析为 soup文档。由于大多数网页都不具备良好的HTML 格式，因此BeautifulSoup需要对实际格式进行确定。BeautifulSoup能够正确解析缺失的引号并闭合标签，此外还会添加＜html ＞和＜body＞标签使其成为完整的HTML文档。通常使用find() 和find_all()方法来定位我们需要的元素。如果你想了解BeautifulSoup全部方法和参数，可以查阅BeautifulSoup的官方文档。虽然BeautifulSoup在代码的理解上比正则表达式要复杂一些，但是其更加容易构造和理解。

三、Lxml

Lxml模块使用 C语言编写，其解析速度比 BeautiflSoup更快，而且其安装过程也更为复杂，在此小编就不赘述啦。XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

Xpath

使用 lxml 模块的第一步和BeautifulSoup一样，也是将有可能不合法的HTML 解析为统一格式。虽然Lxml可以正确解析属性两侧缺失的引号，并闭合标签，不过该模块没有额外添加＜html ＞和＜body＞标签。

在线复制Xpath表达式可以很方便的复制Xpath表达式。但是通过该方法得到的Xpath表达式放在程序中一般不能用，而且长的没法看。所以Xpath表达式一般还是要自己亲自上手。

四、CSS

CSS选择器表示选择元素所使用的模式。BeautifulSoup整合了CSS选择器的语法和自身方便使用API。在网络爬虫的开发过程中，对于熟悉CSS选择器语法的人，使用CSS选择器是个非常方便的方法。

CSS选择器

下面是一些常用的选择器示例。

选择所有标签：＊
选择＜a＞标签： a
选择所有class＝”link” 的元素： .l in k
选择 class＝”link” 的＜a＞标签： a.link
选择 id= " home ” 的＜a＞标签： a Jhome
选择父元素为＜a＞标签的所有＜ span＞子标签： a > span
选择＜a＞标签内部的所有＜span＞标签： a span
选择title属性为” Home ” 的所有＜a＞标签： a [title=Home]

五、性能对比

lxml 和正则表达式模块都是C语言编写的，而BeautifulSoup则是纯Python 编写的。下表总结了每种抓取方法的优缺点。

相对困难需要注意的是。lxml在内部实现中，实际上是将CSS选择器转换为等价的Xpath选择器。

六、总结

如果你的爬虫瓶颈是下载网页，而不是抽取数据的话，那么使用较慢的方法（如BeautifulSoup）也不成问题。如果只需抓取少量数据，并且想要避免额外依赖的话，那么正则表达式可能更加适合。不过，通常情况下，l xml是抓取数据的最好选择，这是因为该方法既快速又健壮，而正则表达式和BeautifulSoup只在某些特定场景下有用。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

PyQt5实现QLineEdit正则表达式输入验证器
这篇文章主要介绍了PyQt5实现QLineEdit正则表达式输入验证器，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
pycham查看程序执行的时间方法
今天小编就为大家分享一篇pycham查看程序执行的时间方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
详解Python静态网页爬取获取高清壁纸
这篇文章主要介绍了Python爬取高清壁纸，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
python实现过滤敏感词
这篇文章主要介绍了python如何实现过滤敏感词，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-05-05
Python中安装库的常用方法介绍
大家好，本篇文章主要讲的是Python中安装库的常用方法介绍，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2022-01-01
scrapy-splash简单使用详解
这篇文章主要介绍了scrapy-splash简单使用详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-02-02
在主机商的共享服务器上部署Django站点的方法
这篇文章主要介绍了在主机商的共享服务器上部署Django站点的方法,Django是最具人气的Python框架,需要的朋友可以参考下
2015-07-07
详解图像上的OpenCV算术运算
图像可以进行算术运算，例如加法、减法和按位运算（AND、OR、NOT、XOR）。这些操作可以帮助改善输入图像的属性。本文主要介绍了OpenCV中常见的图像算术运算，需要的可以参考一下
2022-10-10
Python查找不限层级Json数据中某个key或者value的路径方式
今天小编就为大家分享一篇Python查找不限层级Json数据中某个key或者value的路径方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
Python利用matplotlib.pyplot.boxplot()绘制箱型图实例代码
相信大家应该都知道Python绘制箱线图主要用matplotlib库里pyplot模块里的boxplot()函数,下面这篇文章主要给大家介绍了关于Python利用matplotlib.pyplot.boxplot()绘制箱型图的相关资料,需要的朋友可以参考下
2022-08-08

Python网络爬虫四大选择器用法原理总结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具