一文掌握Python爬虫XPath语法

 更新时间:2021年11月18日 11:29:31   作者:王曦  
这篇文章主要介绍了一文掌握Python爬虫XPath语法,xpath是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历,XPath 通过使用路径表达式来选取 XML 文档中的节点或者节点集。下面会更学习的介绍,需要的朋友可以参考一下

本文转自微信公众号:"算法与编程之美"

一、问题描述

1.什么是XPath?

xpath是一门在XMLHTML文档中查找信息的语言,可用来在XMLHTML文档中对元素和属性进行遍历,XPath 通过使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和在常规的电脑文件系统中看到的表达式非常相似。

二、解决方案

1.XPath语法

想要学好xpath,首先要搞明白html文档中的节点。

<div>
     <ul>
          <li class="item-0"><a href="link1.html" rel="external nofollow" >first item</a></li>
          <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
          <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
          <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>
          <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a> # 注意,此处缺少一个 </li> 闭合标签
      </ul>
  </div>

以上是在网上随便找的一段html的文本,可以观察得到,div的标签下是ul标签,而ul标签下是li标签,于是发现html的标签是一级一级如树状的。Xpath正是通过这样的方式去寻找。以生活中举例,要确定一个人的位置,首先确定他在中国,然后确定他在某个省份,哪座城市,那个小区,最后找到他。

表达式

描述

Nodename

选取此节点的所有子节点 bookstore 选取bookstore下所有的子节点

/

如果是在最前面,代表从根节点选取。否则选择某节点下的某个节点 /bookstore 选取根元素下所有的bookstore节点

//

从全局节点中选择节点,随便在哪个位置 //book 从全局节点中找到所有的book节点

@

选取某个节点的属性 //book[@price] 选择所有拥有price属性的book节点

.

当前节点

Text()

获取标签中的文本

同级标签可以用li[1] ,li[2] ,li[3]的方式获取

2.lxml库

简单介绍一下lxml库,接下来会用到它

lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML 数据。

lxml和正则一样,也是用C实现的,是一款高性能的PythonHTML/XML解析器,可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

3.实际案例

随便爬取一个网站,找到找到网站的html文本

如下图:

要找到titlehref,仔细观察可以得到路径分别是//div[@id="resultList"]/div[@class="el"]/p/span/a/@title

//div[@id="resultList"]/div[@class="el"]/p/span/a/@href

运行如下:

三、结语

Xpath,是在爬虫中常见的提取数据的方式之一,相比于正则,它更加简单一些,便于操作,xpath的难点在于准确的确定数据所在的位置。

到此这篇关于一文掌握Python爬虫XPath语法的文章就介绍到这了,更多相关Python爬虫XPath语法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python编程实现下载器自动爬取采集B站弹幕示例

    Python编程实现下载器自动爬取采集B站弹幕示例

    这篇文章主要介绍了使用Python编程来实现一个下载器可以自动爬取采集B站弹幕的示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2021-10-10
  • Python中的shutil模块详析

    Python中的shutil模块详析

    这篇文章主要介绍了Python中的shutil模块详析,Python的Shutil模块可以看做是OS模块的补充,它提供了对文件(夹)复制,移动,删除,压缩和解压缩的方法,下面本文会对shutil模块的常用方法进行分类介绍,需要的朋友可以参考下
    2023-09-09
  • Python学习笔记_数据排序方法

    Python学习笔记_数据排序方法

    Python对数据排序有两种方法:下面我们来简单分析下
    2014-05-05
  • Python利用PyQt6开发一个全能的任务管理器

    Python利用PyQt6开发一个全能的任务管理器

    在数字化办公时代,我们每天都要重复执行大量机械性操作,这些操作不仅浪费时间,还容易因人为疏忽出错,所以本文就来使用PyQt6开发一个升级的自动化任务管理器吧
    2025-04-04
  • 基于Python实现简单的定时器详解

    基于Python实现简单的定时器详解

    所谓定时器,是指间隔特定时间执行特定任务的机制。几乎所有的编程语言,都有定时器的实现。这篇文章主要介绍的是通过Python实现的定时器,感兴趣的可以跟随小编学习一下
    2021-12-12
  • 如何使用matplotlib让你的数据更加生动

    如何使用matplotlib让你的数据更加生动

    数据可视化用于以更直接的表示方式显示数据,并且更易于理解,下面这篇文章主要给大家介绍了关于如何使用matplotlib让你的数据更加生动的相关资料,需要的朋友可以参考下
    2021-11-11
  • pyecharts实现数据可视化

    pyecharts实现数据可视化

    这篇文章主要介绍了pyecharts实现数据可视化,pyecharts 是百度开源的,适用于数据可视化的工具,配置灵活,展示图表相对美观,顺滑,下面更多详细内容,需要的小伙伴可以参考一下
    2022-03-03
  • Python爬虫如何破解JS加密的Cookie

    Python爬虫如何破解JS加密的Cookie

    这篇文章主要介绍了Python爬虫如何破解JS加密的Cookie,帮助大家更好的理解和使用爬虫,感兴趣的朋友可以了解下
    2020-11-11
  • 详解Django项目中模板标签及模板的继承与引用(网站中快速布置广告)

    详解Django项目中模板标签及模板的继承与引用(网站中快速布置广告)

    这篇文章主要介绍了详解Django项目中模板标签及模板的继承与引用【网站中快速布置广告】,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-03-03
  • Python接口自动化浅析如何处理接口依赖

    Python接口自动化浅析如何处理接口依赖

    本文主要介绍如何提取token、将token作为类属性全局调用及充值接口如何携带token进行请求,其他接口调用的前提条件是当前用户必须是登录状态,如何处理接口依赖
    2021-08-08

最新评论