Python中的Xpath和lxml库的使用详解

 更新时间:2023年12月06日 10:00:55   作者:凌冰_  
这篇文章主要介绍了Python中的Xpath和lxml库的使用详解,XPath即 XML路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档,因此,在爬虫过程中可以使用 XPath 来提取相应的数据,需要的朋友可以参考下

一、Xpath表达式

XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。

因此,在爬虫过程中可以使用 XPath 来提取相应的数据。

Xpath节点:有父、子、同代、先辈、后代节点

<?xml version="1.0" encoding="utf-8"?>
<shop>
    <book>
      <title lang="zh-CN">java</title>
      <name>Java编程思想</name>
      <year>2011</year>
      <address>www.baidu.com</address>
    </book>
</shop>

说明:

  • title name year address 都是 book 的子节点
  • book 是 title name year address  父节点
  • title name year address  属于同代节点
  • title 元素的先辈节点是 book shop
  • shop 的后代节点是 book title name year address

二、Xpath基本语法

1) 基本语法

2) xpath通配符

xpath('/div/*')选取div下的所有子节点xpath('/div[@*]')选取所有带属性的div节点

3) 多路径匹配

xpath表达式1 | xpath表达式2 | xpath表达式3

xpath('//div|//table') 选取所有的div和table节点

4)功能函数

三、lxml库

lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 Xpath 表达式提供了良好的支持,因此能够了高效地解析 HTML/XML 文档。

本节讲解如何通过 lxml 库解析 HTML 文档。

安装lxml库

pip3 install lxml

lxml使用流程

1) 导入模块

from lxml import etree

2)创建解析对象

parse_html = etree.HTML(html)

3) 调用xpath表达式

r_list = parse_html.xpath('xpath表达式')

4) lxml库数据提取

print(r_list)

四、实战案例

豆瓣书店

#豆瓣书店
import requests
from lxml import  etree
 
if __name__ == '__main__':
    url='https://market.douban.com/book/?utm_campaign=book_nav_freyr&utm_source=douban&utm_medium=pc_web'
    headers_={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
    }
    res=requests.get(url,headers_)
    # print(res.text)
    html=etree.HTML(res.text)
    #获取所有的li
    lis=html.xpath('.//li[@class="book-item"]')
    #循环
    for li in lis:
        #获取li下的图片
        img=li.xpath('.//div[@class="panel-img"]/img/@src')[0]
        # print(img)
        # 获取li下的标题
        title = li.xpath('.//div[@class="panel-detail"]/div/h3/text()')[0]
        print(img, title)

到此这篇关于Python中的Xpath和lxml库的使用详解的文章就介绍到这了,更多相关Python中的Xpath和lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中的可变变量与不可变变量的使用

    Python中的可变变量与不可变变量的使用

    本文主要介绍了Python中的可变变量与不可变变量的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-03-03
  • Pandas读取并修改excel的示例代码

    Pandas读取并修改excel的示例代码

    这篇文章主要介绍了Pandas读取并修改excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-02-02
  • CPython 垃圾收集器检测循环引用详解

    CPython 垃圾收集器检测循环引用详解

    这篇文章主要为大家介绍了CPython 垃圾收集器检测循环引用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-10-10
  • 学习python的前途 python挣钱

    学习python的前途 python挣钱

    在本文里我们给大家整理了关于学习python的前途以及python挣钱的方法整理,有兴趣的朋友们阅读下。
    2019-02-02
  • Pytorch用Tensorboard来观察数据

    Pytorch用Tensorboard来观察数据

    这篇文章主要介绍了Pytorch用Tensorboard来观察数据,上一篇文章我们讲解了关于Pytorch Dataset的数据处理,这篇我们就来讲解观察数据,下面具体相关资料,需要的朋友可以参考一下,希望对你有所帮助
    2021-12-12
  • python编程之requests在网络请求中添加cookies参数方法详解

    python编程之requests在网络请求中添加cookies参数方法详解

    这篇文章主要介绍了python编程之requests在网络请求中添加cookies参数方法详解,具有一定参考价值,需要的朋友可以了解下。
    2017-10-10
  • Python脚本轻松实现检测麦克风功能

    Python脚本轻松实现检测麦克风功能

    在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的可以参考下
    2025-08-08
  • 简单介绍Python的Django框架加载模版的方式

    简单介绍Python的Django框架加载模版的方式

    这篇文章主要介绍了Python的Django框架加载模版的方式,包括一些对加载顺序的介绍,需要的朋友可以参考下
    2015-07-07
  • 基于Python编写一个MP3分割工具

    基于Python编写一个MP3分割工具

    这篇文章主要为大家详细介绍了如何基于Python编写一个MP3分割工具,可以将MP4转成Mp3并且按时间或按歌曲分割,感兴趣的小伙伴可以了解下
    2025-02-02
  • pytorch1.0中torch.nn.Conv2d用法详解

    pytorch1.0中torch.nn.Conv2d用法详解

    今天小编就为大家分享一篇pytorch1.0中torch.nn.Conv2d用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01

最新评论