python数据解析之XPath详解

 更新时间:2021年09月29日 16:40:56   作者:小缘喵~  
本篇文章主要介绍了python数据解析之xpath的基本使用详解,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

XPath

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

xpath是最常用且最便捷高效的一种解析方式,通用型强,其不仅可以用于python语言中,还可以用于其他语言中,数据解析建议首先xpath。

XPath使用方法

xpath解析原理:

实例化一个etree的对象,且需要将被解析的页面源代码数据加载到该对象中

调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

安装lxml

pip install -i https://mirrors.aliyun.com/pypi/simple/ lxml

from lxml import etree
tree = etree.parse('./tree.html')  #从本地加载源码,实例化一个etree对象。必须是本地的文件,不能是字符串
tree = etree.HTML(源码)           #从互联网加载源码,实例化etree对象
#  / 表示从从根节点开始,一个 / 表示一个层级,//表示多个层级
r = tree.xpath('//div//a')       #以列表的形式返回div下的所有的a标签对象的地址
r = tree.xpath('//div//a')[1]    #返回div下的第二个a标签对象地址
r = tree.xpath('//div[@class="tang"]')   #以列表的形式返回tang标签地址
r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang标签下所有的a标签地址
#获取标签中的文本内容
r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a标签中的文本
#获取标签中属性值
r = tree.xpath('//div//a/@href')   ##以列表的形式返回所有a标签中href属性值

tree.html

<html lang="en">
    <head>
      <meta charset="utf-8" />
      <meta name="theme-color" content="#ffffff"></meta>
      <title>xpaht测试</title>
    </head>
    <body>
        <div>
            <p>百里守约</p>
        </div>
        <div class="song">
            <p>前程似锦</p>
        </div>
        <div class="song">
            <p>前程似锦2</p>
        </div>
        <div class="ming">  #后面改了名字
            <p>以梦为马</p>
        </div>  
        <div class="tang">
            <ul>
                <li><a href='http://123.com' title='qing'>清明时节</a></li>
                <li><a href='http://ws.com' title='qing'>秦时明月</a></li>
                <li><a href='http://xzc.com' title='qing'>汉时关</a></li>
            </ul>
        </div>
      <flink-root></flink-root>
        <script type="text/javascript" src="runtime.0dcf16aad31edd73d8e8.js"></script>
        <script type="text/javascript" src="es2015-polyfills.923637a8e6d276e6f6df.js"></script>
        <script type="text/javascript" src="polyfills.bb2456cce5322b484b77.js"></script>
        <script type="text/javascript" src="main.8128365baee3dc30e607.js"></script>
    </body>
</html>

案例—58二手房

将页面中的房源名称解析出来,即将title值解析出来就行

思路

  • 获取房源名称所在的url,并获取其响应数据
  • 数据解析,构造xpath表达式。提取目标数据
import requests
from lxml import etree
url = "https://bj.58.com/ershoufang/p1/"
headers={
    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_response = requests.get(url,headers=headers,timeout=3).text
#实例化一个etree对象
tree = etree.HTML(pag_response)
r = tree.xpath('//span[@class="content-title"]/text()') #获取所有//span标签为"content-title"的文本内容
print(r)

Tips:我们使用xpath进行数据解析时,不能直接看元素就进行构造xpath表达式,以为很多情况下从浏览中看的元素结构和爬取下来的源码结构不一样。所以正确方法是先将源码爬下来再观察进行构造xpath。

如下浏览器中的元素结构和爬取的元素结构就不一样。如果按照浏览器汇总的元素来构造xpath表达式,则不会解析成功!

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!

相关文章

  • Pytorch 如何实现常用正则化

    Pytorch 如何实现常用正则化

    这篇文章主要介绍了Pytorch 实现常用正则化的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • python使用PyPDF2 和 pdfplumber操作PDF文件

    python使用PyPDF2 和 pdfplumber操作PDF文件

    本文主要介绍了Python中用于操作PDF的两个库:PyPDF2和pdfplumber,下面就来具体介绍一下两个库的使用方法,具有一定的参考价值,感兴趣的可以了解一下
    2025-01-01
  • Python实现发票自动校核微信机器人的方法

    Python实现发票自动校核微信机器人的方法

    这篇文章主要介绍了Python实现发票自动校核微信机器人的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-05-05
  • Python实现批量自动整理文件

    Python实现批量自动整理文件

    本文将利用Python制作一个批量自动整理文件的小工具,可以自定义整理某一个路径下面的所有需要被整理的文件。感兴趣的小伙伴可以了解一下
    2022-03-03
  • Django自定义分页效果

    Django自定义分页效果

    这篇文章主要为大家详细介绍了Django自定义分页效果,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • Python构建简单线性回归模型

    Python构建简单线性回归模型

    这篇文章主要介绍了Python构建简单线性回归模型,线性回归表示发现函数使用线性组合表示输入变量。简单线性回归很容易理解,使用了基本的回归技术,一旦理解了这些基本概念,可以更好地学习其他类型的回归模型
    2022-08-08
  • Python 3.x基础实战检查磁盘可用空间

    Python 3.x基础实战检查磁盘可用空间

    这篇文章主要为大家介绍了Python 3.x基础实战之检查磁盘可用空间实现,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05
  • 一条命令解决mac版本python IDLE不能输入中文问题

    一条命令解决mac版本python IDLE不能输入中文问题

    本文通过一条命令帮助大家解决mac版本python IDLE无法输入中文问题,需要的朋友可以参考下
    2018-05-05
  • Python单元测试框架unittest简明使用实例

    Python单元测试框架unittest简明使用实例

    这篇文章主要介绍了Python单元测试框架unittest简明使用实例,本文讲解了基本测试步骤、和测试实例,需要的朋友可以参考下
    2015-04-04
  • PyCharm中的terminal运行从PS修改成cmd方式

    PyCharm中的terminal运行从PS修改成cmd方式

    这篇文章主要介绍了PyCharm中的terminal运行从PS修改成cmd方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06

最新评论