python爬虫lxml库解析xpath网页过程示例

 更新时间:2022年05月10日 09:08:15   作者:苏凉.py  
这篇文章主要为大家介绍了python爬虫lxml库解析xpath网页的过程示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

前言

在我们抓取网页内容的时候,通常是抓取一整个页面的内容,而我们仅仅只是需要该网页中的部分内容,那该如何去提取呢?本章就带你学习xpath插件的使用。去对网页的内容进行提取。

(一)xpath是什么

xpath是一门在XML文档中查找信息的语言,xpath可用来在XML 文档中对元素和属性进行遍历,主流的浏览器都支持xpath,因为html页面在DOM中表示为XHTML文档。

xpath语言是基于XML文档的树结构,并提供了浏览树的能力,通过多样的标准来选择节点。从而找到我们想要的数据。

首先我们需要在chrome浏览器中安装xpath插件。
可以到谷歌应用商店搜索下载。

安装好之后重启浏览器按下快捷键Ctrl +Shift+X网页上会出现黑色的框就表示成功啦!

(二)xpath的基本语法 路径查询。

// : 查找所有子孙节点,不考虑层级关系
/ : 找直接子节点

谓词查询

//div[@id]
//div[@id=“maincontent”]

属性查询

//@class

模糊查询

//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]

内容查询

//div/h1/text()

(三) lxml库

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
在使用前我们需要在pycharm里安装lxml库。
在终端输入指令即可:

pip install lxml -i https://pypi.douban.com/simple

注意:必须安装在我们当前所使用的环境下

(四)lxml库的使用 导入lxml.etree

from lxml import etree

解析本地文件

tree = etree.parse(xxx.html) #解析本地文件

解析服务器响应文件

tree = etree.HTML(content) #解析网页文件

返回结果

result = tree.xpath('//div/div/@aria-label')[0]

注:xpath返回的结果类型为列表,当结果有许多值时我们可以使用下标来取我们想要的值。

(五)实例演示

import urllib.request
from lxml import etree
import urllib.parse
url ='https://www.baidu.com/s?'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
cre_data = {
    'wd' : '这里写关键词'
}
data = urllib.parse.urlencode(cre_data)
url = url + data
request = urllib.request.Request(url = url , headers = headers )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
# tree = etree.parse(xxx.html) #解析本地文件
tree = etree.HTML(content)  #解析网页文件
result = tree.xpath('//div/div/@aria-label')[0]
print(result)

以上就是python爬虫lxml库解析xpath网页过程示例的详细内容,更多关于python爬虫lxml库解析xpath网页的资料请关注脚本之家其它相关文章!

相关文章

  • Python3.10的一些新特性原理分析

    Python3.10的一些新特性原理分析

    由于采用了新的发行计划:PEP 602 -- Annual Release Cycle for Python,我们可以看到更短的开发窗口,我们有望在 2021 年 10 月使用今天分享的这些新特性
    2021-09-09
  • Python检测网络延迟的代码

    Python检测网络延迟的代码

    这篇文章主要介绍了Python检测网络延迟的代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • python 中pyqt5 树节点点击实现多窗口切换问题

    python 中pyqt5 树节点点击实现多窗口切换问题

    这篇文章主要介绍了python 中pyqt5 树节点点击实现多窗口切换问题,文中给大家介绍了python pyqt5 点击按钮来打开另一个窗口的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴借鉴价值,需要的朋友可以参考下
    2019-07-07
  • 通过Python的gtts库将文字转为音频的操作方法

    通过Python的gtts库将文字转为音频的操作方法

    文字转音频可以帮助视觉障碍者通过听取声音来获取信息,也可以帮助人们方便地听取一些长篇文章或学习资料,节省阅读时间和疲劳,这篇文章主要介绍了通过Python的gtts库将文字转为音频的方法,需要的朋友可以参考下
    2023-05-05
  • Python脚本后台运行的五种方式

    Python脚本后台运行的五种方式

    最近需要在后台运行脚本,本文主要介绍了Python脚本后台运行的五种方式,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • Python查找函数f(x)=0根的解决方法

    Python查找函数f(x)=0根的解决方法

    这篇文章主要介绍了Python查找函数f(x)=0根的解决方法,涉及Python数学运算函数求解的相关技巧,需要的朋友可以参考下
    2015-05-05
  • Django 项目布局方法(值得推荐)

    Django 项目布局方法(值得推荐)

    这篇文章主要介绍了Django 项目布局方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • Flask如何接收前端ajax传来的表单(包含文件)

    Flask如何接收前端ajax传来的表单(包含文件)

    这篇文章主要介绍了Flask如何接收前端ajax传来的表单(包含文件),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • Python模块/包/库安装的六种方法及区别

    Python模块/包/库安装的六种方法及区别

    这篇文章主要介绍了Python模块/包/库安装六种方法,通过实例代码给大家介绍了python中模块、包、库的区别和使用,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • 使用 NumPy 和 Matplotlib 绘制函数图

    使用 NumPy 和 Matplotlib 绘制函数图

    Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython
    2021-09-09

最新评论