python爬虫lxml库解析xpath网页过程示例

 更新时间:2022年05月10日 09:08:15   作者:苏凉.py  
这篇文章主要为大家介绍了python爬虫lxml库解析xpath网页的过程示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

前言

在我们抓取网页内容的时候,通常是抓取一整个页面的内容,而我们仅仅只是需要该网页中的部分内容,那该如何去提取呢?本章就带你学习xpath插件的使用。去对网页的内容进行提取。

(一)xpath是什么

xpath是一门在XML文档中查找信息的语言,xpath可用来在XML 文档中对元素和属性进行遍历,主流的浏览器都支持xpath,因为html页面在DOM中表示为XHTML文档。

xpath语言是基于XML文档的树结构,并提供了浏览树的能力,通过多样的标准来选择节点。从而找到我们想要的数据。

首先我们需要在chrome浏览器中安装xpath插件。
可以到谷歌应用商店搜索下载。

安装好之后重启浏览器按下快捷键Ctrl +Shift+X网页上会出现黑色的框就表示成功啦!

(二)xpath的基本语法 路径查询。

// : 查找所有子孙节点,不考虑层级关系
/ : 找直接子节点

谓词查询

//div[@id]
//div[@id=“maincontent”]

属性查询

//@class

模糊查询

//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]

内容查询

//div/h1/text()

(三) lxml库

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
在使用前我们需要在pycharm里安装lxml库。
在终端输入指令即可:

pip install lxml -i https://pypi.douban.com/simple

注意:必须安装在我们当前所使用的环境下

(四)lxml库的使用 导入lxml.etree

from lxml import etree

解析本地文件

tree = etree.parse(xxx.html) #解析本地文件

解析服务器响应文件

tree = etree.HTML(content) #解析网页文件

返回结果

result = tree.xpath('//div/div/@aria-label')[0]

注:xpath返回的结果类型为列表,当结果有许多值时我们可以使用下标来取我们想要的值。

(五)实例演示

import urllib.request
from lxml import etree
import urllib.parse
url ='https://www.baidu.com/s?'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
cre_data = {
    'wd' : '这里写关键词'
}
data = urllib.parse.urlencode(cre_data)
url = url + data
request = urllib.request.Request(url = url , headers = headers )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
# tree = etree.parse(xxx.html) #解析本地文件
tree = etree.HTML(content)  #解析网页文件
result = tree.xpath('//div/div/@aria-label')[0]
print(result)

以上就是python爬虫lxml库解析xpath网页过程示例的详细内容,更多关于python爬虫lxml库解析xpath网页的资料请关注脚本之家其它相关文章!

相关文章

  • Python中常用数据类型使用示例概括总结

    Python中常用数据类型使用示例概括总结

    这篇文章主要为大家介绍了Python中常用数据类型使用示例概括总结,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • vscode搭建之python Django环境配置方式

    vscode搭建之python Django环境配置方式

    这篇文章主要介绍了vscode搭建之python Django环境配置方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • Python基于递归算法求最小公倍数和最大公约数示例

    Python基于递归算法求最小公倍数和最大公约数示例

    这篇文章主要介绍了Python基于递归算法求最小公倍数和最大公约数,结合实例形式分析了Python使用递归算法进行数值计算的相关操作技巧,需要的朋友可以参考下
    2018-07-07
  • 浅析python常用数据文件处理方法

    浅析python常用数据文件处理方法

    这篇文章主要介绍了python常用数据文件处理方法,虽说python运行速度慢,但其编程速度,第三方包的丰富度是真的高,涉及到文件批处理还是会选择python,感兴趣的朋友跟随小编一起看看吧
    2021-10-10
  • Python编程中被忽视的核心技巧总结

    Python编程中被忽视的核心技巧总结

    这篇文章主要介绍了一些在 Python 编程中可能被忽视的核心功能,包括默认参数、海象运算符、*args 和 **kwargs 的使用等,需要的可参考下
    2023-08-08
  • 详解Python自建logging模块

    详解Python自建logging模块

    本篇文章给大家详细分析了Python自建logging模块的方法和代码分享,有需要的朋友参考学习下吧。
    2018-01-01
  • python超详细实现完整学生成绩管理系统

    python超详细实现完整学生成绩管理系统

    读万卷书不如行万里路,只学书上的理论是远远不够的,只有在实战中才能获得能力的提升,本篇文章手把手带你用Java实现一个完整版学生成绩管理系统,大家可以在过程中查缺补漏,提升水平
    2022-03-03
  • 一篇文章带你了解Python和Java的正则表达式对比

    一篇文章带你了解Python和Java的正则表达式对比

    正则表达式有元字符及不同组合来构成,通过巧妙的构造正则表达式可以匹配任意字符串,并完成复杂的字符串处理任务,希望本片文章能给你带来帮助
    2021-09-09
  • Python解析网页源代码中的115网盘链接实例

    Python解析网页源代码中的115网盘链接实例

    这篇文章主要介绍了Python解析网页源代码中的115网盘链接实例,主要采用了正则表达式re模块来实现该功能,需要的朋友可以参考下
    2014-09-09
  • python主要用于哪些方向

    python主要用于哪些方向

    在本篇文章里小编给大家整理了一篇关于python用于的方向的相关文章,有需要的阅读下吧。
    2020-07-07

最新评论