Python操作lxml库之基础使用篇

更新时间：2022年12月23日 11:14:13 作者：醉蕤

lxml库是python的第三方库,安装方式也是十分简单,下面这篇文章主要给大家介绍了关于Python操作lxml库之基础使用篇的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

一、lxml库概述

1、lxml库介绍

lxml是XML和HTML的解析器，其主要功能是解析和提取XML和HTML中的数据；lxml和正则一样，也是用C语言实现的，是一款高性能的python HTML、XML解析器，也可以利用XPath语法，来定位特定的元素及节点信息。

2、lxml库特点

HTML是超文本标记语言，主要用于显示数据，他的焦点是数据的外观

XML是可扩展标记语言，主要用于传输和存储数据，他的焦点是数据的内容

3、lxml库的安装

windows系统下，在cmd命令提示框中，输入如下命令

pip install lxml

在cmd命令行验证是否安装成功。若引入模块，不返回错误则说明安装成功。

二、基本使用

1、lxml.etree

在爬虫代码采集过程中，通过etree.HTML直接将字符串实例转化为element对象。

import requests
from lxml import etree
 
res = requests.get("http://www.jsons.cn/zt/")
 
html = res.text
 
root_element = etree.HTML(html)
 
print(root_element)
print(root_element.tag)

2、解析HTML网页

#解析HTML字符串
from lxml import etree
text = '''
<html><body>
    <div class="key">
        <div class="name">无羡</div>
        <div class="age">20</div>
        <div class="address">四川</div>
    </div>
</body></html>
'''
# 开始初始化
html = etree.HTML(text)  # 这里需要传入一个html形式的字符串
print(html)
print(type)
# 将字符串序列化为html字符串
result = etree.tostring(html).decode('utf-8')
print(result)
print(type(result))

3、读取并解析HTML文件

from lxml import etree
 
# 将html文件进行读取
html = etree.parse('1.html')
 
# 将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)
print(type(result))
html = etree.HTML(result)  # 这里需要传入一个html形式的字符串
print(html)
print(type)

三、lxml使用流程

1、导入模块

from lxml import etree

2、创建解析对象

调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。

parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件，该方法可以自动修正 HTML 文本。

from lxml import etree
html_str = '''
<div>
    <ul>
         <li class="item1"><a href="link1.html">Python</a></li>
         <li class="item2"><a href="link2.html">Java</a></li>
         <li class="site1"><a href="c.biancheng.net">C语言中文网</a>
         <li class="site2"><a href="www.baidu.com">百度</a></li>
         <li class="site3"><a href="www.jd.com">京东</a></li>
     </ul>
</div>
'''
html = etree.HTML(html_str)
 
result = etree.tostring(html)
print(result.decode('utf-8'))

四、lxml库数据提取

1、提取所有a标签内的文本信息

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/text()'
# 提取文本数据，以列表形式输出
r_list=parse_html.xpath(xpath_bds)
# 打印数据列表
print(r_list)

2、获取所有href的属性值

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/@href'
# 提取文本数据，以列表形式输出
r_list=parse_html.xpath(xpath_bds)
# 打印数据列表
print(r_list)

3、不匹配href=" www.biancheng.net/priduct"

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/@href'
# 提取文本数据，以列表形式输出
xpath_bds='//ul[@id="sitename"]/li/a/@href'
# 打印数据列表
print(r_list)

总结

到此这篇关于Python操作lxml库之基础使用篇的文章就介绍到这了,更多相关Python操作lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

PyTorch中的神经网络 Mnist 分类任务
这篇文章主要介绍了PyTorch中的神经网络 Mnist 分类任务,在本次的分类任务当中，我们使用的数据集是 Mnist 数据集，这个数据集大家都比较熟悉，需要的朋友可以参考下
2023-03-03
用Python写个新年贺卡生成器
大家好，本篇文章主要讲的是用Python写个新年贺卡生成器，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-01-01
python绘制散点图和折线图的方法
这篇文章主要为大家详细介绍了python绘制散点图和折线图的方法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-04-04
Python遍历某目录下的所有文件夹与文件路径
这篇文章主要介绍了Python遍历某目录下的所有文件夹与文件路径以及输出中文乱码问题的解决方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-03-03
总结Pyinstaller的坑及终极解决方法(小结)
这篇文章主要介绍了总结Pyinstaller的坑及终极解决方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
python正则表达式re.sub各个参数的超详细讲解
Python 的 re 模块提供了re.sub用于替换字符串中的匹配项,下面这篇文章主要给大家介绍了关于python正则表达式re.sub各个参数的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-07-07
解决pip install报错:Cannot connect to proxy问题
这篇文章主要介绍了解决pip install报错:Cannot connect to proxy问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-05-05
Python+Selenium实现浏览器标签页的切换
在实际工作中，我们经常会遇到页面切换的情况。就比如当点击了某个功能的按钮后，浏览器出现了新的标签页，需要在这些标签页之间进行切换。本文将利用Selenium实现这一功能，需要的可以参考一下
2022-06-06
python windows安装cuda+cudnn+pytorch教程
这篇文章主要介绍了python windows安装cuda+cudnn+pytorch教程，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-05-05
Python实现随机生成任意数量车牌号
这篇文章主要介绍了Python实现随机生成任意数量车牌号，本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2020-01-01

Python操作lxml库之基础使用篇

目录

一、lxml库概述

1、lxml库介绍

2、lxml库特点

3、lxml库的安装

二、基本使用

1、lxml.etree

2、解析HTML网页

3、读取并解析HTML文件

三、lxml使用流程

1、导入模块

2、创建解析对象

四、lxml库数据提取

1、提取所有a标签内的文本信息

2、获取所有href的属性值

3、不匹配href=" www.biancheng.net/priduct"

总结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具

Python操作lxml库之基础使用篇

目录

一、lxml库概述

1、lxml库介绍

2、lxml库特点

3、lxml库的安装

二、基本使用

1、lxml.etree

2、解析HTML网页

3、读取并解析HTML文件

三、lxml使用流程

1、 导入模块

2、创建解析对象

四、lxml库数据提取

1、提取所有a标签内的文本信息

2、获取所有href的属性值

3、不匹配href=" www.biancheng.net/priduct"

总结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具

1、导入模块