python中第三方库lxml库的最新详细安装步骤
方法一:
win+r打开cmd,直接输入pip install lxml。
(最简单的办法,但是有一大堆因素导致无法安装成功,博主就是,呜呜呜)
方法二:
1.win+r打开cmd,输入pip install wheel
,先安装wheel库了才能安装.whl文件。
2.确定电脑安装的python版本,在lxml官方网站https://pypi.org/project/lxml/#files里寻找对应的版本进行下载
以本人为例,我电脑的python版本是3.11,64位
所以选择lxml-4.9.3-cp311-cp311-win_amd64.whl下载
3.在电脑的python文件夹内创建一个lxml文件夹,将下载好的whl放在该目录下,在cmd中cd跳转至该目录,运行pip install lxml-4.9.3-cp311-cp311-win_amd64.whl,即可安装成功
lxml使用流程
lxml 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面我们简单介绍一下 lxml 库的使用流程,如下所示:
1) 导入模块
from lxml import etree
2) 创建解析对象
调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。如下所示:
parse_html = etree.HTML(html)
HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。示例如下:
from lxml import etree html_str = ''' <div> <ul> <li class="item1"><a href="link1.html">Python</a></li> <li class="item2"><a href="link2.html">Java</a></li> <li class="site1"><a href="c.biancheng.net">C语言中文网</a> <li class="site2"><a href="www.baidu.com">百度</a></li> <li class="site3"><a href="www.jd.com">京东</a></li> </ul> </div> ''' html = etree.HTML(html_str) # tostring()将标签元素转换为字符串输出,注意:result为字节类型 result = etree.tostring(html) print(result.decode('utf-8'))
输出结果如下:
<html><body><div> <ul> <li class="item1"><a href="link1.html">Python</a></li> <li class="item2"><a href="link2.html">Java</a></li> <li class="site1"><a href="c.biancheng.net">C语言中文网</a></li> <li class="site2"><a href="www.baidu.com">百度</a></li> <li class="site3"><a href="www.jd.com">京东</a> </li></ul> </div> </body></html>
上述 HTML 字符串存在缺少标签的情况,比如“C语言中文网”缺少一个 闭合标签,当使用了 HTML() 方法后,会将其自动转换为符合规范的 HTML 文档格式。
3) 调用xpath表达式
最后使用第二步创建的解析对象调用 xpath() 方法,完成数据的提取,如下所示:
r_list = parse_html.xpath('xpath表达式')
总结
到此这篇关于python中第三方库lxml库的最新详细安装步骤的文章就介绍到这了,更多相关python第三方库lxml库安装内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
Pytorch搭建简单的卷积神经网络(CNN)实现MNIST数据集分类任务
这篇文章主要介绍了Pytorch搭建简单的卷积神经网络(CNN)实现MNIST数据集分类任务,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下2023-03-03
最新评论