Python 文档解析lxml库的使用详解

更新时间：2022年09月09日 08:46:33 作者：小嗷犬

lxml 是 Python 常用的文档解析库，能够高效地解析 HTML/XML 文档，常用于 Python 爬虫，这篇文章主要介绍了Python 文档解析：lxml库的使用,需要的朋友可以参考下

1.lxml库简介

lxml 是 Python 常用的文档解析库，能够高效地解析 HTML/XML 文档，常用于 Python 爬虫。

lxml 为第三方库，需要我们通过pip命令安装：

pip install lxml

2.lxml库方法介绍

lxml 库提供了一个 etree 模块，该模块专门用来解析 HTML/XML 文档，让我们先导入模块：

from lxml import etree

使用 etree 模块的 HTML() 方法可以创建 HTML 解析对象：

from lxml import etree
parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件，并且可以自动修正 HTML 文本：

from lxml import etree
html_str = '''
<div>
    <ul>
        <li><a href="www.python.org">Python</a></li>
        <li><a href="www.java.com">Java</a>
        <li><a href="www.csdn.net">CSDN</a></li>
    </ul>
</div>
'''

html = etree.HTML(html_str)
# tostring()将标签元素转换为字符串输出，注意：result为字节类型
result = etree.tostring(html)
print(result.decode('utf-8'))

上述代码我故意在Java那一行少写一个</li>，可以看到输出会自动补全：

<html><body><div>
    <ul>
        <li><a href="www.python.org">Python</a></li>
        <li><a href="www.java.com">Java</a></li>
        <li><a href="www.csdn.net">CSDN</a></li>
    </ul>
</div>
</body></html>

解析为 HTML 文件后，我们可以使用 xpath() 方法来提取我们需要的数据了：

from lxml import etree

html_str = '''
<div>
    <ul>
        <li><a href="www.python.org">Python</a></li>
        <li><a href="www.java.com">Java</a></li>
        <li><a href="www.csdn.net">CSDN</a></li>
    </ul>
</div>
'''

html=etree.HTML(html_str)

xpath_bds='//@href'

r_list = html.xpath(xpath_bds)

print(r_list)

xpath() 方法使用一个 XPath 表达式作为参数，上面那段程序提取出了页面里的所有网址。

详细的 XPath 表达式语法，请参见菜鸟教程：
https://www.runoob.com/xpath/xpath-syntax.html

3.代码实例

lxml 库在爬虫中的使用大概就是这么多了，接下让我们结合前一篇文章（Python 网页请求：requests库的使用），来写一个普通的爬虫程序吧：

import os
import sys
import requests
from lxml import etree

x = requests.get('https://www.csdn.net/')


html = etree.HTML(x.text)

xpath_bds = '//img/@src'

img_list = html.xpath(xpath_bds)

# 创建img文件夹
os.chdir(os.path.dirname(sys.argv[0]))

if not os.path.exists('img'):
    os.mkdir('img')
    print('创建文件夹成功')
else:
    print('文件夹已存在')

# 下载图片
for i in range(len(img_list)):
    img = requests.get(img_list[i]).content
    if img_list[i].endswith('.jpg'):
        with open(f'./img/{i}.jpg', 'wb') as f:
            f.write(img)
    elif img_list[i].endswith('.jpeg'):
        with open(f'./img/{i}.jpeg', 'wb') as f:
            f.write(img)
    elif img_list[i].endswith('.png'):
        with open(f'./img/{i}.png', 'wb') as f:
            f.write(img)
    else:
        print(f'第{i + 1}张图片格式不正确')
        continue
    print(f'第{i + 1}张图片下载成功')

这个爬虫程序爬取了CSDN首页的所有.jpg、.jpeg、.png格式的图片，快来自己尝试一下吧！

到此这篇关于Python 文档解析lxml库的使用的文章就介绍到这了,更多相关Python lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

使用Python进行稳定可靠的文件操作详解
在本文中，主要分享一些如何在Python代码中改善I/O可靠性的见解,大家参考使用吧
2013-12-12
详解python opencv、scikit-image和PIL图像处理库比较
这篇文章主要介绍了详解python opencv、scikit-image和PIL图像处理库比较，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-12-12
Python调用Zoomeye搜索接口的实现
本文主要介绍了Python调用Zoomeye搜索接口的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-01-01
centos 安装Python3 及对应的pip教程详解
这篇文章主要介绍了centos 安装Python3 及对应的pip的教程，本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2019-06-06
Python isinstance函数介绍
这篇文章主要介绍了Python isinstance函数介绍,本文用实例讲解了判断变量是否是某个指定类型,需要的朋友可以参考下
2015-04-04
python通过文本在一个图中画多条线的实例
今天小编就为大家分享一篇python通过文本在一个图中画多条线的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
python文件读写操作小结
python文件对象提供了三个“读”方法： read()、readline() 和 readlines()，每种方法可以接受一个变量以限制每次读取的数据量，这篇文章主要介绍了python文件读写小结,需要的朋友可以参考下
2022-02-02
Python中使用matplotlib模块errorbar函数绘制误差棒图实例代码
在matplotlib中,errorbar方法用于绘制带误差线的折线图,下面这篇文章主要给大家介绍了关于Python中使用matplotlib模块errorbar函数绘制误差棒图的相关资料,需要的朋友可以参考下
2022-08-08
python 编码中为什么要写类型注解？
这篇文章主要介绍了python 编码中为什么要写类型注解，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-03-03
Python 切片为什么不会索引越界？
这篇文章主要介绍了Python 切片为什么不会索引越界？切片（slice）是 Python 中一种很有特色的特性，在正式开始之前，我们先来从关于切片的相关知识开始介绍，感兴趣的小伙伴一起参考参考呀</P><P>
2021-12-12

Python 文档解析lxml库的使用详解

目录

1.lxml库简介

2.lxml库方法介绍

3.代码实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具