Python 文档解析lxml库的使用详解

 更新时间:2022年09月09日 08:46:33   作者:小嗷犬  
lxml 是 Python 常用的文档解析库,能够高效地解析 HTML/XML 文档,常用于 Python 爬虫,这篇文章主要介绍了Python 文档解析:lxml库的使用,需要的朋友可以参考下

1.lxml库简介

lxml 是 Python 常用的文档解析库,能够高效地解析 HTML/XML 文档,常用于 Python 爬虫。

lxml 为第三方库,需要我们通过pip命令安装:

pip install lxml

2.lxml库方法介绍

lxml 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,让我们先导入模块:

from lxml import etree

使用 etree 模块的 HTML() 方法可以创建 HTML 解析对象:

from lxml import etree
parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,并且可以自动修正 HTML 文本:

from lxml import etree
html_str = '''
<div>
    <ul>
        <li><a href="www.python.org">Python</a></li>
        <li><a href="www.java.com">Java</a>
        <li><a href="www.csdn.net">CSDN</a></li>
    </ul>
</div>
'''

html = etree.HTML(html_str)
# tostring()将标签元素转换为字符串输出,注意:result为字节类型
result = etree.tostring(html)
print(result.decode('utf-8'))

上述代码我故意在Java那一行少写一个</li>,可以看到输出会自动补全:

<html><body><div>
    <ul>
        <li><a href="www.python.org">Python</a></li>
        <li><a href="www.java.com">Java</a></li>
        <li><a href="www.csdn.net">CSDN</a></li>
    </ul>
</div>
</body></html>

解析为 HTML 文件后,我们可以使用 xpath() 方法来提取我们需要的数据了:

from lxml import etree

html_str = '''
<div>
    <ul>
        <li><a href="www.python.org">Python</a></li>
        <li><a href="www.java.com">Java</a></li>
        <li><a href="www.csdn.net">CSDN</a></li>
    </ul>
</div>
'''

html=etree.HTML(html_str)

xpath_bds='//@href'

r_list = html.xpath(xpath_bds)

print(r_list)

xpath() 方法使用一个 XPath 表达式作为参数,上面那段程序提取出了页面里的所有网址。

详细的 XPath 表达式语法,请参见菜鸟教程:
https://www.runoob.com/xpath/xpath-syntax.html

3.代码实例

lxml 库在爬虫中的使用大概就是这么多了,接下让我们结合前一篇文章(Python 网页请求:requests库的使用),来写一个普通的爬虫程序吧:

import os
import sys
import requests
from lxml import etree

x = requests.get('https://www.csdn.net/')


html = etree.HTML(x.text)

xpath_bds = '//img/@src'

img_list = html.xpath(xpath_bds)

# 创建img文件夹
os.chdir(os.path.dirname(sys.argv[0]))

if not os.path.exists('img'):
    os.mkdir('img')
    print('创建文件夹成功')
else:
    print('文件夹已存在')

# 下载图片
for i in range(len(img_list)):
    img = requests.get(img_list[i]).content
    if img_list[i].endswith('.jpg'):
        with open(f'./img/{i}.jpg', 'wb') as f:
            f.write(img)
    elif img_list[i].endswith('.jpeg'):
        with open(f'./img/{i}.jpeg', 'wb') as f:
            f.write(img)
    elif img_list[i].endswith('.png'):
        with open(f'./img/{i}.png', 'wb') as f:
            f.write(img)
    else:
        print(f'第{i + 1}张图片格式不正确')
        continue
    print(f'第{i + 1}张图片下载成功')

这个爬虫程序爬取了CSDN首页的所有.jpg.jpeg.png格式的图片,快来自己尝试一下吧!

到此这篇关于Python 文档解析lxml库的使用的文章就介绍到这了,更多相关Python lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python Dejavu库快速识别音频指纹实例探究

    python Dejavu库快速识别音频指纹实例探究

    这篇文章主要为大家介绍了python Dejavu库快速识别音频指纹实例探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2024-01-01
  • Python中常见的反爬机制及其破解方法总结

    Python中常见的反爬机制及其破解方法总结

    今天给大家带来的文章是关于Python的相关知识,文章围绕着Python中常见的反爬机制及其破解方法展开,文中有非常详细的介绍,需要的朋友可以参考下
    2021-06-06
  • Python四大金刚之集合详解

    Python四大金刚之集合详解

    这篇文章主要介绍了Python的集合,小编觉得这篇文章写的还不错,需要的朋友可以参考下,希望能够给你带来帮助
    2021-10-10
  • Python随机验证码生成和join 字符串的问题解析

    Python随机验证码生成和join 字符串的问题解析

    Python中有join()和os.path.join()两个函数,join是将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串而os.path.join(): 将多个路径组合后返回,本文给大家介绍的非常详细,需要的朋友一起看看吧
    2022-04-04
  • PyQt5组件读取参数的实例

    PyQt5组件读取参数的实例

    今天小编就为大家分享一篇PyQt5组件读取参数的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python代码调试的几种方法总结

    Python代码调试的几种方法总结

    这篇文章主要介绍了Python代码调试的几种方法总结,本文来自于IBM官方网站技术文档,需要的朋友可以参考下
    2015-04-04
  • Python中的字典与成员运算符初步探究

    Python中的字典与成员运算符初步探究

    这篇文章主要介绍了Python中的字典与成员运算符初步探究,是Python入门学习中的基础知识,需要的朋友可以参考下
    2015-10-10
  • 一小时学会TensorFlow2之Fashion Mnist

    一小时学会TensorFlow2之Fashion Mnist

    这篇文章主要介绍了TensorFlow2之Fashion Mnist,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • Python语言中的Selenium环境搭建

    Python语言中的Selenium环境搭建

    本文主要介绍了Python语言中的Selenium环境搭建,Python+Selenium这篇文章将不断的持续更新和重构,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-08-08
  • GPU状态监测 nvidia-smi 命令的用法详解

    GPU状态监测 nvidia-smi 命令的用法详解

    这篇文章主要介绍了GPU状态监测 nvidia-smi 命令的用法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11

最新评论