Python操作lxml库之基础使用篇

 更新时间:2022年12月23日 11:14:13   作者:醉蕤  
lxml库是python的第三方库,安装方式也是十分简单,下面这篇文章主要给大家介绍了关于Python操作lxml库之基础使用篇的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

一、lxml库概述

1、lxml库介绍

lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息。

2、lxml库特点

HTML是超文本标记语言,主要用于显示数据,他的焦点是数据的外观

XML是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容

3、lxml库的安装

windows系统下,在cmd命令提示框中,输入如下命令

pip install lxml

在cmd命令行验证是否安装成功。若引入模块,不返回错误则说明安装成功。 

二、基本使用

1、lxml.etree

在爬虫代码采集过程中,通过etree.HTML直接将字符串实例转化为element对象。

import requests
from lxml import etree
 
res = requests.get("http://www.jsons.cn/zt/")
 
html = res.text
 
root_element = etree.HTML(html)
 
print(root_element)
print(root_element.tag)

2、解析HTML网页

#解析HTML字符串
from lxml import etree
text = '''
<html><body>
    <div class="key">
        <div class="name">无羡</div>
        <div class="age">20</div>
        <div class="address">四川</div>
    </div>
</body></html>
'''
# 开始初始化
html = etree.HTML(text)  # 这里需要传入一个html形式的字符串
print(html)
print(type)
# 将字符串序列化为html字符串
result = etree.tostring(html).decode('utf-8')
print(result)
print(type(result))

3、读取并解析HTML文件

from lxml import etree
 
# 将html文件进行读取
html = etree.parse('1.html')
 
# 将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)
print(type(result))
html = etree.HTML(result)  # 这里需要传入一个html形式的字符串
print(html)
print(type)

三、lxml使用流程

1、 导入模块

from lxml import etree

2、创建解析对象

调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。

parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。

from lxml import etree
html_str = '''
<div>
    <ul>
         <li class="item1"><a href="link1.html">Python</a></li>
         <li class="item2"><a href="link2.html">Java</a></li>
         <li class="site1"><a href="c.biancheng.net">C语言中文网</a>
         <li class="site2"><a href="www.baidu.com">百度</a></li>
         <li class="site3"><a href="www.jd.com">京东</a></li>
     </ul>
</div>
'''
html = etree.HTML(html_str)
 
result = etree.tostring(html)
print(result.decode('utf-8'))

四、lxml库数据提取

1、提取所有a标签内的文本信息

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/text()'
# 提取文本数据,以列表形式输出
r_list=parse_html.xpath(xpath_bds)
# 打印数据列表
print(r_list)

2、获取所有href的属性值

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/@href'
# 提取文本数据,以列表形式输出
r_list=parse_html.xpath(xpath_bds)
# 打印数据列表
print(r_list)

3、不匹配href=" www.biancheng.net/priduct"

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/@href'
# 提取文本数据,以列表形式输出
xpath_bds='//ul[@id="sitename"]/li/a/@href'
# 打印数据列表
print(r_list)

总结

到此这篇关于Python操作lxml库之基础使用篇的文章就介绍到这了,更多相关Python操作lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • pipreqs ./ --encoding=utf-8 --force 报错问题解决

    pipreqs ./ --encoding=utf-8 --force 报错问题解决

    本文主要介绍了pipreqs ./ --encoding=utf-8 --force 报错问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-04-04
  • Python中快速掌握Data Frame的常用操作

    Python中快速掌握Data Frame的常用操作

    这篇文章主要介绍了Python中快速掌握Data Frame的常用操作,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03
  • Python中的shutil模块详析

    Python中的shutil模块详析

    这篇文章主要介绍了Python中的shutil模块详析,Python的Shutil模块可以看做是OS模块的补充,它提供了对文件(夹)复制,移动,删除,压缩和解压缩的方法,下面本文会对shutil模块的常用方法进行分类介绍,需要的朋友可以参考下
    2023-09-09
  • Python实现多线程抓取妹子图

    Python实现多线程抓取妹子图

    本文给大家汇总了3款由Python制作的多线程批量抓取美图的代码,主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,有类似需求的小伙伴可以参考下。
    2015-08-08
  • 使用python装饰器验证配置文件示例

    使用python装饰器验证配置文件示例

    项目中用到了一个WriteData的函数保存用户填写的配置,为了实现验证用户输入的需求,在不影响接口的使用的前提下,采用了python的装饰器实现,代码片段演示了如何验证WriteData函数的输入参数
    2014-02-02
  • Python使用Tkinter GUI实现输入验证功能

    Python使用Tkinter GUI实现输入验证功能

    这篇文章主要介绍了Python中使用Tkinter GUI实现输入验证,文中通过一个完整示例代码给大家介绍Python Tkinter GUI输入验证功能,需要的朋友可以参考下
    2022-04-04
  • Python编码爬坑指南(必看)

    Python编码爬坑指南(必看)

    下面小编就为大家带来一篇Python编码爬坑指南(必看)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-06-06
  • 本机安装PaddlePaddle安装指南及步骤详解

    本机安装PaddlePaddle安装指南及步骤详解

    PaddlePaddle是百度研发的开源开放的深度学习平台,有全面的官方支持的工业级应用模型,涵盖自然语言处理、计算机视觉、推荐引擎等多个领域,并开放多个领先的预训练中文模型。这篇文章主要介绍了本机安装PaddlePaddle安装指南,需要的朋友可以参考下
    2021-12-12
  • 简述Python2与Python3的不同点

    简述Python2与Python3的不同点

    在Python2和Python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异。下面通过本文给大家介绍Python2与Python3的不同点,需要的朋友参考下
    2018-01-01
  • Python3之读取连接过的网络并定位的方法

    Python3之读取连接过的网络并定位的方法

    下面小编就为大家分享一篇Python3之读取连接过的网络并定位的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04

最新评论