Python lxml库的简单介绍及基本使用讲解

 更新时间:2020年12月22日 14:59:21   作者:pinuscembra  
lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据,本文重点给大家介绍Python lxml库的简单介绍及基本使用讲解,感兴趣的朋友跟随小编一起看看吧

1.lxml库介绍

lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息

HTML是超文本标记语言,主要用于显示数据,他的焦点是数据的外观
XML是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容

2.安装lxml方法

方法1:
在cmd运行窗口中输入:pip install lxml

在这里插入图片描述

方法2:
在Pycharm中下载
File–Setting–Project–Project Interpreter–点击右上角的“+”—
第1步

在这里插入图片描述

第2步

在这里插入图片描述

第3步

在这里插入图片描述

方法3:
进入这个网站进行下载:https://lxml.de/index.html

在这里插入图片描述

3.基本使用

我们可以利用他解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范或者不完整,lxml解析器会自动修复或补全代码,从而提高效率

实例1:
解析HTML代码块

#提取html中的数据
from lxml import etree

text = '''
<html>
    <div class="clearfix">
    <div class="nav_com">
     <ul>
       <li class="active"><a href="/" rel="external nofollow" >推荐</a></li>
       <li class=""><a href="/nav/python" rel="external nofollow" >Python</a></li>
       <li class=""><a href="/nav/java" rel="external nofollow" >Java</a></li>
       <li class=""><a href="/nav/web" rel="external nofollow" >前端</a></li>
       <li class=""><a href="/nav/arch" rel="external nofollow" >架构</a></li>
       <li class=""><a href="/nav/db" rel="external nofollow" >数据库</a></li>
       <li class=""><a href="/nav/5g" rel="external nofollow" >5G</a></li>
       <li class=""><a href="/nav/game" rel="external nofollow" >游戏开发</a></li>
       <li class=""><a href="/nav/mobile" rel="external nofollow" >移动开发</a></li>
       <li class=""><a href="/nav/ops" rel="external nofollow" >运维</a></li>
     </ul>
    </div>
    </div>
</html>>
</html>>

'''
#将字符串解析为html文档
html = etree.HTML(text)
#print(html)
#将字符串序列化为html
result = etree.tostring(html).decode('utf-8')
print(result)

实例2:
读取并解析html文件

#将html文件进行解析
from lxml import etree
#将html文件进行读取
html = etree.parse('data.html')
#将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)

到此这篇关于Python lxml库的简单介绍及基本使用讲解的文章就介绍到这了,更多相关Python lxml库使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • pytorch rpc实现分物理机器实现model parallel的过程详解

    pytorch rpc实现分物理机器实现model parallel的过程详解

    这篇文章主要介绍了pytorch rpc实现分物理机器实现model parallel的过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-05-05
  • Python实现将字典内容写入json文件

    Python实现将字典内容写入json文件

    这篇文章主要为大家详细介绍了如何利用Python语言实现将字典内容写入json文件,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2022-08-08
  • 基于python的socket实现单机五子棋到双人对战

    基于python的socket实现单机五子棋到双人对战

    这篇文章主要为大家详细介绍了基于python的socket实现单机五子棋到双人对战,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-06-06
  • python实现抖音视频批量下载

    python实现抖音视频批量下载

    这篇文章主要为大家详细介绍了python实现抖音视频批量下载,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • Python图像处理之使用OpenCV检测对象颜色

    Python图像处理之使用OpenCV检测对象颜色

    OpenCV颜色检测只是一个起点,最终目标是最终使用Python 3代码在视频流帧中定位彩色元素位置,下面这篇文章主要给大家介绍了关于Python图像处理之使用OpenCV检测对象颜色的相关资料,需要的朋友可以参考下
    2022-12-12
  • 使用Python实现MP4转GIF

    使用Python实现MP4转GIF

    在日常生活中,我们经常会遇到需要将 MP4 文件转换为 GIF 文件的需求,本文将介绍一种使用 Python 实现 MP4 转 GIF 程序的方法,这种方法简单易学,而且完全免费,需要的可以参考下
    2023-12-12
  • 玩转python爬虫之爬取糗事百科段子

    玩转python爬虫之爬取糗事百科段子

    这篇文章主要介绍了python爬虫爬取糗事百科段子,详细介绍下,如何来抓取到糗事百科里面的指定内容,感兴趣的小伙伴们可以参考一下
    2016-02-02
  • Python PyQt5模块实现窗口GUI界面代码实例

    Python PyQt5模块实现窗口GUI界面代码实例

    这篇文章主要介绍了Python PyQt5模块实现窗口GUI界面代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • 解析PyCharm Python运行权限问题

    解析PyCharm Python运行权限问题

    这篇文章主要介绍了PyCharm Python运行权限问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • python chinesecalendar报错:"no available data for year {}, only year between [{}, {}] supported"

    python chinesecalendar报错:"no available data for ye

    这篇文章主要介绍了python chinesecalendar报错:“no available data for year {}, only year between [{}, {}] supported“的相关知识,需要的朋友可以参考下
    2023-03-03

最新评论