Python利用BeautifulSoup解析Html的方法示例

更新时间：2017年07月30日 10:08:23 投稿：daisy

BeautifulSoup是python的一个库，最主要的功能是从网页抓取数据。下面这篇文章主要给大家介绍了关于Python利用BeautifulSoup解析Html的方法示例，文中通过示例代码介绍的非常详细，需要的朋友们下面跟着小编来一起学习学习吧。

介绍

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

本文将给大家详细介绍关于Python利用BeautifulSoup解析Html的方法，下面话不多说了，来一起看看详细的介绍：

1. 安装Beautifulsoup4

pip install beautifulsoup4
pip install lxml
pip install html5lib

lxml 和 html5lib 是解析器

2. html

<!-- This is the example.html file. -->
 
<html><head><title>The Website Title</title></head>
<body>
<p>Download my <strong>Python</strong> book from <a href="http://inventwithpython.com" rel="external nofollow" >my website</a>.</p>
<p class="slogan">Learn Python the easy way!</p>
<p>By <span id="author">Al Sweigart</span></p>
</body></html>

上面的html保存html文件

3.开始解析

import bs4
 
exampleFile = open('example.html')
exampleSoup = bs4.BeautifulSoup(exampleFile.read(),'html5lib')
elems = exampleSoup.select('#author')
type(elems)
print (elems[0].getText())

结果输出 Al Sweigart

BeautifulSoup 使用select 方法寻找元素，类似jquery的css选择器

soup.select(‘div') ———————–所有为<div>的元素
soup.select(‘#author') —————–id为author的元素
soup.select(‘.notice') ——————class 为notice的元素

参考《Python 编程快速上手—–让繁琐工作自动化》

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持

您可能感兴趣的文章:

python-docx把dataframe表格添加到word文件中
用Python-docx库,可以轻松地添加表格到Word文档中,本文主要介绍了python-docx把dataframe表格添加到word文件中,感兴趣的可以了解一下
2023-08-08
在keras 中获取张量 tensor 的维度大小实例
这篇文章主要介绍了在keras 中获取张量 tensor 的维度大小实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
python基础知识（一）变量与简单数据类型详解
这篇文章主要介绍了python变量与简单数据类型详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
python 存储变量的几种方法(推荐)
这篇文章主要介绍了python 存储变量的几种方法,包括numpy 自带方法，pandas 自带方法，sklearn 的自带方法和pickle 库操作方法，本文通过实例代码给大家介绍的非常详细，需要的朋友可以参考下
2022-11-11
Python将多份excel表格整理成一份表格
这篇文章主要为大家详细介绍了Python将多份excel表格整理成一份表格，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-01-01
Python调用各大机器翻译API的实现示例
本文主要介绍了Python调用各大机器翻译API的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-07-07
Python中的代码异常处理你掌握了吗
Python 使用称为异常(exception）的特殊对象来管理程序执行期间发生的错误，那Python中代码异常处理的相关操作你都了解了吗，本文为大家进行了详细整理，需要的可以参考下
2023-06-06
Python实现简单猜拳游戏
这篇文章主要为大家详细介绍了Python实现简单猜拳游戏，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-01-01
Python 迭代器与生成器实例详解
这篇文章主要介绍了Python 迭代器与生成器实例详解的相关资料,需要的朋友可以参考下
2017-05-05
使用Python中PIL库给图片添加文本水印
有时候我们需要添加一定的水印以给自己的图片添加先关的标记,在Python中有相关的计算函数,下面这篇文章主要给大家介绍了关于使用Python中PIL库给图片添加文本水印的相关资料,需要的朋友可以参考下
2023-04-04

Python利用BeautifulSoup解析Html的方法示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具