Python利用BeautifulSoup解析Html的方法示例

 更新时间:2017年07月30日 10:08:23   投稿:daisy  
BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。下面这篇文章主要给大家介绍了关于Python利用BeautifulSoup解析Html的方法示例,文中通过示例代码介绍的非常详细,需要的朋友们下面跟着小编来一起学习学习吧。

介绍

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

本文将给大家详细介绍关于Python利用BeautifulSoup解析Html的方法,下面话不多说了,来一起看看详细的介绍:

1. 安装Beautifulsoup4

pip install beautifulsoup4
pip install lxml
pip install html5lib

lxml 和 html5lib 是解析器

2. html 

<!-- This is the example.html file. -->
 
<html><head><title>The Website Title</title></head>
<body>
<p>Download my <strong>Python</strong> book from <a href="http://inventwithpython.com" rel="external nofollow" >my website</a>.</p>
<p class="slogan">Learn Python the easy way!</p>
<p>By <span id="author">Al Sweigart</span></p>
</body></html>

上面的html保存html文件

3.开始解析

import bs4
 
exampleFile = open('example.html')
exampleSoup = bs4.BeautifulSoup(exampleFile.read(),'html5lib')
elems = exampleSoup.select('#author')
type(elems)
print (elems[0].getText())

结果输出 Al Sweigart

BeautifulSoup 使用select 方法寻找元素,类似jquery的css选择器

  • soup.select(‘div') ———————–所有为<div>的元素
  • soup.select(‘#author') —————–id为author的元素
  • soup.select(‘.notice') ——————class 为notice的元素

参考《Python 编程快速上手—–让繁琐工作自动化》

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持

相关文章

  • Python+Turtle绘制一个可爱的生日蛋糕

    Python+Turtle绘制一个可爱的生日蛋糕

    每当有朋友过生日时,生日蛋糕自然是必不可少的。本文将利用Python中的turtle、math和random绘制一个可爱的生日蛋糕,需要的可以参考一下
    2022-05-05
  • 使用TensorBoard进行超参数优化的实现

    使用TensorBoard进行超参数优化的实现

    这篇文章主要介绍了使用TensorBoard进行超参数优化的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-07-07
  • 关于windos10环境下编译python3版pjsua库的问题

    关于windos10环境下编译python3版pjsua库的问题

    pjsua默认绑定的python版本是python 2.4,使用起来有诸多限制,希望可以使用python3调用pjsua的库实现软电话的基础功能。这篇文章主要介绍了windos10环境下编译python3版pjsua库,需要的朋友可以参考下
    2021-10-10
  • pygame学习笔记(6):完成一个简单的游戏

    pygame学习笔记(6):完成一个简单的游戏

    这篇文章主要介绍了pygame学习笔记(6):完成一个简单的游戏,本文综合了学习过的知识,完成一个简单的游戏开发,是本系列文章的最后一篇,需要的朋友可以参考下
    2015-04-04
  • python基于pygame实现响应游戏中事件的方法(附源码)

    python基于pygame实现响应游戏中事件的方法(附源码)

    这篇文章主要介绍了python基于pygame实现响应游戏中事件的方法,实例分析了Python基于pygame针对键盘及鼠标事件的响应方法,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-11-11
  • Django实现简单登录的示例代码

    Django实现简单登录的示例代码

    本文主要介绍了Django实现简单登录的示例代码,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-11-11
  • Python模拟登录验证码(代码简单)

    Python模拟登录验证码(代码简单)

    这篇文章主要介绍了Python模拟登录验证码(代码简单)的相关资料,需要的朋友可以参考下
    2016-02-02
  • Mac中安装anaconda并配置虚拟环境的详细过程

    Mac中安装anaconda并配置虚拟环境的详细过程

    这篇文章主要给大家介绍了关于Mac中安装anaconda并配置虚拟环境的详细过程,anaconda是包管理器和环境管理器,使用它可以方便地创作,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2023-10-10
  • python可视化之颜色映射详解

    python可视化之颜色映射详解

    Python的可视化有很多种,这篇文章主要介绍了Python可视化的颜色映射,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • Win系统PyQt5安装和使用教程

    Win系统PyQt5安装和使用教程

    这篇文章主要介绍了Win系统PyQt5安装和使用教程,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-12-12

最新评论