python爬虫beautifulsoup解析html方法

更新时间：2020年12月07日 10:00:40 作者：木偶跳舞

这篇文章主要介绍了python爬虫beautifulsoup解析html方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

用BeautifulSoup 解析html和xml字符串

对象参数说明

实例：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import re

#待分析字符串
html_doc = """
<html>
<head>
  <title>The Dormouse's story</title>
</head>
<body>
<p class="title aq">
  <b>
    The Dormouse's story
  </b>
</p>

<p class="story">Once upon a time there were three little sisters; and their names were
  <a href="http://example.com/elsie" rel="external nofollow" class="sister" id="link1">Elsie</a>,
  <a href="http://example.com/lacie" rel="external nofollow" class="sister" id="link2">Lacie</a> 
  and
  <a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
  and they lived at the bottom of a well.
</p>

<p class="story">...</p>
"""


# html字符串创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

#输出第一个 title 标签
print soup.title

#输出第一个 title 标签的标签名称
print soup.title.name

#输出第一个 title 标签的包含内容
print soup.title.string

#输出第一个 title 标签的父标签的标签名称
print soup.title.parent.name

#输出第一个 p 标签
print soup.p

#输出第一个 p 标签的 class 属性内容
print soup.p['class']

#输出第一个 a 标签的 href 属性内容
print soup.a['href']
'''
soup的属性可以被添加,删除或修改. 再说一次, soup的属性操作方法与字典一样
'''
#修改第一个 a 标签的href属性为 http://www.baidu.com/
soup.a['href'] = 'http://www.baidu.com/'

#给第一个 a 标签添加 name 属性
soup.a['name'] = u'百度'

#删除第一个 a 标签的 class 属性为
del soup.a['class']

##输出第一个 p 标签的所有子节点
print soup.p.contents

#输出第一个 a 标签
print soup.a

#输出所有的 a 标签，以列表形式显示
print soup.find_all('a')

#输出第一个 id 属性等于 link3 的 a 标签
print soup.find(id="link3")

#获取所有文字内容
print(soup.get_text())

#输出第一个 a 标签的所有属性信息
print soup.a.attrs


for link in soup.find_all('a'):
  #获取 link 的 href 属性内容
  print(link.get('href'))

#对soup.p的子节点进行循环输出  
for child in soup.p.children:
  print(child)

#正则匹配，名字中带有b的标签
for tag in soup.find_all(re.compile("b")):
  print(tag.name)

爬虫设计思路：

爬虫设计思路

详细手册：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

到此这篇关于python爬虫beautifulsoup解析html方法的文章就介绍到这了,更多相关beautifulsoup解析html内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python中NumPy的安装与基本操作
Python虽然也提供了array模块,但其只支持一维数组,不支持多维数组,也没有各种运算函数,因而不适合数值运算,NumPy的出现弥补了这些不足,这篇文章主要给大家介绍了关于python中NumPy的安装与基本操作的相关资料,需要的朋友可以参考下
2022-03-03
简单且有用的Python数据分析和机器学习代码
Python编程是一种通用的编程语言,开源、灵活、功能强大且易于使用,python最重要的特性之一是其用于数据处理和分析任务的丰富实用程序和库集,这篇文章主要给大家介绍了一些简单且有用的Python数据分析和机器学习代码,需要的朋友可以参考下
2021-07-07
python实现简单成绩录入系统
这篇文章主要为大家详细介绍了python实现简单成绩录入系统，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-09-09
基于Python实现图片主题色的提取
在 Groove 音乐中，当我们改变歌曲时，底部播放栏的颜色会随专辑封面而变，这就是提取了主题色。本文将利用Python实现图片主题色的提取，感兴趣的可以了解一下
2022-03-03
python中str、bytes、十六进制字符串之间的相互转换方法
这篇文章主要介绍了在Python中字符串（str）、字节序列（bytes）以及十六进制字符串之间的转换方法,包括如何使用.encode()、.decode()、bytes.fromhex()和.hex()方法进行转换,需要的朋友可以参考下
2025-03-03
Python中numpy数组的计算与转置详解
大家好，本篇文章主要讲的是Python中numpy数组的计算与转置详解，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2021-12-12
Pycharm取消py脚本中SQL识别的方法
今天小编就为大家分享一篇Pycharm取消py脚本中SQL识别的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
一文带你搞懂Python中isinstance和type的区别
在Python中，我们经常需要检查一个对象的类型，Python提供了两种方法来获取对象的类型：isinstance和type，这两种方法有什么区别呢，本文将详细介绍这两种方法的区别和使用,需要的朋友可以参考下
2023-06-06
Django 权限管理(permissions)与用户组(group)详解
这篇文章主要介绍了Django 权限管理(permissions)与用户组(group)详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-11-11
Python matplotlib实战之雷达图绘制
雷达图（Radar Chart）,也被称为蛛网图或星型图,是一种用于可视化多个变量之间关系的图表形式,本文主要为大家介绍了如何使用Matplotlib绘制雷达图,需要的小伙伴可以参考下
2023-08-08

python爬虫beautifulsoup解析html方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具