Python去除html标签的几种方法总结

 更新时间:2023年01月03日 15:25:42   作者:一行书辞  
这篇文章主要介绍了Python去除html标签的几种方法总结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

Python去除html标签的方法

最近小说看得比较多,但是很多小说网站都存在各种小广告,看起来很不方便,所以就自己写了个小程序,把小说都爬下来,然后搭个自己喜欢web页面来看。

在爬取过程中没有出现太大的问题,只有在清洗数据时,发现小说文本中混杂HTML标签,所以就需要对标签进行清洗。

我自己尝试了字符串的处理方式,正则,还有lxml等方式来处理这个问题,现在记录一下使用方式。

我们使用下面这个字符串举例说明,内容为一段html代码。需要对这段字符串进行处理,提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

1. 使用正则来处理

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

输出结果:

你好哈哈大家好

2. 使用BeautifulSoup来处理

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

输出结果:

你好哈哈大家好

3. 使用lxml来出来

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

输出结果:

你好哈哈大家好

python正则表达式去除html标签的属性

import re
test='<p class="pictext" align="center">陈细妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)

输出

<p>陈细妹</p>

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python要安装在哪个盘

    python要安装在哪个盘

    在本篇文章里小编给大家分享的是一篇关于python必须装在c盘吗的知识点文章,有兴趣的朋友们可以学习下。
    2020-06-06
  • Django添加bootstrap框架时无法加载静态文件的解决方式

    Django添加bootstrap框架时无法加载静态文件的解决方式

    这篇文章主要介绍了Django添加bootstrap框架时无法加载静态文件的解决方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • Python读取Excel数据实现批量生成PPT

    Python读取Excel数据实现批量生成PPT

    我们常常面临着大量的重复性工作,通过人工方式处理往往耗时耗力易出错。而Python在办公自动化方面具有天然优势。本文将利用读取Excel数据并实现批量生成PPT,需要的可以参考一下
    2022-05-05
  • python用函数创造字典的实例讲解

    python用函数创造字典的实例讲解

    在本篇文章里小编给大家整理的是一篇关于python用函数创造字典的实例讲解内容,有需要的朋友们可以学习参考下。
    2021-06-06
  • FastApi如何快速构建一个web项目的实现

    FastApi如何快速构建一个web项目的实现

    本文主要介绍了FastApi如何快速构建一个web项目的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • Python与shell的3种交互方式介绍

    Python与shell的3种交互方式介绍

    这篇文章主要介绍了Python与shell的3种交互方式介绍,本文讲解了os.system、os.popen、subprocess模块等3种方法,需要的朋友可以参考下
    2015-04-04
  • 详解python如何在django中为用户模型添加自定义权限

    详解python如何在django中为用户模型添加自定义权限

    这篇文章主要介绍了python如何在django中为用户模型添加自定义权限,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-10-10
  • 关于Python中jieba库的使用

    关于Python中jieba库的使用

    这篇文章主要介绍了关于Python中jieba库的使用,jieba (“结巴”) 是 Python 中一个重要的第三方中文分词函数库,除了分词,jieba 还提供增加自定义中文单词的功能,需要的朋友可以参考下
    2023-04-04
  • 基于python3的socket聊天编程

    基于python3的socket聊天编程

    这篇文章主要为大家详细介绍了基于python3的socket聊天编程,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-02-02
  • Python实现图像尺寸和格式转换处理的示例详解

    Python实现图像尺寸和格式转换处理的示例详解

    这篇文章主要为大家详细介绍了如何利用Python实现图像尺寸获取和格式转换处理的功能,文中的示例代码讲解详细,感兴趣的可以了解一下
    2023-04-04

最新评论