Python如何提取html中文本到txt

 更新时间:2023年01月03日 14:14:17   作者:彳亍261  
这篇文章主要介绍了Python如何提取html中文本到txt问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

Python提取html中文本到txt

正则去标签方式

# -*- coding: utf-8 -*-
import re

def html_tag_rm(content: str):
	dr = re.compile(r'<[^>]+>',re.S)
	return dr.sub('',content)

nltk

比较笨重

需要安装依赖 nltk, numpy, pyyaml

# -*- coding: utf-8 -*-
import nltk


def html_tag_rm(content: str):
	return nltk.clean_html(content)

htmlParser

import re
from sys import stderr 
from traceback import print_exc
from HTMLParser import HTMLParser

 
class _DeHTMLParser(HTMLParser): 
    def __init__(self): 
        HTMLParser.__init__(self) 
        self.__text = [] 
 
    def handle_data(self, data): 
        text = data.strip() 
        if len(text) > 0: 
            text = re.sub('[ \t\r\n]+', ' ', text) 
            self.__text.append(text + ' ') 
 
    def handle_starttag(self, tag, attrs): 
        if tag == 'p': 
            self.__text.append('\n\n') 
        elif tag == 'br': 
            self.__text.append('\n') 
 
    def handle_startendtag(self, tag, attrs): 
        if tag == 'br': 
            self.__text.append('\n\n') 
 
    def text(self): 
        return ''.join(self.__text).strip() 
 
 
def dehtml(text): 
    try: 
        parser = _DeHTMLParser() 
        parser.feed(text) 
        parser.close() 
        return parser.text() 
    except: 
        print_exc(file=stderr) 
        return text 
 
 
def main(): 
    text = r'''''
        <html>
            <body>
                <b>Project:</b> DeHTML<br>
                <b>Description</b>:<br>
                This small script is intended to allow conversion from HTML markup to 
                plain text.
            </body>
        </html>
    ''' 
    print(dehtml(text)) 
 
 
if __name__ == '__main__': 
    main()

Python提取txt正则内容

其中:

pattern = re.compile(r'^.["“subject”"] [([^[])].*')

为修改的正则匹配部分

import re
import pandas as pd
with open("C:/data1.txt", 'r', encoding='UTF-8') as f:
    data = f.readlines()
    f.close()
tol = []
for line in data:
##s = re.findall('[\u4e00-\u9fa5]', data) print(s)
    pattern = re.compile(r'^.*\[\"\"subject\"\"\] \[([^\[]*)\].*')
    string = str(line)
    url = re.findall(pattern,string)
    if (url is not None ) and (url != '[]'):
        tol.append(url)
print(tol)
pd.DataFrame(tol).to_csv('C:/tol2.csv')
##f1 = open("url.txt", "a+", encoding='utf-8')
##for urls in url:
##    f1.write(urls + '\n')
##f1.close()
##reg = re.compile(r'^.*\[\"\"subject\"\"\] \[(.*)\]')
##msg = '""i;octet""  [""subject""] [""小木虫""] ,accounts :in_main [""2012207469@tju.edu.c'
##mtch = reg.match(msg)
##print(mtch.group(1))

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python实现对输入的密文加密

    python实现对输入的密文加密

    这篇文章主要为大家详细介绍了python实现对输入的密文加密,分析python求解简单加密问题,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • 用python介绍4种常用的单链表翻转的方法小结

    用python介绍4种常用的单链表翻转的方法小结

    这篇文章主要介绍了用python介绍4种常用的单链表翻转的方法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02
  • python使用 multiprocessing 多进程处理批量数据的示例代码

    python使用 multiprocessing 多进程处理批量数据的示例代码

    这篇文章主要介绍了使用 multiprocessing 多进程处理批量数据的示例代码,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-09-09
  • Python之打印日志库(logging)

    Python之打印日志库(logging)

    这篇文章主要介绍了Python之打印日志库(logging),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • Anaconda配置各版本Pytorch的实现

    Anaconda配置各版本Pytorch的实现

    本文是整理目前全版本pytorch深度学习环境配置指令,以下指令适用Windows操作系统,在Anaconda Prompt中运行,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08
  • Python中用Spark模块的使用教程

    Python中用Spark模块的使用教程

    这篇文章主要介绍了Python中用Spark模块的使用教程,来自IBM官方技术文档,需要的朋友可以参考下
    2015-04-04
  • python如何保证输入键入数字的方法

    python如何保证输入键入数字的方法

    今天小编就为大家分享一篇python如何保证输入键入数字的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • python 删除系统中的文件(按时间,大小,扩展名)

    python 删除系统中的文件(按时间,大小,扩展名)

    这篇文章主要介绍了python 如何删除系统中的文件,分别按时间,大小,扩展名删除,满足不同需求,感兴趣的朋友可以了解下
    2020-11-11
  • 实例讲解Python设计模式编程之工厂方法模式的使用

    实例讲解Python设计模式编程之工厂方法模式的使用

    这篇文章主要介绍了Python设计模式编程之工厂方法模式的运用实例,文中也对Factory Method模式中涉及到的角色作出了解析,需要的朋友可以参考下
    2016-03-03
  • python抽象基类用法实例分析

    python抽象基类用法实例分析

    这篇文章主要介绍了python抽象基类用法,实例分析了Python抽象基类的使用方法与相关注意事项,需要的朋友可以参考下
    2015-06-06

最新评论