python文本处理的方案(结巴分词并去除符号)

 更新时间:2021年05月26日 11:03:58   作者:依我去  
这篇文章主要介绍了python文本处理的方案(结巴分词并去除符号),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python time模块之时间戳与结构化时间的使用

    Python time模块之时间戳与结构化时间的使用

    这篇文章主要为大家详细介绍了Python中的time模块以及如何利用time模块实现时间戳与结构化时间,文中的示例代码讲解详细,需要的可以参考一下
    2022-06-06
  • Python实现音频添加数字水印的示例详解

    Python实现音频添加数字水印的示例详解

    数字水印技术可以将隐藏信息嵌入到音频文件中而不明显影响音频质量,下面小编将介绍几种在Python中实现音频数字水印的方法,希望对大家有所帮助
    2025-04-04
  • wx.CheckBox创建复选框控件并响应鼠标点击事件

    wx.CheckBox创建复选框控件并响应鼠标点击事件

    这篇文章主要为大家详细介绍了wx.CheckBox创建复选框控件并响应鼠标点击事件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • 在Python中定义函数并调用的操作步骤

    在Python中定义函数并调用的操作步骤

    这篇文章主要介绍了在Python中如何定义函数并调用它,函数的定义和调用是Python编程中最基本也是最重要的概念之一,掌握它们对于进行有效的Python编程至关重要,需要的朋友可以参考下
    2024-01-01
  • Python数据序列化技术总结

    Python数据序列化技术总结

    在现代软件开发中,数据序列化是一个关键环节,它允许我们将复杂的数据结构转换为可存储或可传输的格式,,Python提供了多种数据序列化技术,每种技术都有其独特的性能优势和适用场景,本文将详细介绍几种强大的Python数据序列化技术,需要的朋友可以参考下
    2025-03-03
  • 在pycharm中关掉ipython console/PyDev操作

    在pycharm中关掉ipython console/PyDev操作

    这篇文章主要介绍了在pycharm中关掉ipython console/PyDev操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • Dropout 正则化对抗 过拟合

    Dropout 正则化对抗 过拟合

    这篇文章主要为大家介绍了 Dropout 正则化对抗 过拟合重要性及应用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • 通俗讲解Python中的五种下划线含义

    通俗讲解Python中的五种下划线含义

    在Python中,下划线(_)是特殊的,如果您是python程序员,对于for _ in range(10),以及__init__(self)的语法可能比较熟悉,这篇文章主要给大家介绍了关于Python中五种下划线的相关资料,需要的朋友可以参考下
    2021-10-10
  • python datetime处理时间小结

    python datetime处理时间小结

    这篇文章主要介绍了python datetime处理时间小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • 使用python编写android截屏脚本双击运行即可

    使用python编写android截屏脚本双击运行即可

    使用python编写一个截屏的脚本,双击运行脚本就OK,截屏成功后会将截屏文件已当前时间命名,并保存在存放脚本的当前路径的screenshot文件夹下
    2014-07-07

最新评论