python文本处理的方案(结巴分词并去除符号)

 更新时间:2021年05月26日 11:03:58   作者:依我去  
这篇文章主要介绍了python文本处理的方案(结巴分词并去除符号),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python pandas入门系列之众数和分位数

    Python pandas入门系列之众数和分位数

    分位数(Quantile),也称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,分析其数据变量的趋势,而众数(Mode)是代表数据的一般水平,这篇文章主要给大家介绍了Python pandas系列之众数和分位数的相关资料,需要的朋友可以参考下
    2021-08-08
  • Flask配置Cors跨域的实现

    Flask配置Cors跨域的实现

    这篇文章主要介绍了Flask配置Cors跨域的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • Python使用Pandas生成日报的实现代码

    Python使用Pandas生成日报的实现代码

    Pandas是Python中一个强大的数据处理库,它提供了许多功能强大的数据结构和数据分析工具,在本文中,我们将介绍Pandas的基本概念和如何使用它生成一个包含今天到未来20个工作日的日期列表的Excel文件,需要的朋友可以参考下
    2023-11-11
  • pytorch加载自己的图片数据集的2种方法详解

    pytorch加载自己的图片数据集的2种方法详解

    数据预处理在解决深度学习问题的过程中,往往需要花费大量的时间和精力,下面这篇文章主要给大家介绍了关于pytorch加载自己的图片数据集的2种方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • python生成xml时规定dtd实例方法

    python生成xml时规定dtd实例方法

    在本篇文章里小编给大家整理的是关于python生成xml时规定dtd实例方法,需要的朋友们学习参考下。
    2020-09-09
  • python+pillow绘制矩阵盖尔圆简单实例

    python+pillow绘制矩阵盖尔圆简单实例

    这篇文章主要介绍了Python+pillow绘制矩阵盖尔圆简单实例,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • 用pyqt5 给按钮设置图标和css样式的方法

    用pyqt5 给按钮设置图标和css样式的方法

    今天小编就为大家分享一篇用pyqt5 给按钮设置图标和css样式的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • 关于Python如何安装requests库

    关于Python如何安装requests库

    这篇文章主要介绍了关于Python如何安装requests库,requests库自称“HTTP for Humans”,直译过来的意思是专门为人类设计的HTTP库,能够被开发人员安全地使用,需要的朋友可以参考下
    2023-04-04
  • 如何通过python实现IOU计算代码实例

    如何通过python实现IOU计算代码实例

    这篇文章主要介绍了如何通过python实现IOU计算代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • 详解Python如何求不同分辨率图像的峰值信噪比

    详解Python如何求不同分辨率图像的峰值信噪比

    这篇文章主要为大家详细介绍了如何利用Python中的 NumPy 和 OpenCV 库实现求不同分辨率图像的峰值信噪比,感兴趣的小伙伴可以跟随不想一起学习一下
    2023-01-01

最新评论