使用python进行文本预处理和提取特征的实例

 更新时间:2018年06月05日 15:14:25   作者:Johline  
今天小编就为大家分享一篇使用python进行文本预处理和提取特征的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong> 
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点 

result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字 

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result 

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words 

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Pandas筛选某列过滤的方法

    Pandas筛选某列过滤的方法

    本文主要介绍了Pandas筛选某列过滤的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • 举例讲解Python设计模式编程中的访问者与观察者模式

    举例讲解Python设计模式编程中的访问者与观察者模式

    这篇文章主要介绍了Python设计模式编程中的访问者与观察者模式,设计模式的制定有利于团队协作编程代码的协调,需要的朋友可以参考下
    2016-01-01
  • Python生成器实现简单

    Python生成器实现简单"生产者消费者"模型代码实例

    这篇文章主要介绍了Python生成器实现简单"生产者消费者"模型代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Pydantic中BaseConfig的具体使用

    Pydantic中BaseConfig的具体使用

    本文主要介绍了Pydantic中BaseConfig的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-06-06
  • 一文带你掌握Matplotlib风格与样式

    一文带你掌握Matplotlib风格与样式

    学过Python的小伙伴都会知道,Matplotlib是Python生态最好用的可视化工具库,下面这篇文章主要给大家介绍了关于Matplotlib风格与样式的相关资料,需要的朋友可以参考下
    2023-09-09
  • Python GUI编程之tkinter 关于 ttkbootstrap 的使用详解

    Python GUI编程之tkinter 关于 ttkbootstrap 的使用

    ttkbootstrap 是一个基于 tkinter 的界面美化库,使用这个工具可以开发出类似前端 bootstrap 风格的 tkinter 桌面程序,这篇文章主要介绍了Python GUI编程之tkinter 关于 ttkbootstrap 的使用详解,需要的朋友可以参考下
    2022-03-03
  • 解决PyCharm不在run输出运行结果而不是再Console里输出的问题

    解决PyCharm不在run输出运行结果而不是再Console里输出的问题

    这篇文章主要介绍了解决PyCharm不在run输出运行结果而不是再Console里输出的问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-09-09
  • Python中最大递归深度值的探讨

    Python中最大递归深度值的探讨

    今天小编就为大家分享一篇关于Python中最大递归深度值的探讨,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • 2行Python代码实现给pdf文件添加水印

    2行Python代码实现给pdf文件添加水印

    你们在给PDF文件添加水印时,还在手动一页页添加吗?本文小编为大家带来了一个更方便的方法,即用Python的2行代码来实现,感兴趣的小伙伴可以学习一下
    2022-02-02
  • Tensorflow 实现修改张量特定元素的值方法

    Tensorflow 实现修改张量特定元素的值方法

    今天小编就为大家分享一篇Tensorflow 实现修改张量特定元素的值方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07

最新评论