python 文本单词提取和词频统计的实例

 更新时间:2018年12月22日 09:13:55   作者:超级杰哥  
今天小编就为大家分享一篇python 文本单词提取和词频统计的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 用Python编写个解释器实现方法接受

    用Python编写个解释器实现方法接受

    计算机只能理解机器码。归根结底,编程语言只是一串文字,目的是为了让人类更容易编写他们想让计算机做的事情。真正的魔法是由编译器和解释器完成,它们弥合了两者之间的差距。解释器逐行读取代码并将其转换为机器码
    2023-01-01
  • Python中list列表的一些进阶使用方法介绍

    Python中list列表的一些进阶使用方法介绍

    这篇文章主要介绍了Python中list列表的一些进阶使用方法介绍,是Python入门学习中的基础知识,需要的朋友可以参考下
    2015-08-08
  • Python super()函数使用及多重继承

    Python super()函数使用及多重继承

    这篇文章主要介绍了Python super()函数使用及多重继承,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • python3操作注册表的方法(Url protocol)

    python3操作注册表的方法(Url protocol)

    使用python操作注册表的方法最近学习了一下,现在做一下笔记,由于对Python语言的使用还不是很熟练,所以写不出高大上的结构
    2020-02-02
  • 使用pytorch搭建AlexNet操作(微调预训练模型及手动搭建)

    使用pytorch搭建AlexNet操作(微调预训练模型及手动搭建)

    今天小编就为大家分享一篇使用pytorch搭建AlexNet操作(微调预训练模型及手动搭建),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python程序的打包分发示例详解

    python程序的打包分发示例详解

    这篇文章主要为大家介绍了python程序的打包分发示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • python tkinter实现学生信息管理系统

    python tkinter实现学生信息管理系统

    这篇文章主要为大家详细介绍了python tkinter实现学生信息管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • 教你怎么用python删除相似度高的图片

    教你怎么用python删除相似度高的图片

    这篇文章主要介绍了教你怎么用python删除相似度高的图片,文中有非常详细的代码示例,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
    2021-05-05
  • 解决Python 出现File “<stdin>“, line 1非语法错误的问题

    解决Python 出现File “<stdin>“, line 1非语法错误的问题

    这篇文章主要介绍了Python 出现File “<stdin>“, line 1非语法错误的解决办法,本文给大家讲解的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • 使用Python爬虫框架获取HTML网页中指定区域的数据

    使用Python爬虫框架获取HTML网页中指定区域的数据

    在当今互联网时代,数据已经成为了一种宝贵的资源,无论是进行市场分析、舆情监控,还是进行学术研究,获取网页中的数据都是一个非常重要的步骤,Python提供了多种爬虫框架来帮助我们高效地获取网页数据,本文将详细介绍如何使用Python爬虫框架来获取HTML网页中指定区域的数据
    2025-03-03

最新评论