python 文本单词提取和词频统计的实例

 更新时间:2018年12月22日 09:13:55   作者:超级杰哥  
今天小编就为大家分享一篇python 文本单词提取和词频统计的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • pyinstaller封装exe的操作

    pyinstaller封装exe的操作

    这篇文章主要介绍了pyinstaller封装exe的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Pygame游戏开发之太空射击实战子弹与碰撞处理篇

    Pygame游戏开发之太空射击实战子弹与碰撞处理篇

    相信大多数8090后都玩过太空射击游戏,在过去游戏不多的年代太空射击自然属于经典好玩的一款了,今天我们来自己动手实现它,在编写学习中回顾过往展望未来,下面开始讲解子弹与碰撞处理,在本课中,我们将添加玩家与敌人之间的碰撞,以及添加供玩家射击的子弹
    2022-08-08
  • pip和pygal的安装实例教程

    pip和pygal的安装实例教程

    这篇文章主要介绍了pip和pygal的安装实例教程,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • python实战之90行代码写个猜数字游戏

    python实战之90行代码写个猜数字游戏

    这篇文章主要介绍了python实战之90行代码写个猜数字,文中有非常详细的代码示例,对正在学习python的小伙伴们有很大的帮助,需要的朋友可以参考下
    2021-04-04
  • Python文档生成工具pydoc使用介绍

    Python文档生成工具pydoc使用介绍

    这篇文章主要介绍了Python文档生成工具pydoc使用介绍,本文讲解了基本用法、获取帮助的方法、生成的文档效果图等内容,需要的朋友可以参考下
    2015-06-06
  • 利用Python Django实现简单博客系统

    利用Python Django实现简单博客系统

    这篇文章主要介绍了利用Python Django实现简单博客系统,文中有非常详细的代码示例,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
    2021-05-05
  • 基于Python的socket库实现通信功能的示例代码

    基于Python的socket库实现通信功能的示例代码

    本文主要给大家介绍了如何使用python的socket库实现通信功能,这里简单的给每个客户端增加一个不重复的uid,客户端之间可以根据这个uid选择进行广播通信,感兴趣的小伙伴快来看看吧
    2023-08-08
  • 微信 用脚本查看是否被微信好友删除

    微信 用脚本查看是否被微信好友删除

    这篇文章主要介绍了微信 用脚本查看是否被微信好友删除的相关资料,需要的朋友可以参考下
    2016-10-10
  • python3.6中anaconda安装sklearn踩坑实录

    python3.6中anaconda安装sklearn踩坑实录

    这篇文章主要介绍了python3.6中anaconda安装sklearn踩坑实录,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-07-07
  • Python软件包安装的三种常见方法

    Python软件包安装的三种常见方法

    python拥有非常丰富的扩展包,下面这篇文章主要给大家介绍了关于Python软件包安装的三种常见方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2022-07-07

最新评论