python统计文章中单词出现次数实例

 更新时间:2020年02月27日 15:30:11   作者:angryTom  
在本篇文章里小编给大家整理的是关于python统计文章中单词出现次数实例,需要的朋友们参考学习下。

python统计单词出现次数

做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码。

下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词。

# -*- coding:utf-8 -*-
import io
import re
 
class Counter:
  def __init__(self, path):
    """
    :param path: 文件路径
    """
    self.mapping = dict()
    with io.open(path, encoding="utf-8") as f:
      data = f.read()
      words = [s.lower() for s in re.findall("\w+", data)]
      for word in words:
        self.mapping[word] = self.mapping.get(word, 0) + 1
 
  def most_common(self, n):
    assert n > 0, "n should be large than 0"
    return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n]
 
if __name__ == '__main__':
  most_common_5 = Counter("importthis.txt").most_common(5)
  for item in most_common_5:
    print(item)

执行效果:

('is', 10)
('better', 8)
('than', 8)
('the', 6)
('to', 5)

知识点补充

1、如何正确读写文件

2、如何对数据进行排序

3、字典数据类型的运用

4、正则表达式的运用

到此这篇关于python统计文章中单词出现次数实例的文章就介绍到这了,更多相关python统计单词出现次数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django日志logging的配置和自定义添加方式

    Django日志logging的配置和自定义添加方式

    这篇文章主要介绍了Django日志logging的配置和自定义添加方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05
  • 浅谈python import引入不同路径下的模块

    浅谈python import引入不同路径下的模块

    下面小编就为大家带来一篇浅谈python import引入不同路径下的模块。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-07-07
  • 使用numpy nonzero 找出非0元素

    使用numpy nonzero 找出非0元素

    这篇文章主要介绍了使用numpy nonzero 找出非0元素的方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • 解决Django提交表单报错:CSRF token missing or incorrect的问题

    解决Django提交表单报错:CSRF token missing or incorrect的问题

    这篇文章主要介绍了解决Django提交表单报错:CSRF token missing or incorrect的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • Python pandas自定义函数的使用方法示例

    Python pandas自定义函数的使用方法示例

    这篇文章主要介绍了Python pandas自定义函数的使用方法,结合实例形式分析了pandas模块相关自定义函数数值运算操作技巧,需要的朋友可以参考下
    2019-11-11
  • Python中最强大的错误重试库(tenacity库)

    Python中最强大的错误重试库(tenacity库)

    本文要给大家介绍的tenacity库,可能是目前Python生态中最好用的错误重试库,主要介绍tenacity的主要使用方法和特性,具有一定的参考价值,感兴趣的可以了解一下
    2022-04-04
  • django数据库自动重连的方法实例

    django数据库自动重连的方法实例

    这篇文章主要给大家介绍了关于django数据库自动重连的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用django具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-07-07
  • 使用Puppeteer爬取微信文章的实现

    使用Puppeteer爬取微信文章的实现

    这篇文章主要介绍了使用Puppeteer爬取微信文章的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02
  • python列表数据增加和删除的具体实例

    python列表数据增加和删除的具体实例

    在本篇文章里小编给大家整理的是一篇关于python列表数据增加和删除的具体实例内容,有兴趣的朋友们可以学习下。
    2021-05-05
  • Python+OpenCV实现图像的全景拼接

    Python+OpenCV实现图像的全景拼接

    这篇文章主要为大家详细介绍了Python+OpenCV实现图像的全景拼接,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03

最新评论