Python词频统计的两种方法详解

 更新时间:2021年12月06日 15:04:51   作者:Argonaut_  
这篇文章主要为大家介绍了Python词频统计,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助

统计文件里每个单词的个数

思路:

分别统计文档中的单词,与出现的次数

用两个列表将其保存起来,最后再用zip()函数连接输出**

想法成立开始实践

方法一:

# 导入文件
with open("passage.txt", 'r') as file:
    dates = file.readlines()
# 处理
words = []
for i in dates:
    words += i.replace("\n", "").split(" ")  # 用空字符来代替换行 words +是为了不被覆盖无+将只有最后一条数据
    # print(i.replace("\n","").split(" "))
setWords = list(set(words))  # 集合自动去重
num = []  # 统计一个单词出现的次数
for k in setWords:
    count = 0
    for j in words:
        if k == j:
            count = count + 1
    num.append(count)
print(num)
print(setWords)
# 输出
for x, y in zip(setWords, num):  # 将两个列表用zip结合
    print(x + ":" + str(y))、

效果图:

在这里插入图片描述

方法二:

此方法用来字典,较前一个相对简洁一点

# 导入
with open("passage.txt", 'r') as file:
    dates = file.readlines()
# 处理
words = []
for i in dates:
    words += i.replace("\n", "").split(" ")
    # print(i.replace("\n","").split(" "))
# setWords=list(set(words))  #可以不用这个
print(words)
print("-" * 40)
# print(setWords)
diccount = dict()
for i in words:
    if (i not in diccount):
        diccount[i] = 1  # 第一遍字典为空 赋值相当于 i=1,i为words里的单词
        # print(diccount)
    else:
        diccount[i] = diccount[i] + 1  # 等不在里面的全部遍历一遍赋值就都在里面了,我们再来记数
print(diccount)

效果图:

在这里插入图片描述

统计的文档

在这里插入图片描述

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!

相关文章

  • Python中sorted()函数之排序的利器详解

    Python中sorted()函数之排序的利器详解

    sorted()函数是Python中的内置函数,用于对可迭代对象进行排序,下面这篇文章主要给大家介绍了关于Python中sorted()函数之排序的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-08-08
  • 详细总结Python常见的安全问题

    详细总结Python常见的安全问题

    今天带各位学习一下Python安全问题,文中介绍的非常详细,对正在学习python的小伙伴有很好地帮助,需要的朋友可以参考下
    2021-05-05
  • 简单介绍Python中的RSS处理

    简单介绍Python中的RSS处理

    这篇文章主要介绍了简单介绍Python中的RSS处理,本文来自于IBM官方开发者技术文档,需要的朋友可以参考下
    2015-04-04
  • Pandas操作两个Excel实现数据对应行的合并

    Pandas操作两个Excel实现数据对应行的合并

    本文主要介绍了Pandas操作两个Excel实现数据对应行的合并,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • Flask后台线程中的请求上下文问题分析与解决方案

    Flask后台线程中的请求上下文问题分析与解决方案

    在Flask开发中,我们经常会遇到需要在后台线程中执行耗时操作的情况,然而,如果在后台线程中直接访问Flask的request对象,就会遇到RuntimeError: Working outside of request context错误,所以本文将通过一个实际案例,分析错误原因,并提供3种解决方案
    2025-05-05
  • python+opencv实现移动侦测(帧差法)

    python+opencv实现移动侦测(帧差法)

    这篇文章主要为大家详细介绍了python+opencv实现移动侦测,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • 基于Python实现一个简单的敏感词过滤功能

    基于Python实现一个简单的敏感词过滤功能

    这篇文章主要介绍了Python实现敏感词过滤功能的示例,文中通过示例代码介绍的非常详细,对我们学习python有定的帮助,感兴趣的小伙伴们可以参考一下
    2023-06-06
  • 一文带你探寻Python中的迭代器

    一文带你探寻Python中的迭代器

    你知道for...in是底层原理是什么样的么?这篇文章就来和大家详细讲一讲Python中迭代器的的相关知识,文中的示例代码讲解详细,感兴趣的可以了解一下
    2023-04-04
  • python小数字符串转数字的五种方法

    python小数字符串转数字的五种方法

    本文主要介绍了python小数字符串转数字的五种方法,根据具体需求选择合适的方法进行小数字符串转数字,具有一定的参考价值,感兴趣的可以了解一下
    2024-01-01
  • python如何获取当前系统的日期

    python如何获取当前系统的日期

    这篇文章主要介绍了python如何获取当前系统的日期,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05

最新评论