Python 合并多个TXT文件并统计词频的实现

 更新时间:2019年08月23日 08:22:17   作者:alpha 的博客  
这篇文章主要介绍了Python 合并多个TXT文件并统计词频的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

需求是:针对三篇英文文章进行分析,计算出现次数最多的 10 个单词

逻辑很清晰简单,不算难, 使用 python 读取多个 txt 文件,将文件的内容写入新的 txt 中,然后对新 txt 文件进行词频统计,得到最终结果。

代码如下:(在Windows 10,Python 3.7.4环境下运行通过)

# coding=utf-8

import re
import os

# 获取源文件夹的路径下的所有文件
sourceFileDir = 'D:\\Python\\txt\\'
filenames = os.listdir(sourceFileDir)

# 打开当前目录下的 result.txt 文件,如果没有则创建
# 文件也可以是其他类型的格式,如 result.js
file = open('D:\\Python\\result.txt', 'w')

# 遍历文件
for filename in filenames:
 filepath = sourceFileDir+'\\'+filename
 # 遍历单个文件,读取行数,写入内容
 for line in open(filepath):
  file.writelines(line)
  file.write('\n')

# 关闭文件
file.close()


# 获取单词函数定义
def getTxt():
 txt = open('result.txt').read()
 txt = txt.lower()
 txt = txt.replace(''', '\'')
 # !"@#$%^&*()+,-./:;<=>?@[\\]_`~{|}
 for ch in '!"'@#$%^&*()+,-/:;<=>?@[\\]_`~{|}':
  txt.replace(ch, ' ')
  return txt

# 1.获取单词
hamletTxt = getTxt()

# 2.切割为列表格式,'' 兼容符号错误情况,只保留英文单词
txtArr = re.findall('[a-z\''A-Z]+', hamletTxt)

# 3.去除所有遍历统计
counts = {}
for word in txtArr:
 # 去掉一些常见无价值词
 forbinArr = ['a.', 'the', 'a', 'i']
 if word not in forbinArr:
  counts[word] = counts.get(word, 0) + 1

# 4.转换格式,方便打印,将字典转换为列表,次数按从大到小排序
countsList = list(counts.items())
countsList.sort(key=lambda x: x[1], reverse=True)

# 5. 输出结果
for i in range(10):
 word, count = countsList[i]
 print('{0:<10}{1:>5}'.format(word, count))

效果如下图:

另一种更简单的统计词频的方法:

# coding=utf-8
from collections import Counter

# words 为读取到的结果 list
words = ['a', 'b' ,'a', 'c', 'v', '4', ',', 'w', 'y', 'y', 'u', 'y', 'r', 't', 'w']
wordCounter = Counter(words)
print(wordCounter.most_common(10))

# output: [('y', 3), ('a', 2), ('w', 2), ('b', 1), ('c', 1), ('v', 1), ('4', 1), (',', 1), ('u', 1), ('r', 1)]


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python飞机大战pygame游戏框架搭建操作详解

    python飞机大战pygame游戏框架搭建操作详解

    这篇文章主要介绍了python飞机大战pygame游戏框架搭建操作,设计pygame模块游戏创建、初始化、精灵组设置等相关操作技巧,需要的朋友可以参考下
    2019-12-12
  • pytorch 数据加载性能对比分析

    pytorch 数据加载性能对比分析

    这篇文章主要介绍了pytorch 数据加载性能对比分析,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • 使用Python快速实现文件共享并通过内网穿透技术公网访问

    使用Python快速实现文件共享并通过内网穿透技术公网访问

    数据共享作为和连接作为互联网的基础应用,不仅在商业和办公场景有广泛的应用,对于个人用户也有很强的实用意义,今天,笔者就为大家介绍,如何使用python这样的简单程序语言,在自己的电脑上搭建一个共享文件服务器,需要的朋友可以参考下
    2023-10-10
  • Cpy和Python的效率对比

    Cpy和Python的效率对比

    这篇文章主要介绍了Cpy和Python的效率对比,本文用一个循环 100000000 遍的代码对比了Cpy和Python运行效率测试,需要的朋友可以参考下
    2015-03-03
  • 利用pytorch实现对CIFAR-10数据集的分类

    利用pytorch实现对CIFAR-10数据集的分类

    今天小编就为大家分享一篇利用pytorch实现对CIFAR-10数据集的分类,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python入门教程(三十七)Python中的删除文件

    Python入门教程(三十七)Python中的删除文件

    这篇文章主要介绍了Python入门教程(三十七)Python中的删除文件,在Python中,如果需要删除文件,必须导入OS模块,使用os模块的remove()方法,需要的朋友可以参考下
    2023-05-05
  • Python程序设计入门(4)模块和包

    Python程序设计入门(4)模块和包

    Python语言功能非常强大,除了类之外,还有模块和包的概念,这有点像perl,本文主要介绍了包和模块,需要的朋友可以参考下
    2014-06-06
  • python中dict()的高级用法实现

    python中dict()的高级用法实现

    这篇文章主要介绍了python中dict()的高级用法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • Pandas中的unique()和nunique()区别详解

    Pandas中的unique()和nunique()区别详解

    Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法,本文详细的介绍了两者的区别,具有一定的参考价值,感兴趣的可以了解一下
    2022-08-08
  • 解析python的局部变量和全局变量

    解析python的局部变量和全局变量

    函数内部定义的变量就叫局部变量而如果一个变量既能在一个函数中使用,也可以在其他函数中使用,这样的变量就是全局变量。 本文给大家介绍python的局部变量和全局变量的相关知识,感兴趣的朋友一起看看吧
    2019-08-08

最新评论