Python 合并多个TXT文件并统计词频的实现

 更新时间:2019年08月23日 08:22:17   作者:alpha 的博客  
这篇文章主要介绍了Python 合并多个TXT文件并统计词频的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

需求是:针对三篇英文文章进行分析,计算出现次数最多的 10 个单词

逻辑很清晰简单,不算难, 使用 python 读取多个 txt 文件,将文件的内容写入新的 txt 中,然后对新 txt 文件进行词频统计,得到最终结果。

代码如下:(在Windows 10,Python 3.7.4环境下运行通过)

# coding=utf-8

import re
import os

# 获取源文件夹的路径下的所有文件
sourceFileDir = 'D:\\Python\\txt\\'
filenames = os.listdir(sourceFileDir)

# 打开当前目录下的 result.txt 文件,如果没有则创建
# 文件也可以是其他类型的格式,如 result.js
file = open('D:\\Python\\result.txt', 'w')

# 遍历文件
for filename in filenames:
 filepath = sourceFileDir+'\\'+filename
 # 遍历单个文件,读取行数,写入内容
 for line in open(filepath):
  file.writelines(line)
  file.write('\n')

# 关闭文件
file.close()


# 获取单词函数定义
def getTxt():
 txt = open('result.txt').read()
 txt = txt.lower()
 txt = txt.replace(''', '\'')
 # !"@#$%^&*()+,-./:;<=>?@[\\]_`~{|}
 for ch in '!"'@#$%^&*()+,-/:;<=>?@[\\]_`~{|}':
  txt.replace(ch, ' ')
  return txt

# 1.获取单词
hamletTxt = getTxt()

# 2.切割为列表格式,'' 兼容符号错误情况,只保留英文单词
txtArr = re.findall('[a-z\''A-Z]+', hamletTxt)

# 3.去除所有遍历统计
counts = {}
for word in txtArr:
 # 去掉一些常见无价值词
 forbinArr = ['a.', 'the', 'a', 'i']
 if word not in forbinArr:
  counts[word] = counts.get(word, 0) + 1

# 4.转换格式,方便打印,将字典转换为列表,次数按从大到小排序
countsList = list(counts.items())
countsList.sort(key=lambda x: x[1], reverse=True)

# 5. 输出结果
for i in range(10):
 word, count = countsList[i]
 print('{0:<10}{1:>5}'.format(word, count))

效果如下图:

另一种更简单的统计词频的方法:

# coding=utf-8
from collections import Counter

# words 为读取到的结果 list
words = ['a', 'b' ,'a', 'c', 'v', '4', ',', 'w', 'y', 'y', 'u', 'y', 'r', 't', 'w']
wordCounter = Counter(words)
print(wordCounter.most_common(10))

# output: [('y', 3), ('a', 2), ('w', 2), ('b', 1), ('c', 1), ('v', 1), ('4', 1), (',', 1), ('u', 1), ('r', 1)]


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python中将一个全部为int的list 转化为str的list方法

    python中将一个全部为int的list 转化为str的list方法

    下面小编就为大家分享一篇python中将一个全部为int的list 转化为str的list方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Python中的Joblib库使用学习总结

    Python中的Joblib库使用学习总结

    这篇文章主要介绍了Python中的Joblib库使用学习总结,Joblib是一组在Python中提供轻量级流水线的工具,Joblib已被优化得很快速,很健壮了,特别是在大数据上,并对numpy数组进行了特定的优化,需要的朋友可以参考下
    2023-08-08
  • python3.5的包存放的具体路径

    python3.5的包存放的具体路径

    在本篇内容里小编给大家分享了一篇关于python3.5的包存放的具体路径相关内容,有需要的朋友们可以参考下。
    2020-08-08
  • 浅谈Selenium+Webdriver 常用的元素定位方式

    浅谈Selenium+Webdriver 常用的元素定位方式

    这篇文章主要介绍了浅谈Selenium+Webdriver 常用的元素定位方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 详解Python的字符串格式化

    详解Python的字符串格式化

    这篇文章主要介绍了Python的字符串格式化,python的format函数怎么用,这篇文章向大家介绍format函数用法,需要的朋友可以参考下
    2023-04-04
  • python正则表达式查找和替换内容的实例详解

    python正则表达式查找和替换内容的实例详解

    在本篇文章里小编给大家整理的是一篇关于python正则表达式查找和替换内容的实例详解内容,有兴趣的朋友们可以跟着学习参考下。
    2021-10-10
  • 关于Python卷积函数详解

    关于Python卷积函数详解

    这篇文章主要介绍了Python关于卷积的理解,文中有详细的代码示例,具有很好的参考价值,希望对大家有所帮助
    2023-04-04
  • Pandas数据分析之pandas数据透视表和交叉表

    Pandas数据分析之pandas数据透视表和交叉表

    这篇文章主要介绍了Pandas数据分析之pandas数据透视表和交叉表,pandas对数据框也可以像excel一样进行数据透视表整合之类的操作。主要是针对分类数据进行操作,还可以计算数值型数据,去满足复杂的分类数据整理的逻辑
    2022-08-08
  • Flask入门教程实例:搭建一个静态博客

    Flask入门教程实例:搭建一个静态博客

    这篇文章主要介绍了Flask入门教程实例:搭建一个静态博客,本文主要介绍flask框架的环境配置以及一个静态博客胡搭建实例,需要的朋友可以参考下
    2015-03-03
  • python的scipy实现插值的示例代码

    python的scipy实现插值的示例代码

    这篇文章主要介绍了python的scipy实现插值的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11

最新评论