Python实现去除Excel重复数据并统计重复次数

 更新时间:2023年08月02日 11:07:24   作者:上景  
这篇文章主要为大家详细介绍了如何利用Python语言实现文本数据去重,创建包含唯一值的新列,并统计文本数据出现的次数,需要的可以参考下

第一部分:数据读取和统计

程序使用`pd.read_csv`函数逐块读取CSV文件,并将每块的数据类型设置为字符串。然后使用`pd.Series`创建一个空的Series对象`value_counts`,用于存储每个值的重复次数。使用`chunk.values.ravel()`获取所有文本数据,并使用`value_counts`函数统计每个值的重复次数。最后,通过`value_counts.add`函数将每块的统计结果累加到`value_counts`中。

from tqdm import tqdm
import pandas as pd
# 读取CSV文件,并指定数据类型为字符串
chunksize = 1000000  # 每次读取的块大小
value_counts = pd.Series(dtype=int)
for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219):
    # 获取所有文本数据并统计每个值的重复次数
    counts = pd.Series(chunk.values.ravel()).value_counts()
    value_counts = value_counts.add(counts, fill_value=0)

第二部分:结果处理和排序

首先,使用`value_counts.reset_index()`将`value_counts`的索引重置,并将列名改为'经营范围'和'重复次数'。然后,使用`value_counts.sort_values`按重复次数从高到低对数据进行排序。

# 重置索引并按重复次数从高到低排序
value_counts = value_counts.reset_index()
value_counts.columns = ['城市', '重复次数']
value_counts = value_counts.sort_values(by='重复次数', ascending=False)

第三部分:结果保存和进度条显示

程序使用`tqdm(total=len(value_counts), desc='Processing')`创建了一个进度条对象`pbar`,并设置进度条的总长度为`value_counts`的长度。接着,使用`value_counts.to_csv`将排序后的结果保存到新的CSV文件中,并设置`index=False`以避免保存索引列。然后,使用`pbar.update()`更新进度条,表示处理完成。

最后,关闭进度条并输出一条完成消息。

# 创建进度条
pbar = tqdm(total=len(value_counts), desc='Processing')
# 保存结果到新的CSV文件
value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False)
# 更新进度条
pbar.update()
# 关闭进度条
pbar.close()
# 输出消息
print("已经去重完成,丫头!")

完整代码

from tqdm import tqdm
import pandas as pd
# 读取CSV文件,并指定数据类型为字符串
chunksize = 1000000  # 每次读取的块大小
value_counts = pd.Series(dtype=int)
for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219):
    # 获取所有文本数据并统计每个值的重复次数
    counts = pd.Series(chunk.values.ravel()).value_counts()
    value_counts = value_counts.add(counts, fill_value=0)
# 重置索引并按重复次数从高到低排序
value_counts = value_counts.reset_index()
value_counts.columns = ['城市', '重复次数']
value_counts = value_counts.sort_values(by='重复次数', ascending=False)
# 创建进度条
pbar = tqdm(total=len(value_counts), desc='Processing')
# 保存结果到新的CSV文件
value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False)
# 更新进度条
pbar.update()
# 关闭进度条
pbar.close()
# 输出消息
print("已经去重完成,丫头!")

总体而言,该程序的目标是读取一个较大的CSV文件,统计其中每个值的重复次数,并将结果按重复次数从高到低进行排序和保存。同时,使用进度条显示处理的进度,以提供可视化的反馈。

到此这篇关于Python实现去除Excel重复数据并统计重复次数的文章就介绍到这了,更多相关Python去除Excel重复数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 9种python web 程序的部署方式小结

    9种python web 程序的部署方式小结

    python有很多web 开发框架,代码写完了,部署上线是个大事,通常来说,web应用一般是三层结构web server ---->application -----> DB server
    2014-06-06
  • Python PSO算法处理TSP问题详解

    Python PSO算法处理TSP问题详解

    这篇文章主要介绍了Python PSO算法处理TSP问题,PSO粒子群算法是一种基于鸟类觅食开发出来的优化算法,它是从随机解出发,通过迭代寻找最优解,通过适应度来评价解的品质
    2022-11-11
  • 深入了解Django中间件及其方法

    深入了解Django中间件及其方法

    这篇文章主要介绍了简单了解Django中间件及其方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 解决Python中由于logging模块误用导致的内存泄露

    解决Python中由于logging模块误用导致的内存泄露

    这篇文章主要介绍了解决Python中由于logging模块误用导致的内存泄露,针对由于过多的UDP连接所产生的问题,需要的朋友可以参考下
    2015-04-04
  • 在python中将list分段并保存为array类型的方法

    在python中将list分段并保存为array类型的方法

    今天小编就为大家分享一篇在python中将list分段并保存为array类型的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python 25行代码实现的RSA算法详解

    Python 25行代码实现的RSA算法详解

    这篇文章主要介绍了Python 25行代码实现的RSA算法,结合实例形式详细分析了rsa加密算法的概念、原理、相关实现技巧与注意事项,需要的朋友可以参考下
    2018-04-04
  • Python数据分析库pandas高级接口dt的使用详解

    Python数据分析库pandas高级接口dt的使用详解

    这篇文章主要介绍了Python数据分析库pandas高级接口dt的使用详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-12-12
  • 利用python打印出菱形、三角形以及矩形的方法实例

    利用python打印出菱形、三角形以及矩形的方法实例

    最近在开发中遇到一个问题,需要利用python实现菱形、三角形以及矩形等形状,发现网上这方面的资料较少,所以总结分享下,这篇文章主要给大家介绍了关于利用python打印出菱形、三角形以及矩形的相关资料,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-08-08
  • python中的转义字符串问题

    python中的转义字符串问题

    这篇文章主要介绍了python中的转义字符串问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-07-07
  • python中注释用法简单示例

    python中注释用法简单示例

    注释即对程序代码的解释,在写程序时需适当使用注释,以方便自己和他人理解程序各部分的作用,下面这篇文章主要给大家介绍了关于python中注释用法的相关资料,需要的朋友可以参考下
    2023-02-02

最新评论