8行代码实现Python文件去重

 更新时间:2021年08月10日 10:15:13   作者:Dream丶Killer  
本文主要介绍了Python文件去重,所以就想使用Python自动化解决,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

需求描述

上周突然接到一个任务,要通过XX网站导出XX年-XX年之间的数据,导出后的文件名就是对应日期,导出后发现,竟然有的文件大小是一样,但文件名又没有重复,所以打开文件看了下,确实重复了,原因暂时不清楚,预测是网站的原因,最后发现大概只有 30% 的数据没有重复。我淦!

在这里插入图片描述

啥也不说,首要任务还是把那些没有重复的文件给筛选出来,或是删除重复的文件。文件很多几百个,通过一个个的对比文件去删除估计又要加班,然后突然想到 Python 有个内置的 filecmp 能够貌似是比较文件的,于是乎就有了这篇文章~

在这里插入图片描述

撸代码ing

导出的文件都是保存在同一文件夹下的,格式也相同。然后,上网查了下 filecmp.cmp() 的用法。

filecmp.cmp(f1, f2, shallow=True)

f1/f2:待比较的两个文件路径。shallow :默认为True,即只比较os.stat()获取的元数据(创建时间,大小等信息)是否相同,设置为False的话,在对比文件的时候还要比较文件内容。
from pathlib import Path
import filecmp

path_list = [path for path in Path(r'C:\Users\pc\Desktop\test').iterdir() if path.is_file()]

for front in range(len(path_list) - 1):
    for later in range(front + 1, len(path_list)):
        if filecmp.cmp(path_list[front], path_list[later], shallow=False):
            path_list[front].unlink()    # 删除文件
            break

为了防止代码有问题,我先创建了一个 test 文件夹,在文件夹下手动创建了6个文件,1~5中只有1,2,3,4,5对应的数字内容,第6个为空文件。

在这里插入图片描述

之后再将文件全部复制一份。

在这里插入图片描述

▶️运行效果

请添加图片描述

到此这篇关于8行代码实现Python文件去重的文章就介绍到这了,更多相关Python文件去重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python中怎么表示空值

    python中怎么表示空值

    在本篇内容里小编给大家整理了关于python如何表示空值的知识点内容,有兴趣的朋友们可以跟着学习参考下。
    2020-06-06
  • pyqt 实现为长内容添加滑轮 scrollArea

    pyqt 实现为长内容添加滑轮 scrollArea

    今天小编就为大家分享一篇pyqt 实现为长内容添加滑轮 scrollArea,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python模块zipfile原理及使用方法详解

    Python模块zipfile原理及使用方法详解

    这篇文章主要介绍了Python模块zipfile原理及使用方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • 基于Tensorflow搭建一个神经网络的实现

    基于Tensorflow搭建一个神经网络的实现

    神经网络可能会让人感到恐惧,特别是对于新手机器学习的人来说。这篇文章主要介绍了基于Tensorflow搭建一个神经网络的实现,从入门开始,感兴趣的可以了解一下
    2021-05-05
  • Python基础请求库urllib模块使用深入探究

    Python基础请求库urllib模块使用深入探究

    在Python中,urllib库是一个强大的模块,用于处理URLs,它包含了多个子模块,其中urllib.request是用于发出HTTP请求的核心组件,本文将深入探讨urllib的基本使用、高级功能以及一些实际场景的示例,方便更全面地了解这个重要的网络请求工具
    2024-01-01
  • Python中numpy.pad()函数的使用详解

    Python中numpy.pad()函数的使用详解

    这篇文章主要介绍了Python中numpy.pad()函数的使用详解,在卷积神经网络中,为了避免卷积运算导致输出图像缩小和图像边缘信息丢失,常常采用图像边缘填充技术,即在图像四周边缘填充0,使得卷积运算后图像大小不会缩小,同时也不会丢失边缘和角落的信息,需要的朋友可以参考下
    2023-10-10
  • pandas中Series和DataFrame的rank方法解析

    pandas中Series和DataFrame的rank方法解析

    pandas中的rank方法是用于数据排名的重要工具,它不返回排序后的数据,而是数据的排名。rank方法可以处理相同数据的排名,通过平均排名方式解决排名冲突,并支持自定义排序规则及逆序排名。此外,DataFrame的rank方法允许在行或列上计算排名
    2024-09-09
  • 快速进修Python指南之简易跳表

    快速进修Python指南之简易跳表

    这篇文章主要为大家介绍了Java开发者快速进修Python指南之简易跳表示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12
  • python元组拆包实现方法

    python元组拆包实现方法

    在本篇文章里小编给大家整理的是一篇关于python元组拆包实现方法及相关实例,有兴趣的朋友们可以学习下。
    2021-02-02
  • python默认参数调用方法解析

    python默认参数调用方法解析

    这篇文章主要介绍了python默认参数调用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02

最新评论