python实现自动清理重复文件

 更新时间:2020年08月24日 14:24:54   作者:刘早起  
这篇文章主要介绍了python如何实现自动清理重复文件,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下

前言

大家好,又到了Python办公自动化系列。

今天分享一个系统层面的自动化案例:

「给定一个文件夹,使用Python检查给定文件夹下有无文件重复,若存在重复则删除」

主要涉及的知识点有:

  • os模块综合应用
  • glob模块综合应用
  • 利用filecmp模块比较两个文件

步骤分析

该程序实现的逻辑可以具化为:

遍历获取给定文件夹下的所有文件,然后通过嵌套循环两两比较文件是否相同,如果相同则删除后者。

实现问题的关键就变成了?

如何判断两个文件是否相同?

在这里我们可以使用filecmp模块,来看看官方的介绍文档:

  • filecmp.cmp(f1, f2, shallow=True)
  • 比较名为f1和f2的文件,如果它们似乎相等则返回True,否则返回False
  • 如果shallow为真,那么具有相同os.stat()签名的文件将会被认为是相等的。否则,将比较文件的内容。

所以可以这样使用?

# 假设x和y两个文件是相同的
print(filecmp.cmp(x, y))
# True

解决了这个问题,我们就可以开始写代码了!

Python实现

导入需要的库并设置目标文件夹路径

import os
import glob
import filecmp

dir_path = r'C:\\xxxx'

接着遍历获取所有文件的绝对路径,我们可以利用glob模块的通配符结合recursive参数即可完成,框架如下:

for file in glob.glob(path + '/**/*', recursive=True):
  pass

由于遍历获取每一个文件或者文件夹后,需要判断是否是文件,如果是文件则可能将绝对路径存放到列表中,这里需要再完成两个事情:

  1. 首先创建一个空列表,后面用list.append(i)添加文件路径
  2. 接着利用os.path.isfile(i)判断是否是文件,返回True则执行添加元素的操作

具体代码如下

file_lst = []

for i in glob.glob(dir_path + '/**/*', recursive=True):
  if os.path.isfile(i):
    file_lst.append(i)

上一步我们获取了目标文件夹下的所有文件路径,接下来就可以嵌套遍历这个路径列表,其中filecmp.cmp进行文件判断,os.remove进行文件删除

for x in file_lst:
  for y in file_lst:
    if x != y:
      if filecmp.cmp(x, y):
        os.remove(y)

这里的代码已经实现了大致逻辑,但有一个细节需要考虑到:有可能循环到文件已经被前面的判断删除了,导致os.remove(file)由于文件不存在而报错

因此,可以用os.path.exists对文件存在进行判断,如下所示:

for x in file_lst:
  for y in file_lst:
    if x != y and os.path.exists(x) and os.path.exists(y):
      if filecmp.cmp(x, y):
        os.remove(y)

这样,一个简易的文件去重小程序就完成了,完整代码如下:

import os
import glob
import filecmp

dir_path = r'C:\xxxx'

file_lst = []

for i in glob.glob(dir_path + '/**/*', recursive=True):
  if os.path.isfile(i):
    file_lst.append(i)

for x in file_lst:
  for y in file_lst:
    if x != y and os.path.exists(x) and os.path.exists(y):
      if filecmp.cmp(x, y):
        os.remove(y)

写在最后

通过本文的Python自动化脚本制作过程,我们可以再次体会Python办公自动化的强大,同时本次实现的功能可以和之前自动整理文件的脚本结合使用!

以上就是python实现自动清理重复文件的详细内容,更多关于python清理重复文件的资料请关注脚本之家其它相关文章!

相关文章

  • Tensorflow之梯度裁剪的实现示例

    Tensorflow之梯度裁剪的实现示例

    这篇文章主要介绍了Tensorflow之梯度裁剪的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • 关于python xlwings模块用法详解

    关于python xlwings模块用法详解

    xlwings是一个用于在Excel和Python之间进行交互的库,它允许您使用Python操作Excel文件,包括读取和写入数据,运行宏,设置格式等等,我们可以使用xlwings来处理Excel文件中的数据,执行各种操作,所以本文小编就给大家python xlwings模块用法
    2023-09-09
  • python使用fcntl模块实现程序加锁功能示例

    python使用fcntl模块实现程序加锁功能示例

    这篇文章主要介绍了python使用fcntl模块实现程序加锁功能,较为详细的分析了fcntl模块的具体功能并结合实例形式给出了Python实现程序加锁的操作技巧,需要的朋友可以参考下
    2017-06-06
  • 详解python学习笔记之解释器

    详解python学习笔记之解释器

    这篇文章主要为大家详细介绍了python学习笔记之解释器,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-03-03
  • 在Django中管理Users和Permissions以及Groups的方法

    在Django中管理Users和Permissions以及Groups的方法

    这篇文章主要介绍了在Django中管理Users和Permissions以及Groups的方法,Django是最具人气的Python web开发框架,需要的朋友可以参考下
    2015-07-07
  • 详解使用pymysql在python中对mysql的增删改查操作(综合)

    详解使用pymysql在python中对mysql的增删改查操作(综合)

    本篇文章主要介绍了使用pymysql在python中对mysql的增删改查操作,通过pymysql向数据库进行查删增改,具有一定的参考价值,有兴趣的可以了解一下。
    2017-01-01
  • 写好Python代码的几条重要技巧

    写好Python代码的几条重要技巧

    好的代码具有易理解、可扩展、易维护的特点,简直是人见人爱。本文就将介绍写好python代码的多个技巧
    2021-05-05
  • Python3.5局部变量与全局变量作用域实例分析

    Python3.5局部变量与全局变量作用域实例分析

    这篇文章主要介绍了Python3.5局部变量与全局变量作用域,结合实例形式分析了Python3.5局部变量与全局变量的定义、作用域及相关操作注意事项,需要的朋友可以参考下
    2019-04-04
  • python里面单双下划线的区别详解

    python里面单双下划线的区别详解

    本文主要介绍了python里面单双下划线的区别详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-04-04
  • Python利用capstone实现反汇编

    Python利用capstone实现反汇编

    Capstone是一个轻量级的多平台、多架构的反汇编框架,该模块支持目前所有通用操作系统,反汇编架构几乎全部支持。本文就将利用他实现反汇编,感兴趣的可以了解下
    2022-04-04

最新评论