Python实现删除重复文件的示例代码

 更新时间:2023年02月14日 16:16:25   作者:一青一柠  
这篇文章主要为大家详细介绍了如何利用Python实现删除重复文件功能,文中的示例代码讲解详细,对我们学习Python有一定的帮助,感兴趣的小伙伴的可以了解一下

此程序主要是针对某个目录下的全部文件进行筛选,会删除重复的文件。

原理很简单,会计算每个文件的哈希,将哈希存入一个字典,文件名对应哈希。

import os
import hashlib

def hash_file(filename):
    """Return the SHA-1 hash
    of the file content."""
    h = hashlib.sha1()
    with open(filename, 'rb') as f:
        while True:
            chunk = f.read(4096)
            if not chunk:
                break
            h.update(chunk)
    return h.hexdigest()

def remove_duplicate_files(path):
    """Remove duplicates files in the directory."""
    files_hash = {}
    i=0
    j=0
    sum=len(os.listdir(path))
    for dirpath, dirnames, filenames in os.walk(path):
        for filename in filenames:
            j=j+1
            print("执行进度为:",100*j/sum,"%")
            file_path = os.path.join(dirpath, filename)
            file_hash = hash_file(file_path)
            if file_hash in files_hash:
                os.remove(file_path)
                i=i+1
                # print(i)
            else:
                files_hash[file_hash] = file_path
    print("文件总数为:",sum)
    print("此处处理的重复文件数目为:",i)

在使用的时候直接调用下面那个函数即可,传入参数为目录路径。

例如下面这样:

remove_duplicate_files("Y:\图片合集")

当然,你也可以将程序打包为一个exe文件,甚至为它添加简单的页面,让非计算机专业的人也能轻易使用。

补充

当然除了上文的方法,还有很多方法可以实现,下面是小编为大家整理的内容,希望对大家有所帮助

Python删除文件夹内指定的重复文件

import os
import re


class file_clean:
    def __init__(self, folder, filerege):
        self.folder = folder
        self.filerege = filerege
        self.folder_generator = os.walk(self.folder)

    # 删除所有文件夹及子文件夹下指定文件
    def del_all_file(self):
        for folder, subfolder, file_list in self.folder_generator:
            for file in file_list:
                if self.filerege == '*':
                    del_all_file = os.path.join(folder, file)
                    os.remove(del_all_file)
                elif re.findall(self.filerege, file):
                    del_all_file = os.path.join(folder, file)
                    print(del_all_file)
                    os.remove(del_all_file)

    # 只删除所有文件夹下的指定文件
    def del_file(self):
        for folder, subfolder, file_list in self.folder_generator:
            if os.path.dirname(folder) == os.path.dirname(self.folder):
                for file in file_list:
                    if self.filerege == '*':
                        del_file = os.path.join(folder, file)
                        os.remove(del_file)
                    elif re.findall(self.filerege, file):
                        del_file = os.path.join(folder, file)
                        print(del_file)
                        os.remove(del_file)


if __name__ == '__main__':
    # 选择文件夹路径 D盘C盘目录需要使用双斜杠r'D:\\', '\.wedrive'
    go = file_clean(r'D:\eong', '\.WeDrive')
    # 选择要执行的函数类型del_all_file删除件夹及子文件夹下指定文件,del_file只删除当前选择文件夹的指定文件
    go.del_file()

python删除本地夹里重复文件的方法

import os 
import hashlib 
import logging 
import sys 
 
def logger(): 
 """ 获取logger""" 
 logger = logging.getLogger() 
 if not logger.handlers: 
 # 指定logger输出格式 
 formatter = logging.Formatter('%(asctime)s %(levelname)-8s: %(message)s') 
 # 文件日志 
 file_handler = logging.FileHandler("test.log") 
 file_handler.setFormatter(formatter) # 可以通过setFormatter指定输出格式 
 # 控制台日志 
 console_handler = logging.StreamHandler(sys.stdout) 
 console_handler.formatter = formatter # 也可以直接给formatter赋值 
 # 为logger添加的日志处理器 
 logger.addHandler(file_handler) 
 logger.addHandler(console_handler) 
 # 指定日志的最低输出级别,默认为WARN级别 
 logger.setLevel(logging.INFO) 
 return logger 
 
def get_md5(filename): 
 m = hashlib.md5() 
 mfile = open(filename, "rb") 
 m.update(mfile.read()) 
 mfile.close() 
 md5_value = m.hexdigest() 
 return md5_value 
 
def get_urllist(): 
 #替换指定的文件夹路径即可 
 base = ("F:\\pythonFile\\煎蛋网\\无聊图\\jpg\\") 
 list = os.listdir(base) 
 urlList=[] 
 for i in list: 
 url = base + i 
 urlList.append(url) 
 return urlList 
 
if __name__ == '__main__': 
 log = logger() 
 md5List =[] 
 urlList =get_urllist() 
 for a in urlList: 
 md5 =get_md5(a) 
 if (md5 in md5List): 
  os.remove(a) 
  print("重复:%s"%a) 
  log.info("重复:%s"%a) 
 else: 
  md5List.append(md5) 
  # print(md5List) 
  print("一共%s张照片"%len(md5List)) 

到此这篇关于Python实现删除重复文件的示例代码的文章就介绍到这了,更多相关Python删除重复文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 使用python 将图片复制到系统剪贴中

    使用python 将图片复制到系统剪贴中

    今天小编就为大家分享一篇使用python 将图片复制到系统剪贴中,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python 申请内存空间,用于创建多维数组的实例

    python 申请内存空间,用于创建多维数组的实例

    今天小编就为大家分享一篇python 申请内存空间,用于创建多维数组的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python爬取肯德基官网ajax的post请求实现过程

    Python爬取肯德基官网ajax的post请求实现过程

    这篇文章主要介绍了Python爬取肯德基官网ajax的post请求实现过程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家学有所得,多多进步
    2021-10-10
  • python列表生成器迭代器实例解析

    python列表生成器迭代器实例解析

    这篇文章主要介绍了python列表生成器迭代器实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • python实现简单猜单词游戏

    python实现简单猜单词游戏

    这篇文章主要为大家详细介绍了python实现简单猜单词游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-12-12
  • 使用python搭建代理IP池实现接口设置与整体调度

    使用python搭建代理IP池实现接口设置与整体调度

    在网络爬虫中,代理IP池是一个非常重要的组件,由于许多网站对单个IP的请求有限制,因此,我们需要一个代理IP池,在本文中,我们将使用Python来构建一个代理IP池,然后,我们将使用这个代理IP池来访问我们需要的数据,文中有相关的代码示例供大家参考,需要的朋友可以参考下
    2023-12-12
  • 深入浅析Python中list的复制及深拷贝与浅拷贝

    深入浅析Python中list的复制及深拷贝与浅拷贝

    这篇文章主要介绍了Python中list的复制及深拷贝与浅拷贝及区别解析 ,需要的朋友可以参考下
    2018-09-09
  • 如何实现Django Rest framework版本控制

    如何实现Django Rest framework版本控制

    这篇文章主要介绍了如何实现Django Rest framework版本控制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 解决遇到PermissionError:[Errno 13] Permission denied:XXXX错误的问题

    解决遇到PermissionError:[Errno 13] Permission den

    遇到"PermissionError:[Errno 13] Permission denied"通常是权限不足导致,解决此问题的方法包括检查并更改文件权限,使用管理员权限运行命令,或接触文件所有者,这些步骤有助于确保用户具有执行操作所需的权限,有时,文件或目录可能被锁定
    2024-09-09
  • Django 构建模板form表单的两种方法

    Django 构建模板form表单的两种方法

    这篇文章主要介绍了Django 构建模板form表单的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-06-06

最新评论