python查找指定具有相同内容文件的方法

 更新时间:2015年06月28日 12:34:11   作者:秋风秋雨  
这篇文章主要介绍了python查找指定具有相同内容文件的方法,涉及Python针对文件操作的相关技巧,需要的朋友可以参考下

本文实例讲述了python查找指定具有相同内容文件的方法。分享给大家供大家参考。具体如下:

python代码用于查找指定具有相同内容的文件,可以同时指定多个目录
调用方式:python doublesdetector.py c:\;d:\;e:\ > doubles.txt

# Hello, this script is written in Python - http://www.python.org
# doublesdetector.py 1.0p
import os, os.path, string, sys, sha
message = """
doublesdetector.py 1.0p
This script will search for files that are identical
(whatever their name/date/time).
 Syntax : python %s <directories>
   where <directories> is a directory or a list of directories
   separated by a semicolon (;)
Examples : python %s c:\windows
      python %s c:\;d:\;e:\ > doubles.txt
      python %s c:\program files > doubles.txt
This script is public domain. Feel free to reuse and tweak it.
The author of this script Sebastien SAUVAGE <sebsauvage at sebsauvage dot net>
http://sebsauvage.net/python/
""" % ((sys.argv[0], )*4)
def fileSHA ( filepath ) :
  """ Compute SHA (Secure Hash Algorythm) of a file.
    Input : filepath : full path and name of file (eg. 'c:\windows\emm386.exe')
    Output : string : contains the hexadecimal representation of the SHA of the file.
             returns '0' if file could not be read (file not found, no read rights...)
  """
  try:
    file = open(filepath,'rb')
    digest = sha.new()
    data = file.read(65536)
    while len(data) != 0:
      digest.update(data)
      data = file.read(65536)
    file.close()
  except:
    return '0'
  else:
    return digest.hexdigest()
def detectDoubles( directories ):
  fileslist = {}
  # Group all files by size (in the fileslist dictionnary)
  for directory in directories.split(';'):
    directory = os.path.abspath(directory)
    sys.stderr.write('Scanning directory '+directory+'...')
    os.path.walk(directory,callback,fileslist)
    sys.stderr.write('\n')
  sys.stderr.write('Comparing files...')
  # Remove keys (filesize) in the dictionnary which have only 1 file
  for (filesize,listoffiles) in fileslist.items():
    if len(listoffiles) == 1:
      del fileslist[filesize]
  # Now compute SHA of files that have the same size,
  # and group files by SHA (in the filessha dictionnary)
  filessha = {}
  while len(fileslist)>0:
    (filesize,listoffiles) = fileslist.popitem()
    for filepath in listoffiles:
      sys.stderr.write('.')
      sha = fileSHA(filepath)
      if filessha.has_key(sha):
        filessha[sha].append(filepath)
      else:
        filessha[sha] = [filepath]
  if filessha.has_key('0'):
    del filessha['0']
  # Remove keys (sha) in the dictionnary which have only 1 file
  for (sha,listoffiles) in filessha.items():
    if len(listoffiles) == 1:
      del filessha[sha]
  sys.stderr.write('\n')
  return filessha
def callback(fileslist,directory,files):
  sys.stderr.write('.')
  for fileName in files:
    filepath = os.path.join(directory,fileName)
    if os.path.isfile(filepath):
      filesize = os.stat(filepath)[6]
      if fileslist.has_key(filesize):
        fileslist[filesize].append(filepath)
      else:
        fileslist[filesize] = [filepath]
if len(sys.argv)>1 :
  doubles = detectDoubles(" ".join(sys.argv[1:]))
  print 'The following files are identical:'
  print '\n'.join(["----\n%s" % '\n'.join(doubles[filesha]) for filesha in doubles.keys()])
  print '----'
else:
  print message

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • python实现批量修改文件名代码

    python实现批量修改文件名代码

    本文给大家分享的是一段仅仅10行代码就实现了批量修改文件名的python脚本,推荐给大家,有需要的小伙伴可以参考下
    2017-09-09
  • Python使用Turtle库绘制一棵西兰花

    Python使用Turtle库绘制一棵西兰花

    今天小编就为大家分享一篇Python使用Turtle库绘制一棵西兰花,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • Windows直接运行python程序的两种方法

    Windows直接运行python程序的两种方法

    本文主要介绍了Windows直接运行python程序,包括新建bat脚本和新建vbs脚本,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
    2024-03-03
  • 解决Pytorch 训练与测试时爆显存(out of memory)的问题

    解决Pytorch 训练与测试时爆显存(out of memory)的问题

    今天小编就为大家分享一篇解决Pytorch 训练与测试时爆显存(out of memory)的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • 将labelme格式数据转化为标准的coco数据集格式方式

    将labelme格式数据转化为标准的coco数据集格式方式

    今天小编就为大家分享一篇将labelme格式数据转化为标准的coco数据集格式方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • python实现视频分帧效果

    python实现视频分帧效果

    这篇文章主要为大家详细介绍了python实现视频分帧效果,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-05-05
  • Pandas_cum累积计算和rolling滚动计算的用法详解

    Pandas_cum累积计算和rolling滚动计算的用法详解

    今天小编就为大家分享一篇Pandas_cum累积计算和rolling滚动计算的用法详解,具有好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Django中log日志记录的最佳实践

    Django中log日志记录的最佳实践

    Django中的log日志记录是一个非常重要的功能,可以帮助开发者快速定位和解决问题。本文将介绍Django中log日志记录的基本概念和使用方法,并提供一些最佳实践,帮助开发者更好地利用log日志记录功能。
    2023-04-04
  • PyTorch使用CNN实现图像分类

    PyTorch使用CNN实现图像分类

    图像分类是计算机视觉领域的一项基本任务,也是深度学习技术的一个常见应用,近年来,卷积神经网络(cnn)和PyTorch库的结合由于其易用性和鲁棒性已经成为执行图像分类的流行选择,所以本文给大家介绍了PyTorch使用CNN实现图像分类的示例,需要的朋友可以参考下
    2025-03-03
  • Python数据结构与算法中的栈详解(1)

    Python数据结构与算法中的栈详解(1)

    这篇文章主要为大家详细介绍了Python中的栈,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-03-03

最新评论