Python通过计算图片MD5值实现图片去重

 更新时间:2026年05月22日 08:14:24   作者:detayun  
这篇文章主要为大家详细介绍了Python如何通过MD5实现图片去重的3种计算方式并进行了对比,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下

一文搞懂:从 base64 到二进制,3种方式计算图片MD5,附完整去重方案

前言

在日常开发中,我们经常遇到这样的场景:

场景需求
图片上传去重判断图片是否已经存在
本地文件对比判断文件是否被修改
爬虫去重避免下载重复图片
缓存管理用MD5作为缓存key

MD5 就是解决这类问题的神器!那么在 Python 中,如何计算一张图片的 MD5 值呢?

今天这篇文章,我会从 最简单到最完整,带你掌握所有方法 

一、MD5 是什么?(30秒理解)

MD5 是一种哈希算法,可以把任意长度的数据,转换成一个 32位的十六进制字符串

原图(1MB)  →  MD5  →  "a1b2c3d4e5f6..."(32个字符)

它的特点:

特性说明
相同输入 → 相同输出同一张图片,MD5永远一样
不同输入 → 不同输出不同图片,MD5几乎肯定不同
单向不可逆无法从MD5还原出原图
有极小碰撞概率实际开发中可以忽略

一句话总结:MD5 就是图片的"指纹"!

二、3种计算方式(由浅入深)

假设我们有一张 base64 图片字符串:

base64_str = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg=="

方式一:直接对 base64 字符串算 MD5(最简单)

import hashlib

def md5_from_base64(base64_str):
    clean_str = base64_str.strip().replace('\n', '').replace(' ', '')
    return hashlib.md5(clean_str.encode()).hexdigest()

md5 = md5_from_base64(base64_str)
print(md5)  # a1b2c3d4e5f6...
优点缺点
一行代码搞定base64有空格/换行会导致误判
不需要解码data:image/png;base64, 前缀会出错

适合:快速验证,对精度要求不高的场景

方式二:对原始二进制算 MD5(✅ 推荐)

import hashlib
import base64

def md5_from_binary(base64_str):
    # 1. base64 → 二进制
    image_data = base64.b64decode(base64_str)
    # 2. 二进制 → MD5
    return hashlib.md5(image_data).hexdigest()

md5 = md5_from_binary(base64_str)
print(md5)
优点缺点
最准确,不受编码影响需要多一步解码
自动忽略空格/换行-
工业级标准做法-

⭐⭐⭐⭐⭐ 这是最推荐的方式!

方式三:从文件路径计算 MD5

如果你的图片是本地文件,根本不需要 base64:

import hashlib

def md5_from_file(file_path):
    md5 = hashlib.md5()
    with open(file_path, 'rb') as f:
        for chunk in iter(lambda: f.read(8192), b''):
            md5.update(chunk)
    return md5.hexdigest()

md5 = md5_from_file('photo.jpg')
print(md5)
优点缺点
最快,不用解码只能用于本地文件
内存友好(分块读取)-
支持大文件(几GB都行)-

⭐⭐⭐⭐⭐ 本地文件首选这个!

三、踩坑指南(非常重要!)

坑1:base64 带前缀

很多地方的 base64 长这样:

data:image/png;base64,iVBORw0KGgoAAAANSUhEUg...

必须去掉前缀!

def extract_base64(s):
    if ',' in s:
        return s.split(',', 1)[1]  # 只分割一次
    return s

clean_b64 = extract_base64(base64_str)
md5 = md5_from_binary(clean_b64)

坑2:base64 有空格/换行

不同来源的 base64 格式不一样:

# 来源A(干净)
"iVBORw0KGgoAAAANSUhEUg..."

# 来源B(带换行)
"iVBORw0KGgoAAAANSUhEUg...
AAAAAAAAAAAAAAAAA..."

解决办法:解码时自动忽略!(方式二天然支持)

坑3:肉眼看一样,但MD5不同

比如:

  • 一张图被重新压缩了(质量从90%降到80%)
  • PNG转JPG再转PNG
  • 改了一个像素

这时候 MD5 会不同,但你可能觉得是"同一张图"。

解决方案:使用感知哈希(pHash)

# pip install imagehash
import imagehash
from PIL import Image
import io
import base64

def phash_from_base64(base64_str):
    image_data = base64.b64decode(base64_str)
    img = Image.open(io.BytesIO(image_data))
    return str(imagehash.phash(img))  # 返回感知哈希值

# 即使压缩过,pHash 也可能相同!
对比MD5pHash
精确匹配
压缩后识别
速度极快较慢
使用场景去重/校验相似图搜索

四、完整实战:图片去重管理器

下面是一个可以直接用的 图片去重类

import hashlib
import base64
import json

class ImageDeduplicator:
    """图片去重管理器"""
    
    def __init__(self):
        self.seen = {}  # {md5: count} 记录见过的图片
    
    def get_md5(self, base64_str):
        """计算图片MD5(推荐方式)"""
        # 去除前缀
        if ',' in base64_str:
            base64_str = base64_str.split(',', 1)[1]
        # base64 → 二进制 → MD5
        image_data = base64.b64decode(base64_str)
        return hashlib.md5(image_data).hexdigest()
    
    def check(self, base64_str, label=""):
        """
        检查图片是否重复
        返回: (是否重复, md5值)
        """
        md5 = self.get_md5(base64_str)
        
        if md5 in self.seen:
            self.seen[md5] += 1
            return True, md5, self.seen[md5]
        else:
            self.seen[md5] = 1
            return False, md5, 1
    
    def save(self, filepath='seen_images.json'):
        """保存去重记录"""
        with open(filepath, 'w') as f:
            json.dump(self.seen, f, indent=2)
    
    def load(self, filepath='seen_images.json'):
        """加载去重记录"""
        try:
            with open(filepath, 'r') as f:
                self.seen = json.load(f)
        except FileNotFoundError:
            self.seen = {}


# ==================== 使用示例 ====================

dedup = ImageDeduplicator()

# 模拟3张图片(第1张和第3张是同一张)
images = [
    ("data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg==", "图片A"),
    ("data:image/png;base64,AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA", "图片B"),
    ("data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg==", "图片A(重复)"),
]

for b64, name in images:
    is_dup, md5, count = dedup.check(b64, name)
    status = "🔁 重复" if is_dup else "✅ 新图片"
    print(f"{name}: {status} | MD5: {md5} | 已出现{count}次")

# 保存记录
dedup.save()

运行结果

图片A: ✅ 新图片 | MD5: a1b2c3d4e5f6... | 已出现1次
图片B: ✅ 新图片 | MD5: f6e5d4c3b2a1... | 已出现1次
图片A(重复): 🔁 重复 | MD5: a1b2c3d4e5f6... | 已出现2次

五、总结对比

方式代码量准确度推荐场景
对base64字符串算MD5⭐ 最少⭐⭐⭐快速验证
对二进制算MD5⭐⭐ 少⭐⭐⭐⭐⭐所有场景(推荐)
从文件路径算MD5⭐⭐ 少⭐⭐⭐⭐⭐本地文件处理
pHash感知哈希⭐⭐⭐⭐ 多⭐⭐⭐⭐⭐相似图识别

六、一句话总结

  • 推荐做法:base64 → 解码为二进制 → hashlib.md5() → hexdigest()
  • 记住去前缀:base64_str.split(',')[1]
  • 需要相似图识别?用 imagehash.phash() 代替 MD5

到此这篇关于Python通过计算图片MD5值实现图片去重的文章就介绍到这了,更多相关Python图片去重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中闭包与lambda的作用域解析

    Python中闭包与lambda的作用域解析

    这篇文章主要介绍了Python中闭包与lambda的作用域解析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • python 图片二值化处理(处理后为纯黑白的图片)

    python 图片二值化处理(处理后为纯黑白的图片)

    这篇文章主要介绍了python 图片二值化处理(处理后为纯黑白的图片),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • Python笔记之a = [0]*x格式的含义及说明

    Python笔记之a = [0]*x格式的含义及说明

    这篇文章主要介绍了Python笔记之a = [0]*x格式的含义及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • python 动态调用函数实例解析

    python 动态调用函数实例解析

    这篇文章主要介绍了python 动态调用函数实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-10-10
  • 详解HttpRunner3的HTTP请是如何发出

    详解HttpRunner3的HTTP请是如何发出

    这篇文章主要为大家介绍了HttpRunner3的HTTP请是如何发出详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07
  • Python包管理工具uv的命令大全(附核心注意事项)

    Python包管理工具uv的命令大全(附核心注意事项)

    uv是Rust编写的新一代极速Python环境/包管理工具,兼容pip/venv语法且速度提升10-100倍,以下是全场景命令汇总和避坑指南,希望对大家有所帮助
    2026-03-03
  • Pandas如何获取数据的尺寸信息

    Pandas如何获取数据的尺寸信息

    这篇文章主要介绍了Pandas如何获取数据的尺寸信息问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • python基础之元组

    python基础之元组

    这篇文章主要介绍了python的元组,实例分析了Python中返回一个返回值与多个返回值的方法,需要的朋友可以参考下
    2021-10-10
  • Python递归时间复杂度

    Python递归时间复杂度

    这篇文章主要介绍了Python递归时间复杂度,时间复杂度一般认为O(logn),但递归算法的时间复杂度本质上是要看递归的次数,每次递归中的操作次数,下面文章详细介绍,需要的朋友可以参考一下
    2022-03-03
  • python查询mysql中文乱码问题

    python查询mysql中文乱码问题

    本文主要是解决python2.7在查询mysql时产生中文乱码的处理方法,非常的有用,亲测可行,推荐给大家
    2014-11-11

最新评论