浅析Python如何计算图片的MD5值

 更新时间:2026年05月19日 08:13:14   作者:detayun  
MD5作为图片的指纹,可用于文件校验、缓存管理和爬虫去重等场景,本文介绍了三种计算图片MD5值的方法,并提供了完整的图片去重方案,有需要的小伙伴可以了解下

一文搞懂:从 base64 到二进制,3种方式计算图片MD5,附完整去重方案

前言

在日常开发中,我们经常遇到这样的场景:

场景需求
图片上传去重判断图片是否已经存在
本地文件对比判断文件是否被修改
爬虫去重避免下载重复图片
缓存管理用MD5作为缓存key

MD5 就是解决这类问题的神器!那么在 Python 中,如何计算一张图片的 MD5 值呢?

今天这篇文章,我会从 最简单到最完整,带你掌握所有方法

一、MD5 是什么?(30秒理解)

MD5 是一种哈希算法,可以把任意长度的数据,转换成一个 32位的十六进制字符串

MD5作为图片的"指纹",可用于文件校验、缓存管理和爬虫去重等场景,

它的特点:

特性说明
相同输入 → 相同输出同一张图片,MD5永远一样
不同输入 → 不同输出不同图片,MD5几乎肯定不同
单向不可逆无法从MD5还原出原图
有极小碰撞概率实际开发中可以忽略

一句话总结:MD5 就是图片的"指纹"!

二、3种计算方式(由浅入深)

假设我们有一张 base64 图片字符串:

base64_str = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg=="

方式一:直接对 base64 字符串算 MD5(最简单)

import hashlib

def md5_from_base64(base64_str):
    clean_str = base64_str.strip().replace('\n', '').replace(' ', '')
    return hashlib.md5(clean_str.encode()).hexdigest()

md5 = md5_from_base64(base64_str)
print(md5)  # a1b2c3d4e5f6...
优点缺点
一行代码搞定base64有空格/换行会导致误判
不需要解码data:image/png;base64, 前缀会出错

适合:快速验证,对精度要求不高的场景

方式二:对原始二进制算 MD5(✅ 推荐)

import hashlib
import base64

def md5_from_binary(base64_str):
    # 1. base64 → 二进制
    image_data = base64.b64decode(base64_str)
    # 2. 二进制 → MD5
    return hashlib.md5(image_data).hexdigest()

md5 = md5_from_binary(base64_str)
print(md5)
优点缺点
最准确,不受编码影响需要多一步解码
自动忽略空格/换行-
工业级标准做法-

⭐⭐⭐⭐⭐ 这是最推荐的方式!

方式三:从文件路径计算 MD5

如果你的图片是本地文件,根本不需要 base64:

import hashlib

def md5_from_file(file_path):
    md5 = hashlib.md5()
    with open(file_path, 'rb') as f:
        for chunk in iter(lambda: f.read(8192), b''):
            md5.update(chunk)
    return md5.hexdigest()

md5 = md5_from_file('photo.jpg')
print(md5)
优点缺点
最快,不用解码只能用于本地文件
内存友好(分块读取)-
支持大文件(几GB都行)-

⭐⭐⭐⭐⭐ 本地文件首选这个!

三、踩坑指南(非常重要!)

坑1:base64 带前缀

很多地方的 base64 长这样:

data:image/png;base64,iVBORw0KGgoAAAANSUhEUg...

必须去掉前缀!

def extract_base64(s):
    if ',' in s:
        return s.split(',', 1)[1]  # 只分割一次
    return s

clean_b64 = extract_base64(base64_str)
md5 = md5_from_binary(clean_b64)

坑2:base64 有空格/换行

不同来源的 base64 格式不一样:

# 来源A(干净)
"iVBORw0KGgoAAAANSUhEUg..."

# 来源B(带换行)
"iVBORw0KGgoAAAANSUhEUg...
AAAAAAAAAAAAAAAAA..."

解决办法:解码时自动忽略!(方式二天然支持)

坑3:肉眼看一样,但MD5不同

比如:

  • 一张图被重新压缩了(质量从90%降到80%)
  • PNG转JPG再转PNG
  • 改了一个像素

这时候 MD5 会不同,但你可能觉得是"同一张图"。

解决方案:使用感知哈希(pHash)

# pip install imagehash
import imagehash
from PIL import Image
import io
import base64

def phash_from_base64(base64_str):
    image_data = base64.b64decode(base64_str)
    img = Image.open(io.BytesIO(image_data))
    return str(imagehash.phash(img))  # 返回感知哈希值

# 即使压缩过,pHash 也可能相同!
对比MD5pHash
精确匹配
压缩后识别
速度极快较慢
使用场景去重/校验相似图搜索

四、完整实战:图片去重管理器

下面是一个可以直接用的 图片去重类

import hashlib
import base64
import json

class ImageDeduplicator:
    """图片去重管理器"""
    
    def __init__(self):
        self.seen = {}  # {md5: count} 记录见过的图片
    
    def get_md5(self, base64_str):
        """计算图片MD5(推荐方式)"""
        # 去除前缀
        if ',' in base64_str:
            base64_str = base64_str.split(',', 1)[1]
        # base64 → 二进制 → MD5
        image_data = base64.b64decode(base64_str)
        return hashlib.md5(image_data).hexdigest()
    
    def check(self, base64_str, label=""):
        """
        检查图片是否重复
        返回: (是否重复, md5值)
        """
        md5 = self.get_md5(base64_str)
        
        if md5 in self.seen:
            self.seen[md5] += 1
            return True, md5, self.seen[md5]
        else:
            self.seen[md5] = 1
            return False, md5, 1
    
    def save(self, filepath='seen_images.json'):
        """保存去重记录"""
        with open(filepath, 'w') as f:
            json.dump(self.seen, f, indent=2)
    
    def load(self, filepath='seen_images.json'):
        """加载去重记录"""
        try:
            with open(filepath, 'r') as f:
                self.seen = json.load(f)
        except FileNotFoundError:
            self.seen = {}


# ==================== 使用示例 ====================

dedup = ImageDeduplicator()

# 模拟3张图片(第1张和第3张是同一张)
images = [
    ("data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg==", "图片A"),
    ("data:image/png;base64,AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA", "图片B"),
    ("data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg==", "图片A(重复)"),
]

for b64, name in images:
    is_dup, md5, count = dedup.check(b64, name)
    status = "🔁 重复" if is_dup else "✅ 新图片"
    print(f"{name}: {status} | MD5: {md5} | 已出现{count}次")

# 保存记录
dedup.save()

运行结果

图片A: ✅ 新图片 | MD5: a1b2c3d4e5f6... | 已出现1次
图片B: ✅ 新图片 | MD5: f6e5d4c3b2a1... | 已出现1次
图片A(重复): 🔁 重复 | MD5: a1b2c3d4e5f6... | 已出现2次

五、总结对比

方式代码量准确度推荐场景
对base64字符串算MD5⭐ 最少⭐⭐⭐快速验证
对二进制算MD5⭐⭐ 少⭐⭐⭐⭐⭐所有场景(推荐)
从文件路径算MD5⭐⭐ 少⭐⭐⭐⭐⭐本地文件处理
pHash感知哈希⭐⭐⭐⭐ 多⭐⭐⭐⭐⭐相似图识别

六、一句话总结

推荐做法:base64 → 解码为二进制 → hashlib.md5() → hexdigest()

记住去前缀:base64_str.split(',')[1]

需要相似图识别?用 imagehash.phash() 代替 MD5

以上就是浅析Python如何计算图片的MD5值的详细内容,更多关于Python计算图片MD5的资料请关注脚本之家其它相关文章!

相关文章

  • python3获取控制台输入的数据的具体实例

    python3获取控制台输入的数据的具体实例

    在本篇内容里小编给大家分享的是一篇关于python3获取控制台输入的数据的具体实例内容,需要的朋友们可以学习下。
    2020-08-08
  • python之如何将标签转化为one-hot(独热编码)

    python之如何将标签转化为one-hot(独热编码)

    这篇文章主要介绍了python之如何将标签转化为one-hot(独热编码)问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • C语言中的结构体在Python中实现转换

    C语言中的结构体在Python中实现转换

    这篇文章主要为大家介绍了C语言中的结构体在Python中实现转换示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • 用Python实现一个简单的能够上传下载的HTTP服务器

    用Python实现一个简单的能够上传下载的HTTP服务器

    这篇文章主要介绍了用Python实现一个简单的能够上传下载的HTTP服务器,是Python网络编程学习当中的基础,本文示例基于Windows操作系统实现,需要的朋友可以参考下
    2015-05-05
  • Pandas.DataFrame的行名和列名的修改

    Pandas.DataFrame的行名和列名的修改

    本文主要介绍了Pandas.DataFrame的行名和列名的修改,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Python+wxPython构建中文OCR截图工具

    Python+wxPython构建中文OCR截图工具

    随着数字化时代的到来,我们经常需要从图像中提取文本信息,本文将介绍如何使用Python编程语言和wxPython图形用户界面库构建一个简单的中文OCR截图工具,需要的可以参考下
    2023-08-08
  • Python多版本管理/切换/共存问题的解决

    Python多版本管理/切换/共存问题的解决

    本文介绍了在安装多个Python版本时,为了防止冲突和便于切换版本,可以给不同路径下的python.exe文件改名的方法,并解释了如何使用命令行输入不同的python命令来使用相应版本的Python
    2026-03-03
  • Django中文件上传和文件访问微项目的方法

    Django中文件上传和文件访问微项目的方法

    这篇文章主要介绍了Django中文件上传和文件访问微项目的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • Python+OpenCV开发中的常见错误及解决方案

    Python+OpenCV开发中的常见错误及解决方案

    本文总结了OpenCV使用中的常见错误及解决方案,帮助开发者快速定位和解决计算机视觉开发中的问题,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下
    2026-05-05
  • dataframe 按条件替换某一列中的值方法

    dataframe 按条件替换某一列中的值方法

    今天小编就为大家分享一篇dataframe 按条件替换某一列中的值方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01

最新评论