详解MySQL中DISTINCT去重的核心注意事项

更新时间：2025年06月18日 15:00:29 作者：步行cgn

为了实现查询不重复的数据,MySQL 提供了DISTINCT关键字,它的主要作用就是对数据表中一个或多个字段重复的数据进行过滤,只返回其中的一条数据给用户,下面小编就来和大家简单讲讲DISTINCT去重的核心注意事项吧

DISTINCT 六大注意事项

1. 作用范围：所有 SELECT 字段

SELECT DISTINCT a, b FROM table;  -- 对(a,b)组合整体去重

误以为只作用于第一个字段：

-- 错误理解：以为只对name去重
SELECT DISTINCT name, class FROM students;

实际效果：对 (name, class) 组合去重（如 ('张三','一班') 和 ('张三','二班') 算不同记录）

2. NULL 值的特殊处理

INSERT INTO students (name, class, score) VALUES (NULL, '三班', 90);

SELECT DISTINCT name FROM students;

结果：

+--------+
| name |
+--------+
| 张三 |
| 李四 |
| 王五 |
| NULL | -- NULL被视为独立值保留
+--------+

3. 性能陷阱（大数据量）

-- 当表有百万行时慎用
SELECT DISTINCT text_column FROM huge_table;

优化方案：

-- 先通过WHERE缩小范围再去重
SELECT DISTINCT text_column 
FROM huge_table 
WHERE create_time > '2023-01-01';

-- 或添加索引（对text类型有限制）
ALTER TABLE huge_table ADD INDEX idx_text(text_column(20)); -- 前缀索引

4. 与 ORDER BY 的优先级

SELECT DISTINCT class 
FROM students 
ORDER BY score DESC; -- 错误！score不在SELECT中

正确写法：

-- 方案1：排序字段必须在SELECT中
SELECT DISTINCT class, MAX(score) AS max_score 
FROM students 
GROUP BY class 
ORDER BY max_score DESC;

-- 方案2：子查询
SELECT DISTINCT class FROM (
  SELECT class, score FROM students ORDER BY score DESC
) AS tmp;

5. 聚合函数中的 DISTINCT

-- 统计不重复的班级数量
SELECT COUNT(DISTINCT class) FROM students; 

-- 错误用法（语法无效）：
SELECT DISTINCT COUNT(class) FROM students;

6. 不可用于部分字段计算

-- 尝试计算不同班级的平均分（错误！）
SELECT DISTINCT class, AVG(score) FROM students;

正确做法：必须配合 GROUP BY

SELECT class, AVG(score) 
FROM students 
GROUP BY class;  -- 这才是标准解法

高级注意点

7. 与 LIMIT 的配合问题

SELECT DISTINCT class FROM students LIMIT 2;

结果不确定性：

返回的 2 条记录是随机的（除非指定 ORDER BY），不同执行可能结果不同。

8. 临时表空间占用

DISTINCT 操作会在内存/磁盘创建临时表存储唯一值

当去重字段总数据量超过 tmp_table_size 时，性能急剧下降

查看阈值：

SHOW VARIABLES LIKE 'tmp_table_size'; -- 默认16MB

对比 GROUP BY 去重

特性	DISTINCT	GROUP BY
是否可搭配聚合函数	❌	✅ (如SUM/AVG)
结果排序	无序	可按分组键排序
执行效率	简单场景更快	复杂聚合时更优
索引利用	可使用索引	必须用分组字段索引

最佳实践总结

小数据量：直接 DISTINCT 简洁高效

需要聚合计算：用 GROUP BY 替代

精确去重计数：优先 COUNT(DISTINCT column)

排序需求：必须显式写 ORDER BY

超大数据：先过滤再去重 + 合理索引

实战检验

订单表 orders 结构：

CREATE TABLE orders (
    id INT PRIMARY KEY,
    product_id INT,
    user_id INT,
    amount DECIMAL(10,2),
    coupon_code VARCHAR(20) -- 允许为NULL
);

问题：

如何高效获取使用过不同优惠券的用户ID列表（含NULL）？

写出你的解决方案：

SELECT _______________________________
FROM orders;

答案（折叠）：

-- 方案1：基础写法
SELECT DISTINCT user_id, coupon_code 
FROM orders 
WHERE coupon_code IS NOT NULL; -- 若需包含NULL则去掉WHERE

-- 方案2：大数据量优化（添加联合索引）
ALTER TABLE orders ADD INDEX idx_user_coupon(user_id, coupon_code);
SELECT DISTINCT user_id, coupon_code FROM orders;

到此这篇关于详解MySQL中DISTINCT去重的核心注意事项的文章就介绍到这了,更多相关MySQL DISTINCT去重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

mysql中操作表常用的sql总结
这篇文章主要给大家介绍了mysql中操作表常用的sql的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-12-12
MySQL数据库之数据表操作DDL数据定义语言
这篇文章主要介绍了MySQL数据库之数据表操作DDL数据定义语言，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-08-08
Mysql隔离性之Read View的用法说明
这篇文章主要介绍了Mysql隔离性之Read View的用法说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
如何恢复Mysql数据库的详细介绍
这里说的MySql恢复数据库，是指没有通过正常备份的情况下，通过Mysql保存的数据文件如何恢复数据库
2013-09-09
win10 下安装 mysql 5.7.14 详细图文教程
本文通过文字和图片相结合的形式给大家介绍了win10 下安装 mysql 5.7.14的教程的,非常不错，具有参考借鉴价值，需要的朋友可以参考下
2016-09-09
MySQL中正则表达式用法示例详解
MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价）,用于在 WHERE 子句中进行复杂的字符串模式匹配,这篇文章主要介绍了MySQL中正则表达式用法,需要的朋友可以参考下
2025-06-06
mysql存储过程返回 list结果集方式
这篇文章主要介绍了mysql存储过程返回 list结果集方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-09-09
详解MySQL事务的隔离级别与MVCC
这篇文章主要介绍了MySQL事务的隔离级别与MVCC的相关资料，帮助大家更好的理解和学习使用MySQL，感兴趣的朋友可以了解下
2021-04-04
详解Mysql中保证缓存与数据库的双写一致性
在一些高并发场景下,为了提升系统的性能,我们通常会将数据存储在 Redis 缓存中,并通过 Redis 缓存来提高系统的读取速度,这篇文章主要介绍了详解Mysql中保证缓存与数据库的双写一致性,需要的朋友可以参考下
2024-03-03
MySQL优化器的SQL重写规则介绍
这篇文章主要介绍了MySQL优化器的SQL重写规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-07-07