MySQL中数据去重的两种方式详解(DISTINCT和GROUP BY)

更新时间：2025年09月28日 08:40:04 作者：程序新视界

在日常工作中,数据库查询操作无处不在,而处理数据中的重复项与分组汇总是非常常见的需求,MySQL提供了两种常见的方式来管理和检索唯一值：SELECT DISTINCT和GROUP BY,这篇文章带大家将从功能、性能以及实际应用等方面详细介绍DISTINCT和GROUP BY的差异

引言

在日常工作中，数据库查询操作无处不在，而处理数据中的重复项与分组汇总是非常常见的需求。MySQL 提供了两种常见的方式来管理和检索唯一值：SELECT DISTINCT 和 GROUP BY。这两者虽然在生成输出上可能相似，但用途与性能各有不同，使用场景也有所区分。

这篇文章带大家将从功能、性能以及实际应用等方面详细介绍 DISTINCT 和 GROUP BY 的差异，并结合具体的示例数据来理解其使用场景。

SELECT DISTINCT

DISTINCT 是一个用于去重的关键字。SELECT DISTINCT 语句用于从结果集中删除重复行，只返回唯一值。因此，在需要仅获取数据的唯一部分时，DISTINCT 是一种简单高效的方式。

基本语法

SELECT DISTINCT column1, column2
FROM table_name;

参数说明：

column1, column2：要检索的字段名。
table_name：查询的表名。

特性说明

DISTINCT 可以基于单列或多列进行去重，只有多列的值完全相同时，才会被判定为重复行。
在DISTINCT中，NULL 被视为一个独立的值，因此即使列中有多个 NULL 值，结果中只会保留一个 NULL。

GROUP BY

GROUP BY 是一个用于分组的子句，通常与聚合函数配合使用以对分组后的数据进行汇总处理。它按指定列的值将行划分为不同的组。

基本语法

SELECT column1, aggregate_function(column_name)
FROM table_name
WHERE condition
GROUP BY column1, column2, ...;

参数说明：

column1, column2：分组的字段。
aggregate_function(column_name) ：用于对分组内的行进行计算的聚合函数，例如 COUNT, SUM, AVG 等。
table_name：查询的表名字。
condition：可选，用于过滤行，在分组之前应用。
GROUP BY column1, column2... ：定义用于分组的字段，具有相同值的行被分配到同一个组。

示例表结构与数据：

为了便于说明，我们定义两个表 customers 和 orders，并插入一些示例数据。

创建表：

CREATE TABLE customers (
  customer_id INT PRIMARY KEY,
  name VARCHAR(255) NOT NULL,
  city VARCHAR(255) NOT NULL
);

INSERT INTO customers (customer_id, name, city) VALUES
  (1, 'John Doe', 'New York'),
  (2, 'Jane Smith', 'London'),
  (3, 'Mike Brown', 'Paris'),
  (2, 'Jane Smith', 'London'); -- 存在重复项

CREATE TABLE orders (
  order_id INT PRIMARY KEY,
  customer_id INT NOT NULL,
  product VARCHAR(255) NOT NULL,
  price DECIMAL(10,2) NOT NULL,
  FOREIGN KEY (customer_id) REFERENCES customers(customer_id)
);

INSERT INTO orders (order_id, customer_id, product, price) VALUES
  (1, 1, 'Phone', 100.00),
  (2, 2, 'Laptop', 500.00),
  (3, 1, 'Tablet', 200.00),
  (4, 2, 'Watch', 150.00);

SELECT DISTINCT与GROUP BY使用对比

示例 1：检索唯一的客户城市

场景：我们希望查询 customers 表中的唯一城市，不关心重复的城市名称。

使用 DISTINCT：

SELECT DISTINCT city
FROM customers;

输出：

city
-----
New York
London
Paris

解释：

SQL 查询去除了数据集中重复的城市，只返回唯一值，简单直观。

示例 2：按客户城市统计订单数量

场景：我们希望统计每个城市对应的订单数量，涉及分组统计。

使用 GROUP BY：

SELECT city, COUNT(*) AS order_count
FROM customers c
INNER JOIN orders o ON c.customer_id = o.customer_id
GROUP BY city;

输出：

city         order_count
------------------------
London       2
New York     2

解释：

SQL 查询通过 GROUP BY 以城市分组，并结合 COUNT 聚合函数统计每组的订单数量，提供了更丰富的汇总信息。

SELECT DISTINCT 与 GROUP BY 的性能分析

虽然 DISTINCT 和 GROUP BY 都会涉及底层的分组操作，但在某些情况下，它们可以互换使用，而在性能、功能上的表现会有所偏差。

两者实现的相似性

对于以下两条查询：

SELECT DISTINCT int1_index FROM test_table;
SELECT int1_index FROM test_table GROUP BY int1_index;

在某些情况下（如 int1_index 上有索引），两者使用相同的执行计划。例如，通过以下 EXPLAIN 分析，查询会通过索引扫描优化：

mysql> explain select distinct int1_index from test_distinct_groupby;
mysql> explain select int1_index from test_distinct_groupby group by int1_index;

两者结果中 Extra 字段显示 Using index for group-by，说明索引用于优化查询，效率相当。

GROUP BY的隐式排序问题

在 MySQL 8.0 之前，GROUP BY 默认对结果进行隐式排序。这可能导致额外的排序操作（filesort），增加了查询开销。在无显式排序要求时，DISTINCT 的性能会优于 GROUP BY。

例如：

SELECT int6_random FROM test_table GROUP BY int6_random;

通过 EXPLAIN 查询，可以看到隐式排序增加了开销：

Extra: Using filesort

从 MySQL 8.0 开始，GROUP BY 不再强制进行隐式排序，性能接近 DISTINCT，尤其是在无索引的大数据场景下，二者效率更加一致。

SELECT DISTINCT 与 GROUP BY 的应用场景及差异

功能和目的对比：

功能	SELECT DISTINCT	GROUP BY
目的	去重	分组并聚合数据
是否支持聚合函数	否	是
排序行为	否（可选）	是（默认排序，8.0后优化）
性能	无索引场景更高效	无索引场景稍慢（排序）
语法复杂度	简单	较复杂

适用场景

根据具体需求选择 DISTINCT 或 GROUP BY：

使用SELECT DISTINCT ：

当仅需要去除重复项，返回唯一值时。
适用于简单查询场景。

使用GROUP BY ：

当需要按特定条件分组并对分组内的数据进行汇总或聚合（如 COUNT, SUM, AVG）时。
适合复杂的业务场景，支持更多灵活的操作，如结合 HAVING 子句筛选分组后的结果。

结论

SELECT DISTINCT 和 GROUP BY 是两种功能强大的工具，用于不同类型的 SQL 查询需求：

DISTINCT 适合简单去重，避免数据重复。
GROUP BY 更注重分组数据并对分组进行汇总分析。

在 MySQL 8.0 后，性能差距进一步缩小，但从语义清晰度与灵活性来看，GROUP BY 在处理复杂业务场景时更胜一筹。选择使用哪种方式应根据具体应用场景而定。

以上就是MySQL中数据去重的两种方式详解(DISTINCT和GROUP BY)的详细内容，更多关于MySQL数据去重方式的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

MySQL中in和exists区别详解
最近在写SQL语句时，对选择IN 还是Exists犹豫不决，所以就上网查询了一下资料，本文就详细的介绍了两个方法的区别，感兴趣的可以了解一下
2021-06-06
解析MySQL8.0新特性——事务性数据字典与原子DDL
这篇文章主要介绍了MySQL8.0新特性——事务性数据字典与原子DDL的相关资料，帮助大家更好的理解和学习MySQL8.0感兴趣的朋友可以了解下
2020-08-08
mysql使用mysqld_multi部署单机多实例的方法教程
这篇文章主要给大家介绍了关于mysql使用mysqld_multi部署单机多实例的相关资料，文中通过示例代码将实现的步骤一步步介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧。
2018-03-03
Linux下如何通过MySQL二进制包安装MySQL5.7
这篇文章主要介绍了Linux下如何通过MySQL二进制包安装MySQL5.7,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-07-07
mysql中如何优化表释放表空间
这篇文章主要介绍了mysql中如何优化表释放表空间问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
MySQL timestamp的类型与时区实例详解
这篇文章主要介绍了 MySQL timestamp的类型与时区实例详解的相关资料,需要的朋友可以参考下
2016-11-11
MySql分表、分库、分片和分区知识点介绍
数据库的数据量达到一定程度之后，为避免带来系统性能上的瓶颈。需要进行数据的处理，采用的手段是分区、分片、分库、分表，这里就为大家介绍一下,需要的朋友可以参考下
2020-02-02
MySQL中COUNT函数的使用小结
在MySQL的数据统计场景中,COUNT()函数是使用率极高的工具,无论是统计表中记录总数,还是按条件聚合计数,它都能轻松胜任,下面就来详细的介绍一下
2025-12-12
SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法
在SQLyog中执行存储过程时出现的前置缩进问题,实际上反映了SQLyog对SQL语句解析的一个特殊行为,本文给大家介绍了详细解释和解决方案,需要的朋友可以参考下
2025-05-05
MySQL INNER JOIN 的底层实现原理分析
这篇文章主要介绍了MySQL INNER JOIN 的底层实现原理,INNER JOIN的工作分为筛选和连接两个步骤，连接时可以使用多种算法，通过本文，我们深入了解了MySQL中INNER JOIN的底层实现原理，需要的朋友可以参考下
2023-06-06