MySQL中distinct和group by去重效率区别浅析

 更新时间:2023年03月03日 10:04:26   作者:菜鸟小杰子  
distinct 与 group by均可用于去重,下面这篇文章主要给大家介绍了关于MySQL中distinct和group by去重效率区别的相关资料,文中介绍的非常详细,需要的朋友可以参考下

一、distinct

distinct的作用

在mysql中,distinct关键字的主要作用就是对数据库表中一个或者多个字段重复的数据进行过滤,只返回其中的一条数据给用户,distinct只可以在select中使用

distinct的原理

distinct进行去重的主要原理是通过先对要进行去重的数据进行分组操作,然后从分组后的每组数据中去一条返回给客户端,在这个分组的过程可能会出现两种不同的情况:

distinct 依赖的字段全部包含索引:

该情况mysql直接通过操作索引对满足条件的数据进行分组,然后从分组后的每组数据中去一条数据。

distinct 依赖的字段未全部包含索引:

该情况由于索引不能满足整个去重分组的过程,所以需要用到临时表,mysql首先需要将满足条件的数据放到临时表中,然后在临时表中对该部分数据进行分组,然后从临时表中每个分组的数据中去一条数据,在临时表中进行分组的过程中不会对数据进行排序。

distinct的语法:

select distinct expression[,expression…] from tables [where conditions];

在使用distinct的过程中主要注意一下几点:

在对字段进行去重的时候,要保证distinct在所有字段的最前面

如果distinct关键字后面有多个字段时,则会对多个字段进行组合去重,只有多个字段组合起来的值是相等的才会被去重

二、group by

groupby在Mysql8.0之前会进行隐式排序,导致触发filesort,sql执行效率低下,Mysql8.0开始,Mysql就删除了隐式排序

隐式排序

对于隐式排序,我们可以参考Mysql官方的解释:

MySQL :: MySQL 5.7 Reference Manual :: 8.2.1.14 ORDER BY Optimization

GROUP BY implicitly sorts by default (that is, in the absence of ASC
or DESC designators for GROUP BY columns). However, relying on
implicit GROUP BY sorting (that is, sorting in the absence of ASC or
DESC designators) or explicit sorting for GROUP BY (that is, by using
explicit ASC or DESC designators for GROUP BY columns) is deprecated.
To produce a given sort order, provide an ORDER BY clause.

大致解释一下:

GROUP BY 默认隐式排序(指在 GROUP BY 列没有 ASC 或 DESC 指示符的情况下也会进行排序)。然而,GROUPBY进行显式或隐式排序已经过时(deprecated)了,要生成给定的排序顺序,请提供 ORDER BY 子句。

所以,在Mysql8.0之前,Group by会默认根据作用字段(Groupby的后接字段)对结果进行排序。在能利用索引的情况下,Group by不需要额外进行排序操作;但当无法利用索引排序时,Mysql优化器就不得不选择通过使用临时表然后再排序的方式来实现GROUPBY了。且当结果集的大小超出系统设置临时表大小时,Mysql会将临时表数据copy到磁盘上面再进行操作,语句的执行效率会变得极低。这也是Mysql选择将此操作(隐式排序)弃用的原因。

基于上述原因,Mysql在8.0时,对此进行了优化更新:

MySQL :: MySQL 8.0 Reference Manual :: 8.2.1.16 ORDER BY Optimization

Previously (MySQL 5.7 and lower), GROUP BY sorted implicitly under
certain conditions. In MySQL 8.0, that no longer occurs, so specifying
ORDER BY NULL at the end to suppress implicit sorting (as was done
previously) is no longer necessary. However, query results may differ
from previous MySQL versions. To produce a given sort order, provide
an ORDER BY claus

大致解释一下:

从前(Mysql5.7版本之前),Group by会根据确定的条件进行隐式排序。在mysql 8.0中,已经移除了这个功能,所以不再需要通过添加order by null 来禁止隐式排序了,但是,查询结果可能与以前的 MySQL 版本不同。要生成给定顺序的结果,请按通过ORDER BY指定需要进行排序的字段。

三、distinct 和 group by 比较

在语义相同,有索引的情况下:

group by和distinct都能使用索引,效率相同。因为groupby和distinct近乎等价,distinct可以被看做是特殊的group by。

在语义相同,无索引的情况下:

distinct效率高于group by。原因是distinct 和 group by都会进行分组操作,但group
by在Mysql8.0之前会进行隐式排序,导致触发filesort,sql执行效率低下。
但从Mysql8.0开始,Mysql就删除了隐式排序,所以,此时在语义相同,无索引的情况下,groupby和distinct的执行效率也是近乎等价的。

推荐group by的原因:

group by语义更为清晰 group by可对数据进行更为复杂的一些处理 相比于distinct来说,group by的语义明确。且由于distinct关键字会对所有字段生效,在进行复合业务处理时,group by的使用灵活性更高,groupby能根据分组情况,对数据进行更为复杂的处理,例如通过having对数据进行过滤,或通过聚合函数对数据进行运算。

distinct 主要是对数据两两进行比较,需要遍历整个表

group by 是在查询时先把数据按照分组字段分组出来再查询,当数据量较大时,group by 速度要优于 distinct

总结

到此这篇关于MySQL中distinct和group by去重效率区别的文章就介绍到这了,更多相关MySQL distinct和group by去重效率内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • MySQL表分区的几种实现

    MySQL表分区的几种实现

    本文主要介绍了MySQL表分区的几种实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • MySQL MHA 高可用集群搭建过程详解

    MySQL MHA 高可用集群搭建过程详解

    MHA 是一套优秀的、开源的 MySQL 高可用性解决方案,它的核心目标是在 MySQL 主从复制环境中,实现主库故障时的自动故障转移和快速切换,尽可能保证数据库服务的连续性,这篇文章主要介绍了MySQL MHA 高可用集群搭建指南,需要的朋友可以参考下
    2025-10-10
  • mysql 8.0.18 安装配置方法图文教程

    mysql 8.0.18 安装配置方法图文教程

    这篇文章主要为大家详细介绍了mysql 8.0.18 安装配置方法图文教程,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-10-10
  • MySQL 查询过滤之WHERE 子句与运算符实战技巧

    MySQL 查询过滤之WHERE 子句与运算符实战技巧

    本文将系统讲解WHERE子句的用法及常用运算符(算术、比较)的规则与实战技巧,帮你掌握数据筛选的精髓,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
    2025-09-09
  • MYSQL 增加从库方式介绍

    MYSQL 增加从库方式介绍

    这篇文章主要介绍了MYSQL 增加从库方式介绍,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下,希望对你的学习有所帮助
    2022-08-08
  • MySQL高级查询语法分析

    MySQL高级查询语法分析

    在面试过程中经常会遇到sq查询问题,今天小编通过本文给大家介绍下MySQL高级查询语法分析,感兴趣的朋友跟随小编一起看看吧
    2022-02-02
  • mysql 5.7.18 winx64 免安装 配置方法

    mysql 5.7.18 winx64 免安装 配置方法

    这篇文章主要介绍了mysql 5.7.18 winx64 免安装配置方法,非常不错,具有参考借鉴价值,需要的朋友可以参考下
    2017-04-04
  • MySQL子查询中order by不生效问题的解决方法

    MySQL子查询中order by不生效问题的解决方法

    ORDER BY 语句用于根据指定的列对结果集进行排序,在日常工作中经常会用到,这篇文章主要给大家介绍了关于MySQL子查询中order by不生效问题的解决方法,需要的朋友可以参考下
    2021-07-07
  • Mysql中批量替换某个字段的部分数据(推荐)

    Mysql中批量替换某个字段的部分数据(推荐)

    这篇文章主要介绍了Mysql中批量替换某个字段的部分数据,通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • zabbix监控MySQL主从状态的方法详解

    zabbix监控MySQL主从状态的方法详解

    这篇文章主要介绍了zabbix--监控MySQL主从状态的方法,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2019-06-06

最新评论