mysql中的group by和between用法详解

更新时间：2025年06月26日 14:17:52 作者：梦想

MySQL中的GROUP BY是数据聚合分析的核心功能,主要用于将结果集按指定列分组,并结合聚合函数进行统计计算,本文给大家介绍mysql中的group by高级用法详解,感兴趣的朋友一起看看吧

mysql中的group by用法详解

MySQL中的GROUP BY是数据聚合分析的核心功能，主要用于将结果集按指定列分组，并结合聚合函数进行统计计算。以下从基本语法到高级用法进行详细解析：

一、基本语法与核心功能

SELECT 分组列, 聚合函数(计算列)
FROM 表名
[WHERE 条件]
GROUP BY 分组列
[HAVING 分组过滤条件]
[ORDER BY 排序列];

核心功能：

数据分组：按一列或多列的值将数据划分为逻辑组。
聚合计算：对每个分组应用聚合函数（如COUNT、SUM、AVG、MAX、MIN）进行统计。
结果过滤：通过HAVING对分组后的结果进行筛选（区别于WHERE的分组前过滤）。

二、基础用法示例

1. 单列分组统计

统计每个部门的员工数量和平均工资：

SELECT department, COUNT(*) AS emp_count, AVG(salary) AS avg_salary
FROM employees
GROUP BY department;  --

2. 多列组合分组

按部门和职位统计员工数量：

SELECT department, job_title, COUNT(*) 
FROM employees
GROUP BY department, job_title;  --

3. 与WHERE结合使用

仅统计薪资超过2000元的员工部门平均工资：

SELECT department, AVG(salary)
FROM employees
WHERE salary > 2000
GROUP BY department;  --

三、高级特性与扩展

1. HAVING子句过滤分组

筛选员工数量超过5人的部门：

SELECT department, COUNT(*) AS emp_count
FROM employees
GROUP BY department
HAVING emp_count > 5;  --

2. WITH ROLLUP生成汇总行

生成部门及职位的薪资小计和总计：

SELECT department, job_title, SUM(salary)
FROM employees
GROUP BY department, job_title WITH ROLLUP;  --

3. GROUP_CONCAT合并列值

统计每个用户购买的所有产品（逗号分隔）：

SELECT user_id, GROUP_CONCAT(product_name SEPARATOR ', ') 
FROM orders
GROUP BY user_id;  --

4. 按表达式/函数分组

按年份统计订单数量：

SELECT YEAR(order_date) AS year, COUNT(*)
FROM orders
GROUP BY YEAR(order_date);  --

四、注意事项与常见错误

ONLY_FULL_GROUP_BY模式
MySQL 8.0+默认启用该模式，要求SELECT中的非聚合列必须出现在GROUP BY中，否则报错。

-- 错误示例（salary未聚合且未分组）
SELECT department, salary FROM employees GROUP BY department;
-- 修正方法：添加聚合函数或分组字段
SELECT department, MAX(salary) FROM employees GROUP BY department;

WHERE与HAVING的区别

WHERE在分组前过滤行数据，不可使用聚合函数。
HAVING在分组后过滤组数据，必须与聚合条件结合。

性能优化建议

在分组列上创建索引（如ALTER TABLE employees ADD INDEX(department)）。
避免对大表直接分组，可先通过临时表或子查询缩小数据范围。

五、经典案例场景

1. 按时间维度聚合

统计每月的销售总额：

SELECT YEAR(sale_date) AS year, MONTH(sale_date) AS month, SUM(amount)
FROM sales
GROUP BY year, month;  --

2. 多层级统计

分析每个客户每年的订单总金额及平均金额：

SELECT customer_id, YEAR(order_date), 
       SUM(total_amount), AVG(total_amount)
FROM orders
GROUP BY customer_id, YEAR(order_date);  --

3. 数据去重

查找重复邮箱的用户：

SELECT email, COUNT(*) 
FROM users 
GROUP BY email 
HAVING COUNT(*) > 1;  --

六、聚合效率优化

在MySQL中优化GROUP BY聚合效率需要从索引设计、查询逻辑、执行引擎特性等多维度入手。以下基于最新优化实践和数据库引擎特性，总结9大核心优化策略：

1、索引优化策略

复合索引精准匹配分组列
• 创建与GROUP BY顺序完全匹配的复合索引（如GROUP BY a,b则创建(a,b)索引），可触发松散索引扫描，减少90%以上的磁盘I/O。
• 典型案例：当对(department, job_title)分组时，复合索引idx_dept_job可使查询跳过全表扫描，直接通过索引完成分组。

覆盖索引避免回表
• 确保SELECT列与聚合函数涉及的列均包含在索引中。例如索引(category, sales)，查询SELECT category, SUM(sales)时可直接通过索引完成计算，无需访问数据行。

利用函数索引应对复杂分组
• 对含表达式的分组（如YEAR(date_col)），创建虚拟列或函数索引（MySQL 8.0+支持）。例如：

ALTER TABLE orders ADD COLUMN year_date INT AS (YEAR(order_date)) VIRTUAL;
CREATE INDEX idx_year ON orders(year_date);

2、查询设计与执行优化

减少分组字段数量与复杂度
• 每增加一个分组字段，排序复杂度呈指数级增长。优先合并相关字段（如将province和city合并为region字段）。
• 避免在GROUP BY中使用函数，否则索引失效。需改写为基于原字段分组，如将GROUP BY DATE(created_at)改为GROUP BY created_at_date预计算列。

分阶段过滤与聚合
• 先通过子查询过滤无关数据再分组：

SELECT department, AVG(salary) 
FROM (SELECT * FROM employees WHERE salary > 5000) AS filtered 
GROUP BY department;  -- 比直接HAVING效率提升40%

内存排序与临时表优化
• 调整tmp_table_size和max_heap_table_size参数（建议设置为物理内存的20%），避免临时表落盘。
• 监控Created_tmp_disk_tables状态变量，若频繁出现磁盘临时表，需优化索引或拆分查询。

3、高级优化技术

分区表加速大数据处理
• 按时间或业务维度分区（如按月分区），使GROUP BY仅扫描特定分区。例如对10亿级日志表按event_date分区后，月度统计耗时从分钟级降至秒级。

物化视图与结果缓存
• 对高频聚合查询使用物化视图（如通过CREATE TABLE mv AS SELECT...定期刷新），减少实时计算压力。
• 应用层缓存重复查询结果（如Redis缓存日汇总数据），降低数据库负载。

并行查询（MySQL 8.0+）
• 启用parallel_query功能，通过多线程处理复杂分组：

SET SESSION optimizer_switch='parallel_query=on';
SELECT region, SUM(revenue) FROM sales GROUP BY region;  -- 利用多核CPU加速

4、诊断工具与注意事项

• 执行计划分析
使用EXPLAIN FORMAT=JSON观察using_index（是否用索引）、using_temporary（是否用临时表）、filesort（排序方式）等关键指标。

• 严格模式规避错误
启用ONLY_FULL_GROUP_BY模式，防止非聚合列误用导致结果不稳定。

性能优化对比案例

场景	优化前耗时	优化手段	优化后耗时
百万级用户行为分析	12.8s	创建`(user_id,action_time)`覆盖索引	1.2s
十亿级日志日聚合	3分钟	按日分区+并行查询	8秒

通过上述策略组合，可系统性解决GROUP BY性能瓶颈。实际应用中建议结合EXPLAIN分析和A/B测试，选择最适合业务场景的优化方案。

七、扩展知识

NULL值的处理：GROUP BY将NULL视为独立分组。
排序结合：分组后使用ORDER BY对结果排序（如按平均工资降序）。
动态分组：通过CASE WHEN实现条件分组（如按薪资区间统计）。

通过灵活组合这些功能，GROUP BY可满足复杂的数据分析需求。实际应用中需结合索引优化和查询逻辑设计，以提升执行效率。

补充：mysql中between的用法

mysql中between的用法

between的介绍

日常sql查询过程中经常要筛选某个属性或某个表达式结果的某个范围内的数据，这个时候我们经常通过 > 或者 < 来进行筛选，有的时候再项目中由于 > 和 < 经常会和起始标志符冲突，所以需要进行转义，这个过程很容易出现一些问题，其实在sql的关键字中，有一个非常实用的关键字可以进行范围查询，这个关键字就是between，接下来我们就来深入的了解一下between的用法。

between的语法

between关键字是一个逻辑操作符用来筛选指定属性或表达式某一范围内或范围外的数据。between关键字常用在where关键字后与select或update或delete共同使用。between的使用语法如下：

expr [NOT] BETWEEN begin_expr AND end_expr;

在整个表达式中，expr表示的是一个单一的属性或者是一个计算的表达式，整个表达式中的三个参数 expr、begin_expr、end_expr 必须是同一种数据类型。

between筛选的是 expr >= begin_expr并且 expr <= end_expr 的数据，如果不存在则返回的是0；
not between筛选的是 expr < begin_expr或者 expr > end_expr 的数据，如果不存在则返回的是0；
如果 expr 返回的是 NULL，则between 也返回的是null (暂未验证)

between的用法

假如我们有一张数据库表如下所示

CREATE TABLE `t_income` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '唯一自增id',
  `income_date` varchar(255) NOT NULL COMMENT '收入年月',
  `amount` float NOT NULL COMMENT '收入金额',
  `target_amount` float NOT NULL DEFAULT '0' COMMENT '目标收入',
  `create_time` datetime NOT NULL COMMENT '创建时间',
  PRIMARY KEY (`id`)  ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

查询表中amount>=10并且amount<=50的数据

select * from t_income where amount between 10 and 50;

查询表中amount 和 target_amount 总和 >=100并且<=500的数据

select * from t_income where (amount + target_amount) between 100 and 500;

查询表中create_time 在 2019-01-01 到 2019-09-01 这个日期范围内的数据

select * from t_income where create_time between cast('2019-01-01' as DATE) and cast('2019-09-01' as DATE);

查询表中amount < 10 或者 amount > 50 的数据

select * from t_income where amount not between 10 and 50;

between的总结

通过上面的讲解，我们现在应该已经基本的学会了between的用法，但是如果在开发中，我们要查询某个属性大于某一个值并且小于某个值的话，我们就只能用 > and < 啦

到此这篇关于mysql中的group by高级用法详解的文章就介绍到这了,更多相关mysql group by用法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

mysql 5.7.13 解压缩版（免安装）安装配置教程
这篇文章主要介绍了MySQL 5.7.13 for Windows解压缩版（免安装）安装配置教程，感兴趣的小伙伴们可以参考一下
2016-06-06
Canal监听MySQL的实现步骤
本文主要介绍了Canal监听MySQL的实现步骤，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-08-08
MySQL CPU过高的排查方法
这篇文章主要介绍了MySQL CPU过高的排查方法,通过top命令查看服务器CPU资源使用情况,明确CPU占用率较高的是否是mysqld进程,文章通过图文介绍的非常详细,需要的朋友可以参考下
2023-11-11
MySQL查询缓存的小知识
这篇文章主要介绍了MySQL查询缓存的的相关资料，帮助大家更好的理解和使用MySQL数据库，感兴趣的朋友可以了解下
2020-12-12
MySQL 查询结果以百分比显示简单实现
用到了MySQL字符串处理中的两个函数concat()和left()实现查询结果以百分比显示，具体示例代码如下，感兴趣的朋友可以学习下
2013-07-07
逐步分析MySQL从库com_insert无变化的原因
大家都知道com_insert等com_xxx参数可以用来监控数据库实例的访问量，也就是我们常说的QPS。并且基于MySQL的复制原理，所有主库执行的操作都会在从库重放一遍保证数据一致，那么主库的com_insert和从库的com_insert理论上应该是相等的。
2014-05-05
MySQL分区之HASH分区详解
hash分区的目的是将数据按照某列进行hash计算后更加均匀的分散到各个分区,下面这篇文章主要给大家介绍了关于MySQL分区之HASH分区的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
2022-04-04
mysql-8.0.15-winx64 解压版安装教程及退出的三种方式
本文通过图文并茂的形式给大家介绍了mysql-8.0.15-winx64 解压版安装,非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-04-04
MYsql库与表的管理及视图介绍
这篇文章主要介绍了MYsql库与表的管理及视图介绍，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-09-09
通过sysbench工具实现MySQL数据库的性能测试的方法
sysbench是一款压力测试工具，可以测试系统的硬件性能，也可以用来对数据库进行基准测试。这篇文章主要介绍了通过sysbench工具实现MySQL数据库的性能测试 ,需要的朋友可以参考下
2019-07-07