MySQL关联查询Join的实现原理和优化建议

 更新时间:2023年07月16日 10:53:37   作者:JAVA旭阳  
在平时的开发过程中,大家应该经常会用到join进行多个表的之间的关联查询,但是如果使用不合理的话,会导致查询性能下降,本文就MySQL中的关联查询的实现原理以及一些优化建议等内容做一个讲解,需要的朋友可以参考下

关联查询介绍

关联查询,指两个或更多个表一起完成查询操作。

  • 内连接(INNTER JOIN)

合并具有同一列的两个以上的表的行, 结果集中不包含一个表与另一个表不匹配的行,语法如下:

SELECT 字段列表
FROM A表 INNER JOIN B表
ON 关联条件
WHERE 等其他子句;

  • 返回的结果集是A表和B匹配的行。
  • A表或者B表哪个表是驱动表(主表)或者被驱动表(从表)由查询优化器决定。
  • 左连接(LEFT JOIN)

两个表在连接过程中除了返回满足连接条件的行以外,还返回左表中不满足条件的行。

#实现查询结果是A
SELECT 字段列表
FROM A表 LEFT JOIN B表
ON 关联条件
WHERE 等其他子句;

  • 结果集中返回匹配的行,也返回A表中不匹配的行,不匹配字段用NULL表示。
  • A表是驱动表(主表),B表是非驱动表(从表)。
  • 右连接(Right JOIN)

两个表在连接过程中除了返回满足连接条件的行以外,还返回右表中不满足条件的行。

#实现查询结果是B
SELECT 字段列表
FROM A表 RIGHT JOIN B表
ON 关联条件
WHERE 等其他子句;

 

  • 结果集中返回匹配的行,也返回B表中不匹配的行,不匹配字段用NULL表示。
  • B表是驱动表(主表),A表是非驱动表(从表)。

关联查询原理

前面讲解了连接查询的几种方式,现在谈谈MySQL底层是支持这几种连接查询的。

关联查询中涉及到多张表的的查询,根据驱动类型分为驱动表和被驱动表,驱动表就是主表,被驱动表就是从表。我们可以在执行计划中看出来。

  • 执行计划从上向下看,上面的属于驱动表。
  • 内连接的驱动表选择由查询优化器决定。
  • 左连接的驱动表一般是左边的表,右连接的驱动表一般是右边的表。

了解了驱动表和被驱动表以后,现在我们看下MySQL究竟是怎么做join查询的。

简单嵌套循环连接

简单嵌套循环连接(Simple Nested-Loop join)是从驱动表A中取出一条数据,遍历表B,将匹配到的数据放到result.. 以此类推, 如下图所示:

  • 算法简单粗暴,比如驱动表A有10条,被驱动表B有100条,那么扫描次数是A+A*B, 每一次扫描其实就是从硬盘中读取数据加载到内存中,也就是一次IO,而IO是最大的瓶颈,所以效率低下,开销如下表:
开销统计简单嵌套循环连接
驱动表扫描次数1
被驱动表扫描次数A
读取记录数A+B*A
JOIN比较次数B*A
回表读取记录次数0
  • 当然MySQL默认没有采用这种算法。

块嵌套循环连接

块嵌套循环连接(Block Nested-Loop Join)是对上面一种算法的优化,竟然逐条的去驱动表中获取数据去匹配,和磁盘IO交互太多了,那么能否批量的方式呢?而这种算法就是借鉴了这样的思想。

不再是逐条获取驱动表的数据,而是一块一块的获取,引入了join buffer缓冲区,将驱动表join相关的部分数据列、缓存到join buffer中,然后全表扫描被驱动表,被驱动表的每一条记录一次性和join buffer中的所有驱动表记录进行匹配(内存中操作),将简单嵌套循环中的多次比较合并成一次,降低了被驱动表的访问频率。整体如下图所示:

  • 注意一点,从驱动表中缓存的列不仅仅是关联的的列,select后面的列也会缓存起来。因此,为了能让join buffer缓存更多的数据,我们的SQL尽量不要select *, 而是select 用到的字段。
  • 整体的开销如下表所示:
开销统计简单嵌套循环连接块嵌套循环连接
驱动表扫描次数11
被驱动表扫描次数AA*used_column_size/join_buffer_size+1
读取记录数A+B*AA+B*(A*used_column_size/join_buffer_size)
JOIN比较次数B*AB*A
回表读取记录次数00
  • join buffer的大小是可以设置的,默认情况下join_buffer_size=256k
show variables like '%join_buffer%';

索引嵌套循环连接

那还有没有效率更加高的关联查询算法呢?索引嵌套循环连接(Index Nested-Loop Join)就是效率最高的,前提条件是被驱动表的关联字段建立了索引。通过驱动表匹配条件直接与被驱动表的索引进行匹配,避免和内存表的每条记录去进行比较,这样极大的减少了对内存表的匹配次数。如下图所示:

  • 整体的开销成本如下表所示:
开销统计简单嵌套循环连接块嵌套循环连接索引嵌套循环连接
驱动表扫描次数111
被驱动表扫描次数AA*used_column_size/join_buffer_size+10
读取记录数A+B*AA+B*(A*used_column_size/join_buffer_size)A+B(match)
JOIN比较次数B*AB*AA*Index(Height)
回表读取记录次数00B(match)(if possible)

因为索引查询的成本基本一样,为了降低开销,驱动表是小表更加合适。

Hash Join(MySQL 8)

从MySQL8后面的版本开始废弃块嵌套循环连接,默认使用了Hash Join的方式。

  • 块嵌套循环连接:对于被连接的数据子集较小的情况下,它是个较好的选择。
  • Hash Join: 是做大数据集连接时的常用方式,优化器使用两个表中较小(相对较小)的表利用Join Key在内存中建立散列值,然后扫描较大的表并探测散列值,找出与Hash表匹配的行。它能够很好的工作于没有索引的大表和并行查询的环境中,并提供最好的性能。Hash Join只能应用于等值连接,这是由Hash的特点决定的。

优化建议

前面讲解了关联查询Join的实现原理,那么对于关联查询模式我们可以从中总结出下面的一些优化点:

  • 优先保证被驱动表的连接字段建立索引,因为建立索引的查询方式是效率最高的。
  • left join或者 right join这种外连接的情况,要保证小表(小结果集)作为驱动表,大表(大结果集)作为被驱动表,这样性能更好。
  • 在查询字段的话,要避免select *或者select 全部字段,而是按需,因为这些字段也会加入到join buffer中。
  • 能够直接多表关联的尽量直接关联,不用子查询,因为子查询的效率更加低。
  • 在sql的查询计划的extra中,尽量避免出现Using join buffer,有这个表示使用了块嵌套循环连接算法,尽量通过索引去解决。
  • 尽量避免超过3张表以上的关联查询。

总结

本文分享了日常工作中使用非常频繁的关联查询,主要关注关联查询的实现原理,这样我们可以在平时写关联查询的SQL时候性能才会更佳。如果本文对你有帮助,请留下一个赞吧。

以上就是MySQL关联查询Join的实现原理和优化建议的详细内容,更多关于MySQL关联查询Join的资料请关注脚本之家其它相关文章!

相关文章

  • mysql导入csv的4种报错的解决方法

    mysql导入csv的4种报错的解决方法

    这篇文章主要介绍了mysql导入csv的4种报错的解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • mysql5.7同时使用group by和order by报错问题

    mysql5.7同时使用group by和order by报错问题

    这篇文章主要介绍了mysql5.7同时使用group by和order by报错的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • MySQL批量插入数据脚本

    MySQL批量插入数据脚本

    shell下向mysql批量插入数据的范例代码,有需要的小伙伴可以参考下
    2016-02-02
  • MySQL的意向共享锁、意向排它锁和死锁

    MySQL的意向共享锁、意向排它锁和死锁

    这篇文章主要介绍了MySQL的意向共享锁、意向排它锁和死锁,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-07-07
  • 为mysql数据库添加添加事务处理的方法

    为mysql数据库添加添加事务处理的方法

    开始首先说明一下,mysql数据库默认的数据库引擎是MyISAM,是不支持事务的,单数如果你添加了数据执行语句是不会出错的,单数不管用,即便是回滚事务,记录也是插入进去了,所有首先我们要做的第一步是更改数据库引擎
    2011-07-07
  • mysql过滤复制思路详解

    mysql过滤复制思路详解

    这篇文章主要介绍了mysql过滤复制的实现思路,主要讲解了两种思路,一种是在主库的binlog上实现另一种是从库的sql线程上实现,具体实现过程跟随小编一起看看吧
    2021-08-08
  • mysql多表联合查询操作实例分析

    mysql多表联合查询操作实例分析

    这篇文章主要介绍了mysql多表联合查询操作,结合实例形式分析了mysql多表联合查询的语法、功能、相关操作技巧与注意事项,需要的朋友可以参考下
    2019-04-04
  • 计算机管理服务中找不到mysql的服务的解决办法

    计算机管理服务中找不到mysql的服务的解决办法

    MySQL是一种流行的开源关系型数据库管理系统,用于存储和管理大量数据,在计算机管理中,启动MySQL服务是一项重要的任务,因为它可以确保数据库系统的顺利运行,这篇文章主要给大家介绍了关于计算机管理服务中找不到mysql的服务的解决办法,需要的朋友可以参考下
    2023-05-05
  • Mysql全局ID生成方法

    Mysql全局ID生成方法

    本文给大家介绍mysql全局id生成方法,涉及到mysql全局id相关知识,感兴趣的朋友一起学习吧
    2015-12-12
  • MySql 5.6.35 winx64 安装详细教程

    MySql 5.6.35 winx64 安装详细教程

    这篇文章主要介绍了MySql 5.6.35 winx64 安装详细教程,非常不错,具有参考借鉴价值,需要的朋友可以参考下
    2017-02-02

最新评论