关于面试中常问的数据库回表问题

 更新时间:2023年07月14日 09:36:27   作者:Wis57  
这篇文章主要介绍了关于面试中常问的数据库回表问题,回表就是先通过数据库索引扫描出数据所在的行,再通过行主键id取出索引中未提供的数据,即基于非主键索引的查询需要多扫描一棵索引树,需要的朋友可以参考下

什么是回表?为什么需要回表?

小伙伴们在面试的时候,有一个特别常见的问题,那就是数据库的回表。

索引结构

要搞明白这个问题,需要大家首先明白 MySQL 中索引存储的数据结构。这个其实很多小伙伴可能也都听说过,B+Tree 嘛!

B+Tree 是什么?那你得先明白什么是 B-Tree,来看如下一张图:

在这里插入图片描述

前面是 B-Tree,后面是 B+Tree,两者的区别在于:

  • B-Tree 中,所有节点都会带有指向具体记录的指针;
  • B+Tree 中只有叶子结点会带有指向具体记录的指针。
  • B-Tree 中不同的叶子之间没有连在一起;
  • B+Tree 中所有的叶子结点通过指针连接在一起。
  • B-Tree 中可能在非叶子结点就拿到了指向具体记录的指针,搜索效率不稳定;
  • B+Tree 中,一定要到叶子结点中才可以获取到具体记录的指针,搜索效率稳定。

基于上面两点分析,我们可以得出如下结论:

B+Tree 中,由于非叶子结点不带有指向具体记录的指针,所以非叶子结点中可以存储更多的索引项,这样就可以有效降低树的高度,进而提高搜索的效率。

B+Tree 中,叶子结点通过指针连接在一起,这样如果有范围扫描的需求,那么实现起来将非常容易,而对于 B-Tree,范围扫描则需要不停的在叶子结点和非叶子结点之间移动。

对于第一点,一个 B+Tree 可以存多少条数据呢?以主键索引的 B+Tree 为例(二级索引存储数据量的计算原理类似,但是叶子节点和非叶子节点上存储的数据格式略有差异),我们可以简单算一下。

计算机在存储数据的时候,最小存储单元是扇区,一个扇区的大小是 512 字节,而文件系统(例如 XFS/EXT4)最小单元是块,一个块的大小是 4KB。

InnoDB 引擎存储数据的时候,是以页为单位的,每个数据页的大小默认是 16KB,即四个块。

基于这样的知识储备,我们可以大致算一下一个 B+Tree 能存多少数据。

假设数据库中一条记录是 1KB,那么一个页就可以存 16 条数据(叶子结点);对于非叶子结点存储的则是主键值+指针,在 InnoDB 中,一个指针的大小是 6 个字节,假设我们的主键是 bigint ,那么主键占 8 个字节,当然还有其他一些头信息也会占用字节我们这里就不考虑了,我们大概算一下,小伙伴们心里有数即可:

16*1024/(8+6)=1170

即一个非叶子结点可以指向 1170 个页,那么一个三层的 B+Tree 可以存储的数据量为:

1170117016=21902400

可以存储 2100万 条数据。

在 InnoDB 存储引擎中,B+Tree 的高度一般为 2-4 层,这就可以满足千万级的数据的存储,查找数据的时候,一次页的查找代表一次 IO,那我们通过主键索引查询的时候,其实最多只需要 2-4 次 IO 操作就可以了。

大家先搞明白这个 B+Tree。

两类索引

大家知道,MySQL 中的索引有很多中不同的分类方式,可以按照数据结构分,可以按照逻辑角度分,也可以按照物理存储分,其中,按照物理存储方式,可以分为聚簇索引和非聚簇索引。

我们日常所说的主键索引,其实就是聚簇索引(Clustered Index);主键索引之外,其他的都称之为非主键索引,非主键索引也被称为二级索引(Secondary Index),或者叫作辅助索引。

对于主键索引和非主键索引,使用的数据结构都是 B+Tree,唯一的区别在于叶子结点中存储的内容不同:

主键索引的叶子结点存储的是一行完整的数据。

非主键索引的叶子结点存储的则是主键值。

这就是两者最大的区别。

所以,当我们需要查询的时候:

如果是通过主键索引来查询数据,例如 select * from user where id=100,那么此时只需要搜索主键索引的 B+Tree 就可以找到数据。

如果是通过非主键索引来查询数据,例如 select * from user where username=‘javaboy’,那么此时需要先搜索 username 这一列索引的 B+Tree,搜索完成后得到主键的值,然后再去搜索主键索引的 B+Tree,就可以获取到一行完整的数据。

对于第二种查询方式而言,一共搜索了两棵 B+Tree,第一次搜索 B+Tree 拿到主键值后再去搜索主键索引的 B+Tree,这个过程就是所谓的回表。

从上面的分析中我们也能看出,通过非主键索引查询要扫描两棵 B+Tree,而通过主键索引查询只需要扫描一棵 B+Tree,所以如果条件允许,还是建议在查询中优先选择通过主键索引进行搜索。

一定会回表吗?那么不用主键索引就一定需要回表吗?

不一定!

如果查询的列本身就存在于索引中,那么即使使用二级索引,一样也是不需要回表的。

举个例子,我有如下一张表:

在这里插入图片描述

uname 和 address 字段组成了一个复合索引,那么此时,虽然这是一个二级索引,但是索引树的叶子节点中除了保存主键值,也保存了 address 的值。

我们来看如下分析:

在这里插入图片描述

可以看到,此时使用到了 uname 索引,但是最后的 Extra 的值为 Using index,这就表示用到了索引覆盖扫描(覆盖索引),此时直接从索引中过滤不需要的记录并返回命中的结果,这一步是在 MySQL 服务器层完成的,并且不需要回表。

扩展

基于第一、二小节的分析,我们再来捋一捋为什么在数据库中建议使用自增主键。

自增主键往往占用空间比较小,int 占 4 个字节,bigint 占 8 个字节。由于二级索引的叶子节点存储的就是主键,所以如果主键占用空间小,意味着二级索引的叶子节点将来占用的空间小(间接降低 B+Tree 的高度,提高搜索效率)。

自增主键插入的时候比较快,直接插入即可,不会涉及到叶子节点分裂等问题(不需要挪动其他记录);而其他非自增主键插入的时候,可能要插入到两个已有的数据中间,就有可能导致叶子节点分裂等问题,插入效率低(要挪动其他记录)。

当然,这个是基于技术层面的讨论,如果业务上无法使用自增主键或者有其他要求导致无法使用自增主键,那没办法,在满足新要求的情况下重新选择一个最佳实践吧。

到此这篇关于关于面试中常问的数据库回表问题的文章就介绍到这了,更多相关数据库回表内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Dbeaver如何从一个数据库复制表到另外一个数据库

    Dbeaver如何从一个数据库复制表到另外一个数据库

    在数据库管理中,导出表是一项常见操作,可以通过特定的工具或数据库自带的功能实现,步骤包括:1.在数据库管理软件中找到需导出的表,右键选择导出数据,2.选择目标数据库,并进行表映射设置,3.根据需求调整导出参数,4.执行操作完成数据导出
    2024-10-10
  • 你也许连删库跑路都不会(delete、drop和truncate删除数据)

    你也许连删库跑路都不会(delete、drop和truncate删除数据)

    这篇文章主要给大家介绍了关于delete、drop和truncate删除数据的方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • hadoop map-reduce中的文件并发操作

    hadoop map-reduce中的文件并发操作

    hadoop mapreduce最主要的应用是基于键值对的数据的运算,过滤,提取。但除此之外,我们可以顺带利用mapreduce高并发的特性做一些用常用方法难以处理的问题,比如大量数据,大量文件的并发读写
    2014-04-04
  • 如何使用navicat远程连接openGauss

    如何使用navicat远程连接openGauss

    公司要在openEuler系统中安装openGauss数据库,经过几天的查资料,终于是安装成功了,并且能在navicat中远程连接使用,本文给大家介绍如何使用navicat远程连接openGauss,感兴趣的朋友跟随小编一起看看吧
    2023-10-10
  • PostgreSQL8.3.3安装方法

    PostgreSQL8.3.3安装方法

    非安装版的PostgreSQL8.3.3的首次使用经历第一次用Postgre,已经是好多年以前了,隐约记得是在linux下边,build半天,然后手动配置库文件之类。
    2008-09-09
  • Redis和Memcache的区别总结

    Redis和Memcache的区别总结

    这篇文章主要介绍了Redis和Memcache的区别,用三个总结来说明Redis和Memcache的区别,需要的朋友可以参考下
    2014-05-05
  • 以前架征途时的合区的SQL语句代码备份

    以前架征途时的合区的SQL语句代码备份

    本来以为资料都是丢了的,今天整理移动硬盘时发现found.000这个目录超大,进去一看,我的妈呀,资料都在这里了,这下可把我乐坏了,我赶紧把一些有用的都发上来先
    2008-08-08
  • Instagram提升PostgreSQL性能的五个技巧

    Instagram提升PostgreSQL性能的五个技巧

    这篇文章主要介绍了Instagram提升PostgreSQL性能的五个技巧,Instagram的数据库一直由PostgreSQL支撑,经验很具有参考性,需要的朋友可以参考下
    2015-04-04
  • neo4j创建数据库以及导入csv文件内容图文详解

    neo4j创建数据库以及导入csv文件内容图文详解

    这篇文章主要给大家介绍了关于neo4j创建数据库以及导入csv文件内容的相关资料,Neo4j是一个基于图形结构的NoSQL数据库,它提供了一种高效的方式来管理和查询大型复杂数据,需要的朋友可以参考下
    2023-11-11
  • 50条SQL查询技巧、查询语句示例

    50条SQL查询技巧、查询语句示例

    这篇文章主要介绍了50条SQL查询技巧、查询语句示例,本文以学生表、课程表、成绩表、教师表为例,讲解不同需求下的SQL语句写法,需要的朋友可以参考下
    2015-06-06

最新评论