浅谈MongoDB内部的存储原理

更新时间：2023年07月04日 08:53:40 作者：数据知道

这篇文章主要介绍了浅谈MongoDB内部的存储原理,MongoDB是一个面向文档的数据库系统。使用C++编写，不支持SQL，但有自己功能强大的查询语法,需要的朋友可以参考下

存储引擎

本文介绍默认存储引擎WiredTiger

WiredTiger架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m6gvgNNr-1657024774196)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1226)]

WiredTiger的写操作会先写入Cache，并持久化到WAL(Write ahead log)，每60s会做一次Checkpoint，将当前的数据持久化，每，产生一个新的快照。Wiredtiger连接初始化时，首先将数据恢复至最新的快照状态，然后根据Checkpoint恢复数据，以保证存储可靠性

btree与b+tree

虽然遍历数据的查询是相对常见的，但是 MongoDB 认为查询单个数据记录远比遍历数据更加常见，由于 B 树的非叶结点也可以存储数据，所以查询一条数据所需要的平均随机 IO 次数会比 B+ 树少，使用 B 树的 MongoDB 在类似场景中的查询速度就会比 MySQL 快。

这里并不是说 MongoDB 并不能对数据进行遍历，我们在 MongoDB 中也可以使用范围来查询一批满足对应条件的记录，只是需要的时间会比 MySQL 长一些。MySQL 认为遍历数据的查询是常见的，所以它选择 B+ 树作为底层数据结构

cache

内部缓存和文件系统缓存，默认情况下内部缓存取50％（RAM-1 GB）或256M较大者，文件系统缓存使用所有当前可用的RAM。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f6pKa5SR-1657024774197)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1227)]

Wiredtiger的Cache采用Btree的方式组织，每个Btree节点为一个page，root page是btree的根节点，internal page是btree的中间索引节点，leaf page是真正存储数据的叶子节点；btree的数据以page为单位按需从磁盘加载或写入磁盘，btree的每个page以文件里的extent形式（由文件offset + size标识）存储

page

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MUI3Noms-1657024774198)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1228)]

ROW_ARRAY: 每个数组单元（wt_row）存储的是这个 kv row 在存储在磁盘上的 page kv cell 行集合数据缓冲区偏移的位置和编码方式（这个位置和编码方式在 WT 上定义成一个 wt_cell 对象），通过这个信息偏移位置信息就可以访问到这一样在缓冲区中的 K/V 内容值 ROW_UPDATE_ARRAY: 一个 mvcc list 对象，mvcc_list 与 wt_row 是一一对应的，mvcc list 当中存储对 wt_row 修改的值，修改的值包括值更新和值删除，是一个无锁单向链表

写操作遍历btree，找到需要更新的page如果cache中没有对应的page，会从磁盘中加载page，键值对存入WT_ROW如果是insert操作，更新WT_INSERT，如果是update/delete操作，更新WT_UPDATE如果需要，将操作记录写入journal

我们通过一个实例来说明: 假如一个 page 存储了一个 [0，100] 的 key 范围，磁盘上原来存储的行 key=2， 10 ，20， 30 ， 50， 80， 90，他们的值分别是value = 102， 110， 120， 130， 150， 180， 190。在 page 数据从磁盘读到内存后，分别对 key=2 的 value 进行了两次修改，两次修改的值是分别 402，502。对 key = 20 ，50 的 value 做了一次修改，修改后的 value = 122， 155，后有分配 insert 了新的 key = 3，5， 41， 99，value = 203，205，241，299。那么在内存中的 page 就是如下图组织数据的：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ew70Kjzs-1657024774198)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1229)]

相邻的两 wt_row 之间可能不是连续的，他们之间可以插入新的单元，例如 row1(key = 2) 和 row2(key=10) 可以插入 3 和 5，这两个 row 之间需要有一个排序的数据结构（WT用 skiplist 数据结构）来存储插入的 K/V，就需要一个 skiplist 对象数组 page_insert_array与row array对应。这里需要说明的是图6 当中红色框当中的 skiplist8，它是用于存储 row1(key=2) 范围之前的 insert 数据，图中如果有 key =1 的数据 insert，那么这个数据会新增到 skiplist8 当中。

那么图中row与 insert skiplist 的对应关系就是：

row1 之前的范围对应 insert 是 skiplist8row1 和 row2之间对应的 insert 是 skiplist1row2 和 row3之间对应的 insert 是 skiplist3…row7 之后的范围对应的 insert 是 skiplist7 checkpoint

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FAoNj9By-1657024774199)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1230)]

一个Checkpoit包含如下元数据： root page地址，地址由文件offset，size及内容的checksum组成 alloc extent list地址，存储从上次checkpoint起新分配的extent列表 discard extent list地址，存储从上次checkpoint起丢弃的extent列表 available extent list地址，存储可分配的extent列表，只有最新的checkpoint包含该列表 file size 如需恢复到该checkpoint的状态，将文件truncate到file size即可

WAL(journal)

日志文件记录的是从上一个checkpoint之后的实际操作，该文件每100ms或文件大小到达100M就从缓存同步到磁盘

整体关系

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MVHYqJxR-1657024774199)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1231)]

分布式存储

架构

架构图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oFTkWPep-1657024774200)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1232)]

写数据流程：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LBfsoU1L-1657024774200)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1233)]

读数据流程：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IDG49n7y-1657024774201)(evernotecid://B1CD39FE-B044-413D-A086-0649DB3F0070/appyinxiangcom/26430792/ENResource/p1234)]

到此这篇关于浅谈MongoDB内部的存储原理的文章就介绍到这了,更多相关MongoDB存储原理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

mongodb eval 执行服务器端脚本
在MongoDB的服务器端可以通过db.eval函数来执行javascript脚本，如我们可以定义一个javascript函数，然后通过db.eval在服务器端来运行！我们前面其实也接触过在服务器段运行一个预定义的javascript脚本的情况，如在$where查询，执行mapreduce任务等。
2015-05-05
Mongodb数组字段索引之多键索引
Mongodb字段允许包含字符,文档,数组等各种各样的类型,同样Mongodb索引也可以支持字符,文档,数组等类型,本文结合Mongodb官方文档,介绍Mongodb数组类型数据的索引——多键索引,感兴趣的朋友跟随小编一起看看吧
2024-07-07
MongoDB如何对数组中的元素进行查询详解
MongoDB在文档上支持数组，其次数组上可以实现嵌套，以及数组元素也可以文档。所以下面这篇文章主要给大家介绍了关于MongoDB如何对数组中元素进行查询的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-10-10
MongoDB事务的限制和注意事项详解
MongoDB事务提供了ACID特性,但存在复制集和分片集群要求、超时限制、锁限制、事务大小限制和跨集合/数据库限制等,本文介绍MongoDB事务的限制和注意事项,感兴趣的朋友跟随小编一起看看吧
2026-04-04
MongoDB常用数据类型分享
这篇文章主要介绍了MongoDB常用数据类型， JSON是一种简单的数据表示方式，它易于理解、易于解析、易于记忆， BSON是一种类JSON的二进制形式的存储格，更多类型需要的小伙伴可以参考下文详细介绍
2022-04-04
MongoDB客户端工具NoSQL Manager for MongoDB介绍
这篇文章介绍了MongoDB客户端工具NoSQL Manager for MongoDB，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-06-06
MongoDB中UPDATE操作$pullAll的方法
与$pull有所不同,$pull操作通过指定一个查询条件或单个值来删除数组中的元素, 而$pullAll删除所有在指定列表中的数组元素,本文介绍Mongodb UPDATE操作中的$pullAll, 用来从数组中删除多个元素,感兴趣的朋友一起看看吧
2024-06-06
MongoDB 插入操作机制详解之insert() 与 nInserted 的行为剖析(推荐)
本文将以一段常见的MongoDB Shell脚本为切入点,深入探讨insert() 方法的工作机制、返回值含义,并对比insertMany()的差异,帮助开发者避免常见误解,写出更高效、更可控的数据写入代码,感兴趣的朋友一起看看吧
2025-11-11
MongoDB系列教程（一）：NoSQL起源
这篇文章主要介绍了MongoDB系列教程（一）：NoSQL起源,本文讲解了为什么出现NoSQL、NoSQL历史、SQL和NoSql的区别、NoSQL数据库类型等内容,需要的朋友可以参考下
2015-05-05
MongoDB设置登录账号、密码及权限的详细过程
这篇文章主要给大家介绍了关于MongoDB设置登录账号、密码及权限的详细过程,文中通过代码以及图文介绍的非常详细,对大家学习或者使用MongoDB具有一定的参考借鉴价值,需要的朋友可以参考下
2023-09-09

浅谈MongoDB内部的存储原理

目录

存储引擎

btree与b+tree

cache

page

WAL(journal)

分布式存储

架构

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具