实现数据库水平切分的两个思路

更新时间：2019年03月19日 17:18:51 作者：CODETC

今天小编就为大家分享一篇关于实现数据库水平切分的两个思路，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

引言

随着互联网应用的广泛普及，海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用，每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能，横向扩展数据层已经成为架构研发人员首选的方式。

水平切分数据库：可以降低单台机器的负载，同时最大限度的降低了宕机造成的损失；
负载均衡策略：可以降低单台机器的访问负载，降低宕机的可能性；
集群方案：解决了数据库宕机带来的单点数据库不能访问的问题；
读写分离策略：最大限度了提高了应用中读取数据的速度和并发量；

为什么要数据切分

上面对什么是数据切分做了个概要的描述和解释，读者可能会疑问，为什么需要数据切分呢？像Oracle这样成熟稳定的数据库，足以支撑海量数据的存储与查询了？为什么还需要数据切片呢？

的确，Oracle的DB确实很成熟很稳定，但是高昂的使用费用和高端的硬件支撑不是每一个公司能支付的起的。试想一下一年几千万的使用费用和动辄上千万元的小型机作为硬件支撑，这是一般公司能支付的起的吗？即使就是能支付的起，假如有更好的方案，有更廉价且水平扩展性能更好的方案，我们为什么不选择呢？

我们知道每台机器无论配置多么好它都有自身的物理上限，所以当我们应用已经能触及或远远超出单台机器的某个上限的时候，我们惟有寻找别的机器的帮助或者继续升级的我们的硬件，但常见的方案还是横向扩展，通过添加更多的机器来共同承担压力。我们还得考虑当我们的业务逻辑不断增长，我们的机器能不能通过线性增长就能满足需求？Sharding可以轻松的将计算，存储，I/O并行分发到多台机器上，这样可以充分利用多台机器各种处理能力，同时可以避免单点失败，提供系统的可用性，进行很好的错误隔离。

综合以上因素，数据切分是很有必要的。我们用免费的MySQL和廉价的Server甚至是PC做集群，达到小型机+大型商业DB的效果，减少大量的资金投入，降低运营成本，何乐而不为呢？

在大中型项目中，在数据库设计的时候，考虑到数据库最大承受数据量，通常会把数据库或者数据表水平切分，以降低单个库，单个表的压力。这里介绍两个项目中常用的数据表切分方法。当然这些方法都是在程序中?使用一定的技巧来路由到具体的表的。首先我们要确认根据什么来水平切分？在我们的系统（SNS）中，用户的UID贯穿系统，唯一自增长，根据这个字段分表，再好不过。

方法一：使用MD5哈希

做法是对UID进行md5加密，然后取前几位（我们这里取前两位），然后就可以将不同的UID哈希到不同的用户表（user_xx）中了。

function getTable( $uid ){
 $ext = substr ( md5($uid) ,0 ,2 );
 return "user_".$ext;
}

通过这个技巧，我们可以将不同的UID分散到256中用户表中，分别是user_00,user_01 ...... user_ff。因为UID是数字且递增，根据md5的算法，可以将用户数据几乎很均匀的分别到不同的user表中。

但是这里有个问题是，如果我们的系统的用户越来越多，势必单张表的数据量越来越大，而且根据这种算法无法扩展表，这又会回到文章开头出现的问题了。

方法二：使用移位

具体方法是：

public function getTable( $uid ) {
 return "user_" . sprintf( "d", ($uid >> 20) );
}

这里，我们将uid向右移动20位，这样我们就可以把大约前100万的用户数据放在第一个表user_0000,第二个100万的用户数据放在第二个表user_0001中，这样一直下去，如果我们的用户越来越多，直接添加用户表就行了。由于我们保留的表后缀是四位，这里我们可以添加1万张用户表，即user_0000,user_0001 ...... user_9999。一万张表，每张表100万数据，我们可以存100亿条用户记录。当然，如果你的用户数据比这还多，也不要紧，你只要改变保留表后缀来增加可以扩展的表就行了，如如果有1000亿条数据，每个表存100万，那么你需要10万张表，我们只要保留表后缀为6位即可。

上面的算法还可以写的灵活点：

/**
 * 根据UID分表算法
 * @param int $uid //用户ID
 * @param int $bit  //表后缀保留几位
 * @param int $seed //向右移动位数
 */
function getTable( $uid , $bit , $seed ){
 return "user_" . sprintf( "%0{$bit}d" , ($uid >> $seed) );
}

小结

上面两种方法，都要对我们当前系统的用户数据量做出可能最大的预估，并且对数据库单个表的最大承受量做出预估。

比如第二种方案，如果我们预估我们系统的用户是100亿，单张表的最优数据量是100万，那么我们就需要将UID移动20来确保每个表是100万的数据，保留用户表（user_xxxx）四位来扩展1万张表。

又如第一种方案，每张表100万，md5后取前两位，就只能有256张表了，系统总数据库就是：256*100万；如果你系统的总数据量的比这还多，那你实现肯定要MD5取前三位或者四位甚至更多位了。

两种方法都是将数据水平切分到不同的表中，相对第一种方法，第二种方法更具扩展性。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

解读mysql删除操作和查询操作哪个更消耗性能
文章讨论了MySQL中删除操作比查询操作更消耗性能的原因,包括表级锁定、磁盘空间浪费、索引稀疏化和事务日志膨胀,同时,文章还提出了一些减少删除操作对性能影响的策略,如确保表上有合适的索引、分批次删除和使用合适的WHERE条件
2025-02-02
安装MySQL后include目录下没有找到libmysql.lib
安装了MySQL后，在其安装目录下的include文件夹并没有找到libmysql.lib，主要原因是在安装MySQL的时候，没有勾选develop component这一选项造成的
2014-08-08
MySQL 获得当前日期时间函数
这篇文章主要介绍了MySQL 获得当前日期时间函数非常不错，具有参考借鉴价值,需要的朋友可以参考下
2017-07-07
mysql全量备份、增量备份实现方法
这篇文章主要介绍了mysql全量备份、增量备份实现方法,需要的朋友可以参考下
2016-12-12
MySQL学习笔记5：修改表(alter table)
我们在创建表的过程中难免会考虑不周，因此后期会修改表修改表需要用到alter table修改表语句，接下来详细介绍，需要的朋友可以参考下
2013-01-01
详解数据库语言中的null值
这篇文章主要详解了数据库语言中的null值,针对MySQL上的实例进行讲解,需要的朋友可以参考下
2015-04-04
几个比较重要的MySQL变量
这篇文章主要介绍了几个比较重要的MySQL变量，具有一定参考价值，需要的朋友可以了解下。
2017-10-10
解决windows下mysql8修改my.ini设置datadir后无法启动问题
在修改MySQL的my.ini文件以更改数据目录后,可能会遇到无法启动的问题,这通常是因为字符编码被改变或新路径权限不足,正确的做法是备份my.ini文件,确保使用ANSI字符编码修改datadir,并确保新路径有足够的权限,特别是SYSTEM或NETWORKSERVICE权限
2025-01-01
Mysql分组排序取每组第一条的2种实现方式
开发中经常会遇到,分组查询最新数据的问题,下面这篇文章主要给大家介绍了关于Mysql分组排序取每组第一条的2种实现方式,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-02-02
windows10安装mysql5.7.18教程
windows10安装mysql5.7.18是这样安装的吗？这篇文章主要为大家详细介绍了win10下mysql5.7.18安装配置方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-04-04

实现数据库水平切分的两个思路

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具