解决 Redis 数据倾斜、热点等问题

更新时间：2022年12月13日 11:46:04 作者：洗刷先生

单台机器的硬件配置有上限制约，一般我们会采用分布式架构将多台机器组成一个集群，这篇文章主要介绍了解决 Redis 数据倾斜、热点等问题,需要的朋友可以参考下

1.如果redis集群出现数据倾斜，数据分配不均，该如何解决？

2.处理hotKey时，为key创建多个副本，如k-1，k-2…，如何让这些副本能均匀写入？如何均匀访问？

3.redis使用hash slot来维护集群。与一致性哈希类似，都可以避免全量迁移。为什么不直接使用一致性hash？

分布式缓存作为性能加速器，在系统优化中承担着非常重要的角色。相比本地缓存，虽然增加了一次网络传输，大约占用不到 1 毫秒外，但是却有集中化管理的优势，并支持非常大的存储容量。

分布式缓存领域，目前应用比较广泛的要数 Redis 了，该框架是纯内存储存，单线程执行命令，拥有丰富的底层数据结构，支持多种维度的数据存储和查找。

当然，数据量一大，各种问题就出现了，比如：数据倾斜、数据热点等

什么是数据倾斜？

单台机器的硬件配置有上限制约，一般我们会采用分布式架构将多台机器组成一个集群，下图的集群就是由三台Redis单机组成。客户端通过一定的路由策略，将读写请求转发到具体的实例上。

由于业务数据特殊性，按照指定的分片规则，可能导致不同的实例上数据分布不均匀，大量的数据集中到了一台或者几台机器节点上计算，从而导致这些节点负载多大，而其他节点处于空闲等待中，导致最终整体效率低下。

数据倾斜有哪些原因呢？

1、存在大key

比如存储一个或多个 String 类型的 bigKey 数据，内存占用很大。

Tom哥之前排查过这种问题，有同事开发时为了省事，采用JSON格式，将多个业务数据合并到一个 value，只关联一个key，导致了这个键值对容量达到了几百M。

频繁的大key读写，内存资源消耗比较重，同时给网络传输带了极大的压力，进而导致请求响应变慢，引发雪崩效应，最后系统各种超时报警。

解决方案：

办法非常简单，采用化整为零的策略，将一个bigKey拆分为多个小key，独立维护，成本会降低很多。当然这个拆也讲究些原则，既要考虑业务场景也要考虑访问场景，将关联紧密的放到一起。

比如：有个RPC接口内部对 Redis 有依赖，之前访问一次就可以拿到全部数据，拆分将要控制单值的大小，也要控制访问的次数，毕竟调用次数增多了，会拉大整体的接口响应时间。

2、HashTag 使用不当

Redis 采用单线程执行命令，从而保证了原子性。当采用集群部署后，为了解决mset、lua 脚本等对多key 批量操作，为了保证不同的 key 能路由到同一个 Redis 实例上，引入了 HashTag 机制。

用法也很简单，使用{}大括号，指定key只计算大括号内字符串的哈希，从而将不同key的健值对插入到同一个哈希槽。

举个例子：

192.168.0.1:6380> CLUSTER KEYSLOT testtag
(integer) 764
192.168.0.1:6380> CLUSTER KEYSLOT {testtag}
(integer) 764
192.168.0.1:6380> CLUSTER KEYSLOT mykey1{testtag}
(integer) 764
192.168.0.1:6380> CLUSTER KEYSLOT mykey2{testtag}
(integer) 764

check 下业务代码，有没有引入HashTag，将太多的key路由到了一个实例。结合具体场景，考虑如何做下拆分。

就像 RocketMQ 一样，很多时候只要能保证分区有序，就可以满足我们的业务需求。具体实战中，要找到这个平衡点，而不是为了解决问题而解决问题。

3、slot 槽位分配不均

如果采用 Redis Cluster 的部署方式，集群中的数据库被分为16384个槽（slot），数据库中的每个健都属于这16384个槽的其中一个，集群中的每个节点可以处理的0个或最多16384个槽。

你可以手动做迁移，将一个比较大的 slot 迁移到稍微空闲的机器上，保证存储和访问的均匀性。

什么是缓存热点？

缓存热点是指大部分甚至所有的业务请求都命中同一份缓存数据，给缓存服务器带来了巨大压力，甚至超过了单机的承载上限，导致服务器宕机。

解决方案：

1、复制多份副本

我们可以在key的后面拼上有序编号，比如key#01、key#02。。。key#10多个副本，这些加工后的key位于多个缓存节点上。

客户端每次访问时，只需要在原key的基础上拼接一个分片数上限的随机数，将请求路由不到的实例节点。

注意：缓存一般都会设置过期时间，为了避免缓存的集中失效，我们对缓存的过期时间尽量不要一样，可以在预设的基础上增加一个随机数。

至于数据路由的均匀性，这个由 Hash 算法来保证

2、本地内存缓存

把热点数据缓存在客户端的本地内存中，并且设置一个失效时间。对于每次读请求，将首先检查该数据是否存在于本地缓存中，如果存在则直接返回，如果不存在再去访问分布式缓存的服务器。

好思路

本地内存缓存彻底“解放”了缓存服务器，不会对缓存服务器有任何压力。

缺点：实时感知最新的缓存数据有点麻烦，会产生数据不一致的情况。我们可以设置一个比较短的过期时间，采用被动更新。当然，也可以用监控机制，如果感知到数据已经发生了变化，及时更新本地缓存。

Redis Cluster 为什么不用一致性Hash?

Redis Cluster 集群有16384个哈希槽，每个key通过CRC16校验后对16384取模来决定放置哪个槽。集群的每个节点负责一部分hash槽，举个例子，比如当前集群有3个节点，那么 node-1 包含 0 到 5460 号哈希槽，node-2 包含 5461 到 10922 号哈希槽，node-3包含 10922 到 16383 号哈希槽。

一致性哈希算法是 1997年麻省理工学院的 Karger 等人提出了，为的就是解决分布式缓存的问题。

一致性哈希算法本质上也是一种取模算法，不同于按服务器数量取模，一致性哈希是对固定值 2^32 取模。

公式 = hash（key） % 2^32

其取模的结果必然是在 [0, 2^32-1] 这个区间中的整数，从圆上映射的位置开始顺时针方向找到的第一个节点即为存储key的节点

一致性哈希算法大大缓解了扩容或者缩容导致的缓存失效问题，只影响本节点负责的那一小段key。如果集群的机器不多，且平时单机的负载水位很高，某个节点宕机带来的压力很容易引发雪崩效应。

举个例子：

Redis 集群总共有4台机器，假设数据分布均衡，每台机器承担四分之一的流量，如果某一台机器突然挂了，顺时针方向下一台机器将要承担这多出来的四分之一流量，最终要承担二分之一的流量，还是有点恐怖。

但是如果采用 CRC16计算后，并结合槽位与实例的绑定关系，无论是扩容还是缩容，只需将相应节点的key做下数据平滑迁移，广播存储新的槽位映射关系，不会产生缓存失效，灵活性很高。

另外，如果服务器节点配置存在差异化，我们可以自定义分配不同节点负责的 slot 编号，调整不同节点的负载能力，非常方便。

当然可能有些小伙伴会好奇，Redis Cluster 为什么是 16384 个槽位？可以看下 Tom哥之前写的一篇文章

到此这篇关于如何解决 Redis 数据倾斜、热点等问题的文章就介绍到这了,更多相关Redis 数据倾斜、热点内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Redis拒绝连接问题分析与解决方案
在分布式系统中,Redis作为高性能的内存数据库,广泛用于缓存、消息队列、会话管理等场景,然而,随着系统复杂度和并发量的增加,Redis连接问题时有发生,尤其是"拒绝连接"的错误,本文将深入分析Redis拒绝连接的常见原因,并详细讲解每种原因的解决方案
2024-10-10
利用Redis的有序集合实现排行榜功能实例代码
这篇文章主要给大家介绍了关于如何利用Redis的有序集合实现排行榜功能的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者使用Redis具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-03-03
Redis源码解析:集群手动故障转移、从节点迁移详解
这篇文章主要介绍了Redis源码解析:集群手动故障转移、从节点迁移的相关内容，涉及通过集群定时器函数clusterCron实现从节点迁移等知识，具有一定参考价值，需要的朋友可以了解。
2017-10-10
Windows环境部署Redis集群
这篇文章主要为大家详细介绍了Windows环境部署Redis集群的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-05-05
Redis Brpop 命令作用详解
BRPOP 是一个阻塞的列表弹出原语，该命令会按照给出的 key 顺序查看 list，并在找到的第一个非空 list 的尾部弹出一个元素，今天通过本文给大家介绍Redis Brpop 命令相关知识，感兴趣的朋友一起看看吧
2023-07-07
redis三种高可用方式部署的实现
这篇文章主要介绍了redis三种高可用方式部署的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-05-05
redis执行lua脚本的实现方法
redis在2.6推出了脚本功能，允许开发者使用Lua语言编写脚本传到redis中执行。本文就介绍了redis执行lua脚本的实现方法，感兴趣的可以了解一下
2021-11-11
redis+lua实现分布式限流的示例
本文主要介绍了redis+lua实现分布式限流的示例,可以实现复杂的限流逻辑,如滑动窗口限流,并且避免了多步操作导致的并发问题,具有一定的参考价值,感兴趣的可以了解一下
2025-03-03
Redis 数据类型Streams详解
Redis Streams是Redis 5.0新增的数据类型,提供了一种日志结构化数据存储方式,这种类型适合用于构建消息队列、事件日志和处理时间序列数据的应用,本文介绍Redis 数据类型Streams相关知识,感兴趣的朋友一起看看吧
2024-10-10
Linux下Redis集群搭建全过程(主从+哨兵)
这篇文章主要介绍了Linux下Redis集群搭建全过程(主从+哨兵)，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-07-07