Redis中 HyperLogLog数据类型使用小结

更新时间：2023年03月13日 08:24:38 作者：香吧香

Redis使用HyperLogLog的主要作用是在大数据流（view，IP，城市）的情况下进行去重计数，这篇文章主要介绍了Redis中 HyperLogLog数据类型使用总结,需要的朋友可以参考下

1. HyperLogLog 的原理

　　Redis HyperLogLog基于一种称为HyperLogLog算法的概率性算法来估计基数。 HyperLogLog使用一个长度为m的位数组和一些hash函数来估计集合中的唯一元素数。

在 HyperLogLog 算法中，对每个元素进行哈希处理，把哈希值转换为二进制后，根据二进制串前缀中 1 的个数来给每个元素打分。例如，一个元素的哈希值为01110100011，那么前缀中1的个数是3，因此在 HyperLogLog 算法中，这个元素的分数为3。

　　当所有元素的分数统计完之后，取每一个分数的倒数（1 / 2^n），然后将这些倒数相加后取倒数，就得到一个基数估计值，这个值就是HyperLogLog算法的估计结果。

　　HyperLogLog算法通过对位数组的长度m的大小进行取舍，折衷数据结构占用的内存与估计值的精准度（即估计误差），得到了在数据占用空间与错误较小程度之间完美的平衡。

　　简而言之，HyperLogLog算法的核心思想是基于哈希函数和位运算，通过将哈希值转换成比特流并统计前导0的个数，从而快速估算大型数据集中唯一值的数量。通过 hyperloglog 算法我们可以在非常大的数据集中进行极速的网页浏览器去重。

2.使用步骤：

　　Redis HyperLogLog是一种可用于估算集合中元素数量的数据结构，它能够通过使用非常少的内存来维护海量的数据。它的精确度要比使用一般的估计算法高，并且在处理大量数据时的速度也非常快。

　　一个简单的例子，我们可以用HyperLogLog来计算访问网站的独立IP数，具体可以按以下步骤操作：

首先创建一个HyperLogLog数据结构：　　PFADD hll:unique_ips 127.0.0.1
为每次访问ip添加到unique_ips数据结构中： PFADD hll:unique_ips 192.168.1.1
获取计算集合中元素数量的近似值: PFCOUNT hll:unique_ips
可以通过对多个HyperLogLog结构（例如按天或按小时）的合并，来获得更精确的计数。

　　需要注意的是，HyperLogLog虽然可以节省大量的内存，但它是一种估计算法，误差范围并不是完全精确的，实际使用时应注意其适用范围。

3.实现请求ip去重的浏览量使用示例

4.Jedis客户端使用

　　1. 添加依赖，引入jedis依赖：

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>3.6.0</version>
</dependency>

　　2.创建一个Jedis对象：

Jedis jedis = new Jedis("localhost");

　　3.向HyperLogLog数据结构添加元素：

jedis.pfadd("hll:unique_ips", "127.0.0.1");

　　4.获取计算集合中元素数量的近似值：

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

　　5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE命令来合并HyperLogLog数据结构：

jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");

5.Redission使用依赖

　　1.创建RedissonClient对象

Config config = new Config();
config.useSingleServer().setAddress("redis://localhost:6379");
RedissonClient redisson = Redisson.create(config);

　　2.创建RHyperLogLog对象

RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");

　　3.添加元素

uniqueIps.add("127.0.0.1");

　　4..获取近似数量

long approximateCount = uniqueIps.count();
System.out.println(approximateCount);

　　5.合并多个HyperLogLog对象

RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
uniqueIps.mergeWith(uniqueIps1, uniqueIps2);

6.HyperLogLog 提供了哪些特性和方法

　　特性：

精确度低，但占用内存极少。
支持插入新元素，同时不会重复计数。
提供指令来优化内存使用和计数准确性。例如PFADD、PFCOUNT、PFMERGE等指令。
能够估计一个数据集中的不同元素数量，即集合的基数(cardinality)。
支持对多个HyperLogLog对象进行合并操作，以获得这些集合的总基数的近似值。

　　HyperLogLog常用的方法：

PFADD key element [element ...]：添加一个或多个元素到HyperLogLog结构中。
PFCOUNT key [key ...]：获取一个或多个HyperLogLog结构的基数估计值。
PFMERGE destkey sourcekey [sourcekey ...]：合并一个或多个HyperLogLog结构到一个目标结构中。
PFSELFTEST [numtests]: 测试HyperLogLog估值性能和准确性(仅限Redis4.0+版本)

　　需要注意的是，HyperLogLog虽然可以节省大量内存，但仍然是一种估计算法，误差范围并不是完全精确的，并且具有一定的计算成本。在使用时需要根据实际应用情况选择是否使用HyperLogLog或其他数据结构来估计元素数量。

7.使用场景总结：

　　Redis使用HyperLogLog的主要作用是在大数据流（view，IP，城市）的情况下进行去重计数。

　　具体来说，以下是Redis HyperLogLog用于去重计数的一些场景：

统计页面访问量 - 在Web应用程序中， HyperLogLog可以使用为每个页面计算多少次独特的访问者。通过跨越多个不同的时间段使用HyperLogLog，可以计算出这个页面的所有时间的平均访问数。
统计用户数 - 在分析大数据集合的用户数量方面，HyperLogLog也非常有用。作为一种基于概率的数据结构，尤其是在处理独特的用户ID这样的数据集合时。在此情况下，HyperLogLog首先执行散列，此后仅在内部存储有限的散列值，同时还能够推断大小。
统计广告点击量 - 对于网站或应用程序的广告分析，HyperLogLog可以用于捕获有效点击数量，即非重复或唯一点击数量。

总之，对于需要进行去重计数的大数据流的情况下，Redis的HyperLogLog是一种简单而强大的工具。

到此这篇关于Redis中 HyperLogLog数据类型使用总结的文章就介绍到这了,更多相关Redis HyperLogLog数据类型使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Redis实现验证码发送并限制每日发送次数的示例代码
本文主要介绍了Redis实现验证码发送并限制每日发送次数的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-04-04
Redis安装启动及常见数据类型
这篇文章主要介绍了Redis安装启动及常见数据类型,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-04-04
Redis中SDS简单动态字符串详解
Redis中的SDS（Simple Dynamic String）是一种自动扩容的字符串实现方式，它可以提供高效的字符串操作，并且支持二进制安全。SDS的设计使得它可以在O(1)时间内实现字符串长度的获取和修改，同时也可以在O(N)的时间内进行字符串的拼接和截取。
2023-04-04
你了解Redis事务吗
说到事务，大家会立刻想到Mysql的事务，所谓的事务就是对数据进行一系列的操作，要么都执行成功，要么都执行失败，下面就介绍一下Redis如何实现事务，感兴趣的可以了解一下
2022-08-08
RedisTemplate集成+封装RedisUtil过程
本文介绍了如何搭建一个多模块的Redis项目,包括项目搭建、配置和测试,通过使用父项目管理多个子模块,可以实现单点构建、统一版本管理和清晰的项目结构,文章还提供了在Spring Boot项目中集成RedisTemplate的示例,并解决了编码问题
2024-12-12
通过redis的脚本lua如何实现抢红包功能
这篇文章主要给大家介绍了关于通过redis的脚本lua如何实现抢红包功能的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2020-05-05
如何查看redis服务的版本
这篇文章主要介绍了如何查看redis服务的版本问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-01-01
Redis教程(十)：持久化详解
这篇文章主要介绍了Redis教程(十)：持久化详解,本文讲解了Redis提供了哪些持久化机制、RDB机制的优势和劣势、AOF机制的优势和劣势、其它等内容,需要的朋友可以参考下
2015-04-04
Redis遍历海量数据的实现示例
本文主要介绍了 Redis遍历海量数据的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2025-04-04
k8s部署redis集群实现过程实例详解
这篇文章主要为大家介绍了k8s部署redis集群实现过程实例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-02-02