Redis中 HyperLogLog数据类型使用小结

 更新时间:2023年03月13日 08:24:38   作者:香吧香  
Redis使用HyperLogLog的主要作用是在大数据流(view,IP,城市)的情况下进行去重计数,这篇文章主要介绍了Redis中 HyperLogLog数据类型使用总结,需要的朋友可以参考下

1. HyperLogLog 的原理

  Redis HyperLogLog基于一种称为HyperLogLog算法的概率性算法来估计基数。 HyperLogLog使用一个长度为m的位数组和一些hash函数来估计集合中的唯一元素数。

在 HyperLogLog 算法中,对每个元素进行哈希处理,把哈希值转换为二进制后,根据二进制串前缀中 1 的个数来给每个元素打分。例如,一个元素的哈希值为01110100011,那么前缀中1的个数是3,因此在 HyperLogLog 算法中,这个元素的分数为3。

  当所有元素的分数统计完之后,取每一个分数的倒数(1 / 2^n),然后将这些倒数相加后取倒数,就得到一个基数估计值,这个值就是HyperLogLog算法的估计结果。

  HyperLogLog算法通过对位数组的长度m的大小进行取舍,折衷数据结构占用的内存与估计值的精准度(即估计误差),得到了在数据占用空间与错误较小程度之间完美的平衡。

  简而言之,HyperLogLog算法的核心思想是基于哈希函数和位运算,通过将哈希值转换成比特流并统计前导0的个数,从而快速估算大型数据集中唯一值的数量。通过 hyperloglog 算法我们可以在非常大的数据集中进行极速的网页浏览器去重。

2.使用步骤:

  Redis HyperLogLog是一种可用于估算集合中元素数量的数据结构,它能够通过使用非常少的内存来维护海量的数据。它的精确度要比使用一般的估计算法高,并且在处理大量数据时的速度也非常快。

  一个简单的例子,我们可以用HyperLogLog来计算访问网站的独立IP数,具体可以按以下步骤操作:

  • 首先创建一个HyperLogLog数据结构:  PFADD hll:unique_ips 127.0.0.1
  • 为每次访问ip添加到unique_ips数据结构中: PFADD hll:unique_ips 192.168.1.1
  • 获取计算集合中元素数量的近似值: PFCOUNT hll:unique_ips
  • 可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。

  需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。

3.实现请求ip去重的浏览量使用示例

4.Jedis客户端使用

  1. 添加依赖,引入jedis依赖:

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>3.6.0</version>
</dependency>

  2.创建一个Jedis对象:

Jedis jedis = new Jedis("localhost");

  3.向HyperLogLog数据结构添加元素:

jedis.pfadd("hll:unique_ips", "127.0.0.1");

  4.获取计算集合中元素数量的近似值:

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

  5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE命令来合并HyperLogLog数据结构:

jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");

5.Redission使用依赖

  1.创建RedissonClient对象

Config config = new Config();
config.useSingleServer().setAddress("redis://localhost:6379");
RedissonClient redisson = Redisson.create(config);

  2.创建RHyperLogLog对象

RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");

  3.添加元素

uniqueIps.add("127.0.0.1");

  4..获取近似数量

long approximateCount = uniqueIps.count();
System.out.println(approximateCount);

  5.合并多个HyperLogLog对象

RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
uniqueIps.mergeWith(uniqueIps1, uniqueIps2);

6.HyperLogLog 提供了哪些特性和方法

  特性:

  • 精确度低,但占用内存极少。
  • 支持插入新元素,同时不会重复计数。
  • 提供指令来优化内存使用和计数准确性。例如PFADD、PFCOUNT、PFMERGE等指令。
  • 能够估计一个数据集中的不同元素数量,即集合的基数(cardinality)。
  • 支持对多个HyperLogLog对象进行合并操作,以获得这些集合的总基数的近似值。

  HyperLogLog常用的方法:

  • PFADD key element [element ...]:添加一个或多个元素到HyperLogLog结构中。
  • PFCOUNT key [key ...]:获取一个或多个HyperLogLog结构的基数估计值。
  • PFMERGE destkey sourcekey [sourcekey ...]:合并一个或多个HyperLogLog结构到一个目标结构中。
  • PFSELFTEST [numtests]: 测试HyperLogLog估值性能和准确性(仅限Redis4.0+版本)

  需要注意的是,HyperLogLog虽然可以节省大量内存,但仍然是一种估计算法,误差范围并不是完全精确的,并且具有一定的计算成本。在使用时需要根据实际应用情况选择是否使用HyperLogLog或其他数据结构来估计元素数量。

7.使用场景总结:

  Redis使用HyperLogLog的主要作用是在大数据流(view,IP,城市)的情况下进行去重计数。

  具体来说,以下是Redis HyperLogLog用于去重计数的一些场景:

  • 统计页面访问量 - 在Web应用程序中, HyperLogLog可以使用为每个页面计算多少次独特的访问者。通过跨越多个不同的时间段使用HyperLogLog,可以计算出这个页面的所有时间的平均访问数。
  • 统计用户数 - 在分析大数据集合的用户数量方面,HyperLogLog也非常有用。作为一种基于概率的数据结构,尤其是在处理独特的用户ID这样的数据集合时。在此情况下,HyperLogLog首先执行散列,此后仅在内部存储有限的散列值,同时还能够推断大小。
  • 统计广告点击量 - 对于网站或应用程序的广告分析,HyperLogLog可以用于捕获有效点击数量,即非重复或唯一点击数量。

总之,对于需要进行去重计数的大数据流的情况下,Redis的HyperLogLog是一种简单而强大的工具。

到此这篇关于Redis中 HyperLogLog数据类型使用总结的文章就介绍到这了,更多相关Redis HyperLogLog数据类型使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • redis for windows 6.2.6安装包最新步骤详解

    redis for windows 6.2.6安装包最新步骤详解

    这篇文章主要介绍了redis for windows 6.2.6安装包全网首发,使用Windows计划任务自动运行redis服务,文章给大家讲解的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-04-04
  • 5分钟教你docker安装启动redis全教程(全新方式)

    5分钟教你docker安装启动redis全教程(全新方式)

    今天,我来带大家使用一种全新的方式docker来安装redis,首先我们来了解一下什么是redis以及我们为什么要使用redis,以及它的优缺点,感兴趣的朋友跟随小编一起学习下吧
    2021-05-05
  • Windows操作系统下Redis服务安装图文教程

    Windows操作系统下Redis服务安装图文教程

    这篇文章主要介绍了Windows操作系统下Redis服务安装图文教程,文中给大家提供了redis的下载地址,安装程序步骤,需要的朋友可以参考下
    2018-03-03
  • 详解如何在Windows上配置和使用Redis持久化功能

    详解如何在Windows上配置和使用Redis持久化功能

    Redis 是一个强大的内存数据库,常用于缓存和实时数据处理,然而,由于其内存特性,一旦服务器重启或故障,存储在 Redis 中的数据可能会丢失,为了确保数据的安全性和持久性,Redis 提供了多种持久化机制,本文将详细介绍如何在 Windows 上配置和使用 Redis 的持久化功能
    2024-08-08
  • Redis的Bitmap(位图)详解和命令演示

    Redis的Bitmap(位图)详解和命令演示

    Redis的位图是由多个二进制位组成的数组,数组中的每个二进制位都有与之对应的偏移量,用户通过这些偏移量可以对位图中指定的一个或多个二进制位进行操作,这篇文章主要给大家介绍了关于Redis的Bitmap(位图)详解和命令演示的相关资料,需要的朋友可以参考下
    2024-08-08
  • redis在Linux系统下的环境配置和redis的全局命令大全

    redis在Linux系统下的环境配置和redis的全局命令大全

    在Linux系统中我们经常使用Redis作为高性能的缓存数据库,然而有时候我们需要在系统中多个地方使用Redis命令,这就需要将Redis的全局命令设置好,这篇文章主要给大家介绍了关于redis在Linux系统下的环境配置和redis的全局命令大全的相关资料,需要的朋友可以参考下
    2024-05-05
  • 一篇文章让你明白Redis主从同步

    一篇文章让你明白Redis主从同步

    今天小编就为大家分享一篇关于一篇文章让你明白Redis主从同步,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-02-02
  • Redis主从复制详解

    Redis主从复制详解

    今天小编就为大家分享一篇关于Redis主从复制详解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-01-01
  • 配置redis的序列化,注入RedisTemplate方式

    配置redis的序列化,注入RedisTemplate方式

    这篇文章主要介绍了配置redis的序列化,注入RedisTemplate方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12
  • Redis密码设置与访问限制实现方法

    Redis密码设置与访问限制实现方法

    这篇文章主要介绍了Redis密码设置与访问限制实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11

最新评论