Redis HyperLogLog用户统计功能实现代码

更新时间：2026年06月05日 10:57:25 作者：我叫张小白。

本文详细解析了UV（独立访客）统计在互联网产品运营中的的重要性,并对比了传统UV统计方案与HyperLogLog算法的优势,HyperLogLogLog在内存占用、写入性能与统计精度方面表现出色,感兴趣的朋友跟随小编一起看看吧

一、 UV 统计的业务诉求

在互联网产品运营体系中，用户访问量统计是衡量产品活跃度与流量规模的核心指标。其中涉及两个关键概念：

UV（Unique Visitor）独立访客量
指通过互联网访问、浏览该网页的自然人数量。1 天内同一个用户多次访问该网站，仅记录 1 次。UV 反映了产品的真实用户覆盖范围。

PV（Page View）页面访问量
用户每访问网站的一个页面，记录 1 次 PV。用户多次打开同一页面，则记录多次 PV。PV 往往用来衡量网站的总体流量与用户粘性。

1.1 传统 UV 统计方案

UV 统计在服务端实现较为复杂，核心难点在于去重判断。系统需要判断该用户是否已经被统计过，必须将已统计过的用户信息持久化保存。

若采用传统关系型数据库方案，需维护一张 user_visit_log 表，记录 (user_id, visit_date) 的唯一索引。当日活用户突破百万级时，该表将产生以下问题：

存储空间爆炸：百万级用户 × 365 天 = 3.65 亿条记录，索引与数据文件占用数十 GB 磁盘空间。
写入性能劣化：每次用户访问需执行 INSERT IGNORE 或 ON DUPLICATE KEY UPDATE，B+ 树索引频繁分裂与合并，数据库 CPU 与 IO 负载居高不下。
查询延迟飙升：统计某日 UV 需执行 SELECT COUNT(DISTINCT user_id) FROM user_visit_log WHERE date = ?，全表扫描与临时表排序导致响应时间呈指数级上升。

若采用 Redis Set 结构存储每日访问用户 ID，虽可将查询延迟压缩至毫秒级，但内存消耗依然恐怖。假设日活用户 1000 万，每个用户 ID 占用 8 字节（Long 类型），单日数据即需 80MB 内存。全年累计需 29GB 内存，成本高昂且不可持续。

二、 HyperLogLog 的优势

2.1 算法原理与核心特性

HyperLogLog（HLL）是从 LogLog 算法派生的概率算法，用于确定非常大的集合的基数（Cardinality），而不需要存储其所有值。其核心思想是利用概率统计与哈希函数的均匀分布特性，通过观察哈希值的二进制模式中前导零的数量，估算集合中不同元素的数量。

Redis 中的 HLL 是基于 String 结构实现的，单个 HLL 的内存占用永远小于 16KB。这一极致的内存压缩比，使得 HyperLogLog 成为海量数据去重统计的不二之选。

代价与权衡
作为概率算法，HyperLogLog 的测量结果存在小于 0.81% 的标准误差。但对于 UV 统计这类业务场景而言，这一误差完全可以忽略。运营人员关注的是流量趋势与量级，而非精确到个位数的统计结果。

2.2 Redis HyperLogLog 核心命令

命令	功能描述	时间复杂度
`PFADD key element [element ...]`	添加一个或多个元素到 HyperLogLog	O(1)
`PFCOUNT key [key ...]`	计算一个或多个 HyperLogLog 的并集基数	O(N)
`PFMERGE destkey sourcekey [sourcekey ...]`	将多个 HyperLogLog 合并为一个	O(N)

命令详解：

PFADD：向指定 Key 的 HyperLogLog 中添加元素。若元素已存在，不会重复计数。返回值为 1 表示 HyperLogLog 被修改（新增元素），0 表示元素已存在。
PFCOUNT：返回指定 Key 的估算基数。支持传入多个 Key，返回它们的并集去重数量，适用于跨天、跨维度的合并统计。
PFMERGE：将多个源 HyperLogLog 合并到目标 Key 中，适用于数据归档与离线分析。

三、 UV 统计实现与压测验证

3.1 单元测试压测代码

我们通过单元测试向 HyperLogLog 中添加 100 万条数据，验证其内存占用与统计精度：

import redis
import time
def test_hyperloglog():
    # 连接 Redis
    r = redis.Redis(host='127.0.0.1', port=6379, db=0, decode_responses=True)
    # 清空测试 Key
    r.delete('hll:uv:daily')
    # 准备批量添加
    batch_size = 1000
    total_users = 1000000
    start_time = time.time()
    # 批量添加 100 万用户
    for i in range(0, total_users, batch_size):
        users = [f"user_{j}" for j in range(i + 1, min(i + batch_size + 1, total_users + 1))]
        r.pfadd('hll:uv:daily', *users)
    # 统计数量
    uv_count = r.pfcount('hll:uv:daily')
    # 获取内存占用
    memory_used = r.memory_usage('hll:uv:daily')
    elapsed_time = time.time() - start_time
    print(f"实际添加用户数: {total_users}")
    print(f"HyperLogLog 统计结果: {uv_count}")
    print(f"误差率: {abs(uv_count - total_users) / total_users * 100:.4f}%")
    print(f"内存占用: {memory_used} bytes ({memory_used / 1024:.2f} KB)")
    print(f"耗时: {elapsed_time:.4f} 秒")
    print(f"吞吐量: {total_users / elapsed_time:.0f} ops/sec")
if __name__ == "__main__":
    test_hyperloglog()

压测结果分析（典型输出）：

实际添加用户数: 1000000
HyperLogLog 统计结果: 1008542
误差率: 0.8542%
内存占用: 12288 bytes (12.00 KB)
耗时: 2.3456 秒
吞吐量: 426315 ops/sec

结论：

内存占用：仅 12KB，远低于 Set 结构的 80MB（100 万用户）。
统计精度：误差率 0.85%，符合 HyperLogLog 的标准误差范围（< 0.81% 为理论值，实际略有波动）。
写入性能：每秒可处理 42 万次添加操作，完全满足高并发场景。

3.2 UV 统计架构设计

Key 设计规范：

# 日级 UV 统计
uv:daily:{YYYY-MM-DD}  # 例如: uv:daily:2024-01-15
# 月级 UV 统计（通过 PFCOUNT 合并日级数据）
uv:monthly:{YYYY-MM}    # 例如: uv:monthly:2024-01
# 全站历史 UV（通过 PFMERGE 合并月级数据）
uv:lifetime

核心实现代码：

import redis
from datetime import datetime, timedelta
from typing import List
class UVStatisticsService:
    def __init__(self, redis_client: redis.Redis):
        self.redis = redis_client
    def record_visit(self, user_id: int, visit_date: datetime = None):
        """
        记录用户访问
        :param user_id: 用户 ID
        :param visit_date: 访问日期（默认当天）
        """
        if visit_date is None:
            visit_date = datetime.now()
        date_key = visit_date.strftime("%Y-%m-%d")
        key = f"uv:daily:{date_key}"
        # 添加用户到当日 HyperLogLog
        self.redis.pfadd(key, str(user_id))
        # 设置过期时间（保留 90 天数据）
        self.redis.expire(key, 90 * 24 * 60 * 60)
    def get_daily_uv(self, date: datetime = None) -> int:
        """
        获取指定日期的 UV
        :param date: 查询日期（默认当天）
        :return: UV 数量
        """
        if date is None:
            date = datetime.now()
        date_key = date.strftime("%Y-%m-%d")
        key = f"uv:daily:{date_key}"
        return self.redis.pfcount(key)
    def get_date_range_uv(self, start_date: datetime, end_date: datetime) -> int:
        """
        获取日期范围内的 UV（并集统计）
        :param start_date: 开始日期
        :param end_date: 结束日期
        :return: 去重后的 UV 数量
        """
        keys = []
        current_date = start_date
        while current_date <= end_date:
            key = f"uv:daily:{current_date.strftime('%Y-%m-%d')}"
            keys.append(key)
            current_date += timedelta(days=1)
        if not keys:
            return 0
        # 使用 PFCOUNT 计算并集基数
        return self.redis.pfcount(*keys)
    def merge_monthly_uv(self, year: int, month: int):
        """
        合并月度 UV 统计
        :param year: 年份
        :param month: 月份
        """
        # 生成该月所有日期的 Key
        keys = []
        date = datetime(year, month, 1)
        while date.month == month:
            key = f"uv:daily:{date.strftime('%Y-%m-%d')}"
            keys.append(key)
            date += timedelta(days=1)
        # 合并到月度 Key
        monthly_key = f"uv:monthly:{year}-{month:02d}"
        self.redis.pfmerge(monthly_key, *keys)
        # 设置过期时间（保留 2 年）
        self.redis.expire(monthly_key, 2 * 365 * 24 * 60 * 60)

FastAPI 接口实现：

from fastapi import APIRouter, Depends, HTTPException
from datetime import datetime, timedelta
from pydantic import BaseModel
router = APIRouter()
class UVStatsResponse(BaseModel):
    daily_uv: int
    weekly_uv: int
    monthly_uv: int
@router.get("/stats/uv", response_model=UVStatsResponse)
async def get_uv_statistics(
    date: str = None,
    uv_service: UVStatisticsService = Depends(lambda: UVStatisticsService(redis_client))
):
    """
    获取 UV 统计数据
    :param date: 查询日期（YYYY-MM-DD 格式，默认当天）
    :return: 日、周、月 UV 统计
    """
    if date:
        try:
            query_date = datetime.strptime(date, "%Y-%m-%d")
        except ValueError:
            raise HTTPException(status_code=400, detail="Invalid date format")
    else:
        query_date = datetime.now()
    # 日 UV
    daily_uv = uv_service.get_daily_uv(query_date)
    # 周 UV（最近 7 天）
    week_start = query_date - timedelta(days=6)
    weekly_uv = uv_service.get_date_range_uv(week_start, query_date)
    # 月 UV（最近 30 天）
    month_start = query_date - timedelta(days=29)
    monthly_uv = uv_service.get_date_range_uv(month_start, query_date)
    return UVStatsResponse(
        daily_uv=daily_uv,
        weekly_uv=weekly_uv,
        monthly_uv=monthly_uv
    )
@router.post("/visit/record")
async def record_user_visit(
    user_id: int,
    uv_service: UVStatisticsService = Depends(lambda: UVStatisticsService(redis_client))
):
    """
    记录用户访问
    :param user_id: 用户 ID
    """
    uv_service.record_visit(user_id)
    return {"status": "success", "message": "Visit recorded"}

四、 HyperLogLog 与 Bitmap、Set 的对比选型

数据结构	内存占用	精确度	适用场景	核心命令
HyperLogLog	< 16KB（固定）	误差 < 0.81%	海量 UV 统计、去重计数	`PFADD`, `PFCOUNT`
Bitmap	N bits（N=最大值）	100% 精确	连续整数 ID 签到、状态标记	`SETBIT`, `GETBIT`, `BITCOUNT`
Set	N × 8 bytes	100% 精确	中小规模去重集合、交集/并集运算	`SADD`, `SISMEMBER`, `SINTER`

选型建议：

UV 统计（千万级以上）：HyperLogLog，内存占用极低，误差可接受。
用户签到（连续日期）：Bitmap，按日期偏移量存储，支持连续签到统计。
共同关注/好友列表（万级以下）：Set，支持交集、并集等集合运算，精确度高。

五、总结

5.1 核心收益

极致内存效率：单日 UV 统计仅需 12KB 内存，全年 365 天累计仅 4.5MB，相比 Set 结构节省 99.99% 内存。
高性能写入：单机 Redis 可支撑百万级 QPS 的 PV 记录，满足亿级日活产品的统计需求。
灵活聚合能力：通过 PFCOUNT 与 PFMERGE 实现跨天、跨维度的并集统计，支持周报、月报等复杂分析场景。

5.2 优化建议

TTL 过期策略：为日级 UV Key 设置 90 天 TTL，自动清理历史数据，防止内存无限增长。
月度归档：通过定时任务执行 PFMERGE，将日级数据合并为月度 Key，便于长期趋势分析。
误差容忍：业务层需明确 HyperLogLog 的误差特性，避免在财务结算等强一致性场景使用。
监控告警：监控 Redis 内存使用率与 HyperLogLog Key 数量，设置阈值告警，防止内存溢出。

到此这篇关于Redis HyperLogLog用户统计功能实现代码的文章就介绍到这了,更多相关Redis HyperLogLog用户统计内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

如何使用redis的setnx实现分布式锁
Redis Setnx（SET if Not eXists）命令在指定的 key 不存在时,为 key 设置指定的值,这篇文章主要介绍了使用redis的setnx实现分布式锁,需要的朋友可以参考下
2024-06-06
深入理解Redis线程模型的原理及使用
Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的各种指令都需要依次排队执行,下面就来详细的了解一下
2025-11-11
Redis实现限流器的三种方法(小结)
本文主要介绍了Redis实现限流器的三种方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-05-05
Redis源码分析之set 和 sorted set 使用
本文介绍了Redis 中的 set 和 sorted set 使用源码实现分析,Redis 的 Set 是 String 类型的无序集合，集合成员是唯一的，sorted set有序集合和集合一样也是 string 类型元素的集合，对Redis set 和 sorted set使用相关知识感兴趣的朋友一起看看吧
2022-03-03
SpringMVC集成redis配置的多种实现方法
这篇文章主要介绍了SpringMVC集成redis配置的多种实现方法,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-03-03
Redis过期监听机制,订单超时自动取消方式
这篇文章主要介绍了Redis过期监听机制,订单超时自动取消方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-05-05
Redis缓存空间优化实践详解
缓存Redis，是我们最常用的服务，其适用场景广泛，被大量应用到各业务场景中。也正因如此，缓存成为了重要的硬件成本来源，我们有必要从空间上做一些优化，降低成本的同时也会提高性能，本文通过代码示例介绍了redis如何优化缓存空间，需要的朋友可以参考一下
2023-04-04
Redis并发访问问题详细讲解
本文主要介绍了Redis如何应对并发访问，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-12-12
Centos7安装redis的超详细步骤教程
Redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统,下面这篇文章主要介绍了Centos7安装redis的超详细步骤,文中通过图文介绍的非常详细,需要的朋友可以参考下
2024-10-10
Redis高可用集群redis-cluster详解
redis cluster 是redis官方提供的分布式解决方案，在3.0版本后推出的，有效地解决了redis分布式的需求，当一个redis节点挂了可以快速的切换到另一个节点，对redis-cluster高可用集群相关知识感兴趣的朋友一起看看吧
2022-03-03