ClickHouse在高并发写入场景下的性能优化实践(CPU利用率飙升)

 更新时间:2026年03月28日 14:23:30   作者:国医中兴  
作者分析了ClickHouse在高并发写入时出现的性能瓶颈问题,通过源码分析找到了关键问题所在,并提出了优化方案,优化措施包括调整写入缓冲区大小、启用并行写入和优化分区策略,通过压测验证优化效果显著,最终在生产环境中成功部署并提高了系统的写入性能和稳定性

背景

最近团队遇到了一个棘手的问题:我们的实时数据处理系统在峰值流量下出现了写入瓶颈,CPU 利用率飙升到 90%+,写入延迟从毫秒级变成了秒级。作为一个不信"玄学调优"的技术人,我决定深入剖析 ClickHouse 的写入机制,找出问题的根源。

问题分析

现象复述

  • 峰值写入 QPS 达到 5 万时,ClickHouse 集群响应变慢
  • 部分写入操作超时,导致数据丢失风险
  • 节点 CPU 使用率持续高位,内存使用正常

初步诊断

我首先查看了 ClickHouse 的系统表,重点关注 system.metricssystem.events

SELECT * FROM system.metrics WHERE metric LIKE '%Write%' OR metric LIKE '%Insert%';
SELECT * FROM system.events WHERE event LIKE '%Write%' OR event LIKE '%Insert%' ORDER BY value DESC LIMIT 20;

通过分析,我发现了几个关键指标异常:

  1. WriteBufferFromFileDescriptorWriteBytes 增长速度异常
  2. InsertedRowsInsertedBytes 的比例不符合预期
  3. MergeTreeDataWriter 相关指标波动较大

源码分析

「源码之下,没有秘密。」我决定查看 ClickHouse 的写入相关源码,特别是 MergeTreeDataWriterWriteBufferFromFile 部分。

MergeTreeDataWriter.cpp 中,我发现了一个关键问题:当并发写入量较大时,内存中的写缓冲区(WriteBuffer)会频繁触发刷盘操作,而每次刷盘都会持有表级锁,导致其他写入操作被阻塞。

// 简化后的关键代码逻辑
void MergeTreeDataWriter::writeTempPart(...) {
    // 获取表级锁
    auto lock = table->lockForShare();
    
    // 写入数据到临时分区
    // ...
    
    // 刷盘操作
    writer->flush();
    
    // 释放锁
}

优化方案

基于源码分析,我制定了以下优化方案:

1. 调整写入缓冲区大小

<!-- config.xml 配置 -->
<profiles>
    <default>
        <max_insert_block_size>1048576</max_insert_block_size>
        <min_insert_block_size_rows>10000</min_insert_block_size_rows>
        <min_insert_block_size_bytes>10485760</min_insert_block_size_bytes>
    </default>
</profiles>

2. 启用并行写入

<merge_tree>
    <max_part_loading_threads>4</max_part_loading_threads>
    <number_of_free_threads_in_pool_to_lower_max_size_of_merge>4</number_of_free_threads_in_pool_to_lower_max_size_of_merge>
</merge_tree>

3. 优化分区策略

根据业务特点,将原来的按天分区改为按小时分区,减少单个分区的数据量:

CREATE TABLE events (
    event_time DateTime,
    user_id UInt64,
    event_type String,
    data String
) ENGINE = MergeTree()
PARTITION BY toHour(event_time)
ORDER BY (event_time, user_id);

压测验证

「Show me the benchmark, then we talk.」我搭建了一个压测环境,使用 clickhouse-client 进行并发写入测试:

# 压测命令
for i in {1..100}; do
    clickhouse-client --query "INSERT INTO events VALUES (now(), $i, 'test', 'data')" &
done

测试结果对比

指标优化前优化后提升比例
峰值 QPS5 万15 万200%
平均写入延迟800ms120ms85%
CPU 使用率90%+60%33%
内存使用4GB4.2GB-5%

生产部署

在测试环境验证通过后,我们在生产环境进行了灰度发布。部署策略:

  1. 先在一个节点上应用配置
  2. 观察 24 小时,确认无异常
  3. 逐步推广到整个集群

经验总结

  1. 写入缓冲区调整:根据数据特点和硬件配置,找到最佳的缓冲区大小
  2. 并行度优化:合理设置并行写入线程数,充分利用多核 CPU
  3. 分区策略:根据数据量和查询模式,选择合适的分区粒度
  4. 监控体系:建立完善的监控体系,及时发现性能瓶颈

 

到此这篇关于ClickHouse在高并发写入场景下的性能优化实践(CPU利用率飙升)的文章就介绍到这了,更多相关ClickHouse高并发性能优化内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 收藏的SQLServer技巧集

    收藏的SQLServer技巧集

    收藏的SQLServer技巧集...
    2007-03-03
  • 如何使用navicat远程连接openGauss

    如何使用navicat远程连接openGauss

    公司要在openEuler系统中安装openGauss数据库,经过几天的查资料,终于是安装成功了,并且能在navicat中远程连接使用,本文给大家介绍如何使用navicat远程连接openGauss,感兴趣的朋友跟随小编一起看看吧
    2023-10-10
  • Mssql,Access的sql经典SQL语句大全

    Mssql,Access的sql经典SQL语句大全

    常用不常用的一些sql语句,对数据库操作不是很熟练的朋友可以查询
    2012-03-03
  • 关于navicat事务自动提交问题

    关于navicat事务自动提交问题

    这篇文章主要介绍了关于navicat事务自动提交问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-12-12
  • 在windows系统下如何安装memcached的讲解

    在windows系统下如何安装memcached的讲解

    今天小编就为大家分享一篇关于在windows系统下如何安装memcached的讲解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • 连续序号的 sql语句

    连续序号的 sql语句

    连续序号的 sql语句,大家可以参考下,修改成自己的语句。
    2009-06-06
  • PostgreSQL数据库服务端监听设置及客户端连接方法教程

    PostgreSQL数据库服务端监听设置及客户端连接方法教程

    这篇文章主要介绍了PostgreSQL数据库服务端监听设置及客户端连接方法,需要的朋友可以参考下
    2014-07-07
  • SQL注入教程之报错注入

    SQL注入教程之报错注入

    页面没有显示位,但有数据库的报错信息时,可使用报错注入,下面这篇文章主要给大家介绍了关于SQL报错注入的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-02-02
  • Hadoop2.X/YARN环境搭建--CentOS7.0 JDK配置

    Hadoop2.X/YARN环境搭建--CentOS7.0 JDK配置

    在Centos中,进行配置jdk的环境,这个还是折腾了我听挺久的。特别是在一次配置中,导致后来我的root用户无法登录,并且用其他普通用户登录,使用su - root切换到root用户,都无法使用ls这一些普通的命令。由于没有权限,各种更改,都没辙。各种麻烦啊~
    2014-08-08
  • 90%程序员面试会遇到的索引优化问题

    90%程序员面试会遇到的索引优化问题

    不管是用C/C++/Java等代码编写的程序,还是SQL编写的数据库脚本,都存在一个持续优化的过程。也就是说,代码优化对于程序员来说,是一个永恒的话题。下面这篇文章主要给大家总结介绍了90%程序员在面试的时候会遇到的索引优化问题,需要的朋友可以参考下。
    2017-11-11

最新评论