Kafka高效读写数据的原因及如何提升Kafka的吞吐量

更新时间：2026年05月02日 15:33:08 作者：ha_lydms

本文主要介绍了Kafka的高效读写数据的原因及如何提升Kafka的吞吐量,Kafka通过分区、稀疏索引等零拷贝等技术提高了读写效率,增加缓冲区大小、调整batch、linger等参数可以提升生产者端的吞吐量,调整fetch.max.size等max.poll.records等参数可以提升消费者端的吞吐量

1、Kafka 为什么能高效读写数据

1）Kafka 本身是分布式集群，可以采用分区技术，并行度高
2）读数据采用稀疏索引，可以快速定位要消费的数据
3）顺序写磁盘

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，

为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。这

与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

4）页缓存+ 零拷贝技术

2、副本数设定

一般我们设置成2个或3个，很多企业设置为2个。

副本的优势：提高可靠性；副本劣势：增加了网络IO传输。

3、如何提升吞吐量

如何提升吞吐量？

1）提升生产吞吐量
- （1）buffer.memory：发送消息的缓冲区大小，默认值是32m，可以增加到64m。
- （2）batch.size：默认是16k。如果batch设置太小，会导致频繁网络请求，吞吐量下降；如果batch太大，会导致一条消息需要等待很久才能被发送出去，增加网络延时。
- （3）linger.ms，这个值默认是0，意思就是消息必须立即被发送。一般设置一个5-100毫秒。如果linger.ms设置的太小，会导致频繁网络请求，吞吐量下降；如果linger.ms太长，会导致一条消息需要等待很久才能被发送出去，增加网络延时。
- （4）compression.type：默认是none，不压缩，但是也可以使用lz4压缩，效率还是不错的，压缩之后可以减小数据量，提升吞吐量，但是会加大producer端的CPU开销。
2）增加分区
3）消费者提高吞吐量
- （1）调整fetch.max.bytes大小，默认是50m。
- （2）调整max.poll.records大小，默认是500条。

4、Kafka丢不丢数据

1）Producer角度
- acks=0，生产者发送过来数据就不管了，可靠性差，效率高；
- acks=1，生产者发送过来数据Leader应答，可靠性中等，效率中等；
- acks=-1，生产者发送过来数据Leader和ISR队列里面所有Follwer应答，可靠性高，效率低；
- 在生产环境中，acks=0很少使用；acks=1，一般用于传输普通日志，允许丢个别数据；acks=-1，一般用于传输和钱相关的数据，对可靠性要求比较高的场景。
2）Broker角度
- 副本数大于等于2。
- min.insync.replicas大于等于2。

5、Kafka数据重复

去重 = 幂等性 + 事务

1）幂等性配置参数

参数名称	描述
enable.idempotence	是否开启幂等性，默认true，表示开启幂等性。
max.in.flight.requests.per.connection	1.0.X版本前，需设置为1，1.0.X之后，小于等于5
retries	失败重试次数，需要大于0
acks	需要设置为all

2）Kafka的事务一共有如下5个API

// 1初始化事务
void initTransactions();

// 2开启事务
void beginTransaction() throws ProducerFencedException;

// 3在事务内提交已经消费的偏移量（主要用于消费者）
void sendOffsetsToTransaction(Map<TopicPartition, OffsetAndMetadata> offsets,
                              String consumerGroupId) throws ProducerFencedException;

// 4提交事务
void commitTransaction() throws ProducerFencedException;

// 5放弃事务（类似于回滚事务的操作）
void abortTransaction() throws ProducerFencedException;

3）小结

（1）生产者角度
- acks设置为-1 （acks=-1）。
- 幂等性（enable.idempotence = true） + 事务。
（3）broker服务端角度
- 分区副本大于等于2 （–replication-factor 2）。
- ISR里应答的最小副本数量大于等于2 （min.insync.replicas = 2）。
- （3）消费者
  - 事务 + 手动提交offset （enable.auto.commit = false）。
  - 消费者输出的目的地必须支持事务（MySQL、Kafka）。

总结

本文主要介绍了Kafka的高效读写数据的原因及如何提升Kafka的吞吐量,Kafka通过分区、稀疏索引等零拷贝等技术提高了读写效率,提升吞吐量可以从生产者和消费者两个方面入手,增加缓冲区大小、调整batch、linger等参数可以提升生产者端的吞吐量,调整fetch.max.size等max.poll.records等参数可以提升消费者端的吞吐量,Kafka在生产者、Broker和消费者三个角度都有措施保证数据不丢失,Kafka通过开启幂等性、事务等措施保证数据去重和幂等性。

到此这篇关于Kafka高效读写数据的原因及如何提升Kafka的吞吐量的文章就介绍到这了,更多相关Kafka提高读写效率内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

JetBrains出品一款好用到爆的DataGrip数据库工具使用入门
这篇文章主要介绍了JetBrains出品一款好用到爆的DataGrip数据库工具使用入门,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-01-01
kingbase修改权限实现方式
该文章详细介绍了如何在数据库中创建用户并赋予其相应的权限,包括创建用户、回收默认权限、创建数据库、赋权数据库权限、创建只读用户以及回收权限等步骤
2025-11-11
数据库三范式最简单最易记的解释
数据库三范式最简单最易记的解释，整理一下方便大家记忆。
2009-07-07
从Bak文件中恢复SQL数据库的三种方法
在数据库管理和维护过程中,数据的安全性和完整性至关重要,备份文件（.bak 文件）是 SQL Server 中常用的数据库备份格式,本文将介绍从 .bak 文件恢复 SQL 数据库的基本步骤和最佳实践,需要的朋友可以参考下
2024-09-09
YII2数据库查询实践
这篇文章主要介绍了YII2数据库查询实践的相关资料,需要的朋友可以参考下
2016-01-01
navicat导入CSV文件详细操作步骤
通过Navicat我们可以很方便的完成备份和还原操作,下面这篇文章主要给大家介绍了关于navicat导入CSV文件的详细操作步骤,需要的朋友可以参考下
2023-12-12
Navicat最新版安装详细教程(超简单)
Navicat最新版增加Redis连接功能,支持多种数据库管理,安装步骤包括下载、解压、复制dll文件和启动软件,感兴趣的朋友跟随小编一起看看吧
2024-11-11
5分钟快速了解数据库死锁产生的场景和解决方法
这篇文章主要给大家介绍了关于如何通过5分钟快速理解数据库死锁的相关资料，文中介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-05-05
数据库建表设计六范式介绍
大家好，本篇文章主要讲的是数据库建表设计六范式介绍，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2021-12-12
基于navicat连接登录windows10本地wsl数据库
这篇文章主要介绍了基于navicat连接登录windows10本地wsl数据库,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11