一次惊心动魄的线上事故复盘：Kafka消息为何重复与丢失？

在分布式系统的世界里，数据的一致性与可靠性是生命线。作为核心的消息中间件，Kafka以其高吞吐、可扩展性而备受青睐。然而，配置和使用不当，它也可能成为数据“黑洞”或“复印机”。本文将复盘我们团队近期遭遇的一次线上事故，深入探讨Kafka消息重复与丢失的根源，并分享一套经过实战检验的解决方案。

一、事故现场：混乱的订单与重复的扣款

背景：一个基于微服务架构的电商平台，订单服务通过Kafka将订单创建事件异步通知给库存服务（扣减库存）和支付服务（发起预支付）。链路简单清晰：订单服务（生产者） -> Kafka -> 库存/支付服务（消费者）。

现象：某次促销活动后，运维监控平台警报频发：

数据不一致：部分订单在订单库中只有一条记录，但在库存系统中却扣减了两次。
用户投诉：少量用户反馈同一笔订单被重复扣款。
数据丢失：有日志显示订单已创建并发送事件，但下游支付服务从未收到该事件，导致订单状态一直卡在“待支付”。

初步排查，问题指向了Kafka消息的重复消费和消息丢失。

二、根因深挖：三阶段的“罪与罚”

Kafka消息的传递涉及生产者、Broker集群和消费者三个角色，问题可能出现在任何一个环节。

1. 生产者阶段：`acks`配置的陷阱

问题代码（事故前）：

Properties props = new Properties();
props.put("bootstrap.servers", "kafka1:9092,kafka2:9092");
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
// 关键配置：为了追求极致吞吐，设置了 acks=0
props.put("acks", "0");

KafkaProducer<String, String> producer = new KafkaProducer<>(props);
ProducerRecord<String, String> record = new ProducerRecord<>("order-events", orderId, orderEventJson);
// 使用异步发送，不关心结果
producer.send(record);
producer.close();

根因分析：

acks=0：生产者不等待Broker的任何确认，发送即视为成功。如果网络抖动或Broker瞬时故障，消息实际并未成功写入，导致数据丢失。
fire-and-forget：调用send()后未处理返回的Future，无法感知发送失败，更无从谈起重试。

解决方案：

设置 acks=all（或 -1）：要求所有ISR（In-Sync Replicas）副本都确认后才认为发送成功。这是保证数据不丢失的最强配置。
合理配置 retries 和 retry.backoff.ms：为可重试的异常（如网络瞬时故障、Leader选举）配置重试。
使用回调或同步等待：至少应该检查发送结果。

改进后的代码：

props.put("acks", "all"); // 最强持久性保证
props.put("retries", 3); // 合理重试次数
props.put("delivery.timeout.ms", 30000); // 总交付超时时间
props.put("max.in.flight.requests.per.connection", 1); // 为开启幂等性，或保证分区内顺序时可能需要设为1

// 发送并获取Future，可阻塞等待或添加回调
Future<RecordMetadata> future = producer.send(record);
// 方式一：同步等待（影响吞吐，可根据业务选择）
// RecordMetadata metadata = future.get();
// 方式二：异步回调
producer.send(record, (metadata, exception) -> {
    if (exception != null) {
        log.error("消息发送失败: {}", exception.getMessage());
        // 此处应加入业务级的补偿逻辑，如落本地库、告警等
    } else {
        log.info("消息发送成功，主题:{}，分区:{}，偏移量:{}",
                 metadata.topic(), metadata.partition(), metadata.offset());
    }
});

2. Broker阶段：副本同步与Leader切换

事故场景：活动期间，某个Kafka Broker节点因磁盘IO过高短暂僵死，Controller将其判定为下线，触发了分区Leader重选举。

根因分析：

min.insync.replicas 配置不当：该配置（假设主题级别或Broker级别）为1。这意味着只要有一个ISR副本存活，生产者acks=all的请求就能成功。
数据丢失场景：假设分区有2个副本（Leader L和Follower F1）。设置min.insync.replicas=1，acks=all。
1. 生产者向Leader L发送消息M1，L写入本地日志后即返回成功（因为min.insync.replicas=1已满足）。
2. 在Follower F1同步M1之前，Leader L崩溃。
3. F1成为新的Leader，但M1在它那里不存在。消息M1永久丢失。
数据重复场景：与上述场景关联，生产者可能因未收到成功响应而重试，导致消息在故障恢复后重复写入。

解决方案：

遵循黄金配置公式：复制因子（replication.factor） = N， min.insync.replicas = M， 生产者 acks = all。其中 M 应满足 2 <= M <= N，通常 N=3, M=2。这保证了即使一个副本挂掉，已确认的消息至少存在于两个副本上，不会因单点故障丢失。
监控ISR集合：密切监控各分区ISR副本数量的变化，及时报警。

3. 消费者阶段：提交偏移量（Offset）的“玄学”

问题代码（事故前）：

Properties props = new Properties();
props.put("enable.auto.commit", "true");
props.put("auto.commit.interval.ms", "5000"); // 5秒自动提交一次

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Arrays.asList("order-events"));

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        try {
            // 处理业务逻辑：扣减库存、创建支付单
            processOrderEvent(record.value());
        } catch (Exception e) {
            log.error("处理消息失败，跳过", e);
            // 注意：此处发生异常，但偏移量依然会在后续被提交！
        }
    }
}

根因分析：

自动提交（enable.auto.commit=true）：消费者在后台定时提交已拉取消息的偏移量，与业务处理结果无关。
重复消费场景：假设消费者拉取消息M（offset=100）并开始处理，但在5秒自动提交间隔内，消费者进程崩溃。当消费者重启或发生再均衡（Rebalance）后，它会从上一次提交的偏移量（比如95）开始消费，导致消息M被再次处理。
丢失数据场景（更隐蔽）：如果业务处理逻辑抛出异常，消息处理失败，但代码中只是打印日志并继续循环。由于自动提交机制，这条失败消息的偏移量最终仍会被提交，消费者将永远不会再处理这条消息，等同于数据丢失（从业务结果看）。

解决方案：关闭自动提交，采用手动提交，并谨慎处理提交时机与方式。

props.put("enable.auto.commit", "false"); // 关闭自动提交

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        try {
            // 1. 处理业务逻辑（要求幂等）
            processOrderEvent(record.value());
            // 2. 处理成功，准备提交偏移量。这里采用异步提交提高性能，可配合回调处理错误。
            consumer.commitAsync();
        } catch (BusinessException e) {
            // 3. 业务逻辑失败，记录日志并跳入死信队列。不应提交当前偏移量。
            log.error("业务处理失败，消息转入死信队列: {}", record.value(), e);
            sendToDlq(record);
            // 可以选择提交偏移量，跳过此条坏消息，但必须确保死信队列处理可靠。
            consumer.commitAsync();
        } catch (Exception e) {
            // 4. 系统异常（如DB连接失败），应停止消费，等待恢复，而不是提交偏移量。
            log.error("系统异常，暂停消费", e);
            break; // 或进入重试循环
        }
    }
}

三、终极武器：幂等性与事务

上述方案能极大缓解问题，但要实现“Exactly-Once”语义，需要借助Kafka的更强机制。

1. 生产者幂等性（Idempotence）

原理：为每个生产者实例分配一个PID（Producer ID），并为发送到同一分区的每条消息分配序列号（Sequence Number）。Broker会缓存<PID, 分区>对应的最新序列号，拒绝接收旧序列号（重复发送）或跳跃序列号（消息丢失）的消息。配置：只需设置 props.put(“enable.idempotence”, true)。Kafka会自动将acks设为all，retries设为Integer.MAX_VALUE，max.in.flight.requests.per.connection设为5（或1，取决于版本）。

2. Kafka事务（Transaction）

适用场景：需要保证“读-处理-写”多个分区（或外部系统）操作的原子性，即“端到端恰好一次”。原理：引入事务协调器（Transaction Coordinator），生产者通过beginTransaction()，commitTransaction()，abortTransaction()来控制事务边界。所有在该事务内发送的消息都会被标记，只有在事务提交后才对消费者可见。 示例代码：

// 生产者配置
props.put("enable.idempotence", true); // 幂等性是事务的基础
props.put("transactional.id", "unique-order-transaction-id"); // 唯一事务ID，用于故障恢复

producer.initTransactions(); // 初始化事务

try {
    producer.beginTransaction();
    // 发送订单创建事件
    producer.send(new ProducerRecord<>("order-events", orderEvent));
    // 发送关联的物流事件（到不同主题或分区）
    producer.send(new ProducerRecord<>("logistics-events", logisticsEvent));
    // 可以结合消费者偏移量提交（消费-处理-生产模式）
    producer.sendOffsetsToTransaction(currentOffsets, consumerGroupId);
    producer.commitTransaction();
} catch (Exception e) {
    producer.abortTransaction();
    throw e;
}

四、总结与最佳实践清单

生产者：
- 设置 acks=all。
- 合理配置 retries, delivery.timeout.ms。
- 务必处理发送回调异常。
- 对数据一致性要求高的场景，开启 enable.idempotence。
- 跨分区/主题原子写，使用事务（transactional.id）。
Broker/Topic：
- 设置 replication.factor >= 3。
- 设置 min.insync.replicas >= 2。
- 监控ISR、Under Replicated Partitions等关键指标。
消费者：
- 关闭 enable.auto.commit。
- 采用手动提交偏移量。
- 先成功处理业务，再提交偏移量。
- 业务逻辑必须设计为幂等（如通过数据库唯一键、Redis锁、业务状态机判断）。
- 考虑使用事务API进行消费-生产原子操作。
架构与业务：
- 重要业务链路必须有监控、日志、告警。
- 设计死信队列（DLQ） 处理持续失败的消息。
- 定期进行端到端的数据核对（如对账系统），这是发现消息丢失/重复的最后防线。

消息中间件的可靠性是一个系统性工程，需要生产者、Broker、消费者三方协同配置，并结合业务逻辑的幂等性设计。通过这次事故复盘，我们不仅修复了问题，更建立起一套关于Kafka数据可靠性的完整认知体系和防护措施。希望本文的分享能帮助你避开我们曾踩过的坑。

文档信息

本文作者：JiliangLee
本文链接：https://leejiliang.cn/2026/02/26/%E6%95%B0%E6%8D%AE%E9%87%8D%E5%A4%8D%E4%B8%8E%E4%B8%A2%E5%A4%B1-%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E7%9C%9F%E5%AE%9E%E6%A1%88%E4%BE%8B%E5%A4%8D%E7%9B%98%E4%B8%8E%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

CODE

一次惊心动魄的线上事故复盘：Kafka消息为何重复与丢失？

一次惊心动魄的线上事故复盘：Kafka消息为何重复与丢失？

一、事故现场：混乱的订单与重复的扣款

二、根因深挖：三阶段的“罪与罚”

1. 生产者阶段：`acks`配置的陷阱

2. Broker阶段：副本同步与Leader切换

3. 消费者阶段：提交偏移量（Offset）的“玄学”

三、终极武器：幂等性与事务

1. 生产者幂等性（Idempotence）

2. Kafka事务（Transaction）

四、总结与最佳实践清单

文档信息

Search

Table of Contents

一次惊心动魄的线上事故复盘：Kafka消息为何重复与丢失？

一次惊心动魄的线上事故复盘：Kafka消息为何重复与丢失？

一、事故现场：混乱的订单与重复的扣款

二、根因深挖：三阶段的“罪与罚”

1. 生产者阶段：acks配置的陷阱

2. Broker阶段：副本同步与Leader切换

3. 消费者阶段：提交偏移量（Offset）的“玄学”

三、终极武器：幂等性与事务

1. 生产者幂等性（Idempotence）

2. Kafka事务（Transaction）

四、总结与最佳实践清单

文档信息

Search

Table of Contents

1. 生产者阶段：`acks`配置的陷阱