要想实现消息有序,需要从 Producer 和 Consumer 两方面来考虑。
首先,Producer 生产消息的时候就必须要有序。
然后,Consumer 消费的时候,也要按顺序来,不能乱。
Producer 有序
像 RabbitMQ 这类普通的消息系统,队列结构简单,Producer 向队列中发送消息就完了,进入队列的消息肯定是有序的。
Kafka 比较特殊,因为它的一个 Topic(就是队列的概念)实际上分为了多个 Partition。
Producer 发送消息的时候,是分散在不同 Partition 的。
Producer 按顺序发消息,但进入 Kafka Topic 之后,这些消息就不一定进到哪个 Partition 了,所以顺序肯定是乱的。
如果想 Topic 内的消息全局有序,就只能设置一个 Partition 了,这就变成了 RabbitMQ 那种结构。
但这种结构不符合 Kafka 的设计理念,Topic 只有一个 Partition 就失去了扩展性。
kafka 还支持一种局部有序的方式,就是把某一类的消息都放入同一个 Partition,就保证了这组消息的顺序。
在发消息的时候指定 Partition Key,Kafka 对其进行 Hash 计算,根据计算结果决定放入哪个 Partition。
所以,Partition Key 一样的消息肯定是在一起的。
例如使用用户 ID 做 key,这样同一个用户的消息肯定是在一起的,就保证了这一组的消息的有序。
Consumer 有序
MQ 内消息有序,那么 Consumer 自然也是按顺序接收的。
但是,如果使用了多个 Consumer,就可能出现乱序。
例如 RabbitMQ 的一个 Queue 有 3个 Consumer,虽然会按顺序接收到消息,但是它们各自的处理速度是不同的,所以,出来的结果很可能是乱序的。
如果想严格按顺序来,就只能使用一个 Consumer。
如果可以使用局部有序,那么就把之前的一个队列拆为多个队列,就像 Kafka 的 Partition Key 一样,把同组数据放入同一个队列。
Kafka 中一个 Partition 只能对应一个 Consumer,但如果 Consumer 使用了多线程,就和多个 Consumer 一个效果了,还是会造成乱序。
这样的话就需要进一步细化消息的分组。
为每个线程创建一个内存队列,Consumer 收到消息后,把同组的消息都放在同一个内存队列,由同一个线程处理即可。
小结一下,消息的有序需要 Producer 和 Consumer 都有序。
RabbitMQ 的队列结构简单,Producer 发送的消息是有序的。但 Kafka 特殊,一个 Topic 有多个 Partition,如果要求全局有序,就只能使用一个 Partition。
如果可以接受局部有序,就可以为消息设置 Partition Key,其 Hash 计算结果相同的消息都会在同一个 Partition。
Consumer 消费时需要注意多 Consumer 的情况,例如多个消费线程。
可以在 Consumer 收到消息后再细化分组,同组的消息交给同一个消费线程处理。
推荐阅读