1 总体架构
1.1 Pulsar 总体架构
Pulsar 采用分层架构,主要组件组成:Broker、Apache BookKeeper 和 Apache ZooKeeper。Broker 是无状态服务,客户端需要连接到 Broker 进行消息传递。而 BookKeeper 和 ZooKeeper 是有状态服务。BookKeeper 节点(Bookie)存储消息和游标,ZooKeeper 则只用于为 Broker 和 Bookie 存储元数据。另外,BookKeeper 使用 RocksDB 作为内嵌数据库,用于存储内部索引,但 RocksDB 的管理不独立于 BookKeeper。
1.2 Kafka 总体架构
Kafka 采用分区架构,多个 Partition 及其副本组成 Topic。
1.3 Pulsar 和 Kafka 总体架构的对比结论
① Kafka 的分区架构模型,将服务与存储相结合,而 Pulsar 则采用了分层架构,可以在单独的分层内进行管理。
② 尽管 Pulsar 的分层架构比较复杂,但实际上 Broker 和 BookKeeper 不但可以实现计算与存储分离,还更具可伸缩性、操作负担更低、性能更高、强一致。
2 存储架构
2.1 Pulsar 存储架构
在分层架构的基础上,Pulsar 在存储上实现了分片,首先 Pulsar 将 Topic 的 Partition 划分为分片,然后将这些分片存储到 BookKeeper 的 Bookies 上。Pulsar 的无分区存储架构,也没有重平衡,保证了性能、及时可伸缩性和高可用性。
Pulsar 的无限分布式日志以分片为中心,通过 BookKeeper 实现日志存储的扩展,同时分片可以均匀地分布在 Bookies 存储节点上。
说明:利用性能强大的 Netty 架构,数据从 Producer 到 Broker,再到 Bookie 的转移都是零拷贝,都不会生成副本。因为数据直接通过网络或磁盘进行传输,没有任何性能损失。
2.2 Kafka 存储架构
Partiton 分区是 Kafka 数据存储的基本单元。
说明:1 个 Topic 分别存储在不同的 Partition 中,而 1 个 Partition 有多个 Replica
2.3 Pulsar 和 Kafka 存储架构的对比结论
Pulsar 采用分片的存储架构,并利用 BookKeeper 持久化消息,具备高性能、弹性扩缩容和强一致的特点。然而 Kafka 直接采用 Topic 分区架构,扩容场景需要重平衡。
3 多租户架构
Kafka 不支持多租户,而 Pulsar 原生支持多租户,{projecId}/{namespace}/{topicName}
的 topic 全名体现了多租户特性,如下所示。
persistent://9d2416900bf4420db96a939cc1bd161c/default/DEVICE
# 说明:
# persistent:// 表示持久化
# projecId 是 9d2416900bf4420db96a939cc1bd161c
# namespace 是 default
# topicName 是 DEVICE
说明:租户和命名空间 (Namaspace) 是 Pulsar 支持多租户的两个核心概念。在租户方面,Pulsar 为特定的租户预留合适的存储空间、应用授权与认证机制。在命名空间方面, Pulsar 有一系列的配置策略,包括存储配额、流控、消息过期策略和命名空间之间的隔离策略。
① Property/Tenant 代表一个租户。假设部署了一个 Pulsar 集群来支持多个应用程序,在企业中每个 property 都可以代表一个团队、一个核心的功能等;
② Namespace 代表 Pulsar 基本管理单元。在 namaspace 级别可以设置权限、备份 fine-tune、跨集群管理消息数据的地理复制 geo-replication 等;
③ TopicName 代表一个通道,producer 和 consumer 可以通过它生产或者消费消息;