一、基础概念
- Kafka是什么
Kafka 是一个分布式流数据系统,使用 Zookeeper 进行集群的管理。 与其他消息系统类似,整个系统由生产者、 Broker Server 和消费者三部分组成,生产者和消费者由开发人员编写,通过 API 连接到 Broker Server 进行数据操作。 - 什么是生产者、消费者
- 生产者
- 消费者
- 什么是broker
消息队列中常用的概念,在Kafka中指部署了Kafka实例的服务器节点。(即Kafka的实例,通常一台服务器就开启一个broker) - 什么是topic
用来区分不同类型信息的主题。比如应用程序A订阅了主题t1,应用程序B订阅了主题t2而没有订阅t1,那么发送到主题t1中的数据将只能被应用程序A读到,而不会被应用程序B读到(可以理解为电视的付费频道,谁付钱谁才能看) - Kafka有什么功能
- 发布订阅消息i系统
- 存储功能
- 流处理功能
Kafka中消息是以键值对形式进行存储(key - value),如果不指定key,key的值为空,Kafka会以轮询的方式将消息放到不同的分区中,如果指定了key,那么相同key的消息会放到相同的分区
一个topic对应不同分区(partition),一个分区对应多个broker实例
分区保证了Kafka可以线性扩展,如果分区只存在一份,那么数据丢失,kafka中通过设置副本因子(replication-faction)来设置副本数量,假设副本因子为3,就是包含主分区在内,合计三份副本。
Kafka会选择一份副本作为主分区,即leader,所有生产者的写入都是写入到leader中,数据的读取也是从leader中读取,其他副本(follower)只负责从leader中复制数据,保持数据的一致
Kafka会监测所有副本的状态,通过ISR集合记录所有副本,假设有副本编号101、102、103,即ISR = 【101,102,103】,当有副本不能同步leader数据,或者数据落后较多,Kafka会将其从ISR中剔除,当其恢复使用并将追赶上来后再恢复到ISR中
二、安装所需
- 安装包传输
- zookeeper安装包
- kafka安装包
- 解压安装
tar 命令解压
参数:
- -v :压缩的过程中显示文件!这个常用,但不建议用在背景执行过程!
- -f :使用档名,请留意,在 f 之后要立即接档名喔!不要再加参数!
例如使用『 tar -zcvfP tfile sfile』就是错误的写法,要写成
『 tar -zcvPf tfile sfile』才对喔! - -x :解开一个压缩文件的参数指令!
- -z :是否同时具有 gzip 的属性?亦即是否需要用 gzip 压缩?
- 配置Kafka
- 先启动zookeeper
为什么依赖zookeeper
当消费者需要消费消息时,不能每次确认都需要和生产者建立连接 效率太低,zookeeper就充当生产者和消费者之间的协调处理者
- 包含主目录:
- bin 一些shell脚本
- config 配置文件
- libs 依赖包
- site-docs 说明文档
三、实现Kafka分布式系统
由于只有一台机器,启动三个broker实例模拟分布式
实现步骤:
- 复制三分配置文件到指定文件夹etc
- 修改配置文件 ID、log名称、端口号等
- 通过bin目录下shell脚本启动三份配置文件的broker实例
切入bin目录
./kafka-server-start.sh ../etc/server-*.properties
- 创建完实例后创建指定topic
这里需要设置参数启动(REQUIED 必须的)
- --list 查看都有哪些topic
- --topic 设置topic名称
- -- create 创建
- -- describe 查看描述
- -- partition 分区操作
- -- replication factor 副本因子,设置总副本数量(包含leader)
- -- replication-assignment 手动指定哪些分区负责哪些broker
./kafka-topics.sh --zookeeper localhost:2181 --create --topic test --partitions 3 --replication-factor 2 (三个分区两个副本名称为test的topic)
- 查看创建的topic test(使用describe参数)
./kafka-topics.sh --zookeeper localhost:2181 --topic test --describe
-
展示截图
四、配置文件
Kafka中配置文件 server.properties中有三个重要参数
- broker.id
- log.dirs
- zookeeper.connect
除此之外还有监听器listeners,指定broker启动时本机的监听名称、端口
配置方式有四种:
- listeners=PLAINTEXT://:9092(默认)
- listeners=PLAINTEXT://192.168.1.10:9092
- listeners=PLAINTEXT://hostname:9092
- listeners=PLAINTEXT://0.0.0.0:9092
其中123没区别,第4种适用于多网卡
除listeners外还有advertised.listeners
- listeners 指定broker启动时本机监听端口,给服务端使用
-
advertised.listeners 对外发布的访问IP和端口,注册到zookeeper中,给客户端用的
客户端拿着advertised,listeners提供的访问地址和端口去找服务端broker要服务
默认advertised,listeners不需要配置,采用listeners的配置
内网访问
如图:
broker 服务端里使用两种方式监听,上边的是省略IP,下边采用主机名
记录到zookeeper中的advertised.listeners中,上边采用内网IP,下边为主机名
客户端里的advertised.listeners 上边为内网地址,下边为主机名称
这里有个条件,客户端与服务端要采用同一网段IP,这样才能用内网地址,采用主机名需要在客户端中 /etc/host 配置文件中加入 主机名对应IP的配置
外网访问
broker中 EXTERNAL 0.0.0.0 为所有监听IP的端口9093
对应到zookeeper中必须是公网IP
客户端(不在同一网段)必选拿着公网IP才能访问,主机名也是对着 /etc/host配置文件中找公网IP才能访问服务端