【ELK 使用指南 3】Zookeeper、Kafka集群与Filebeat+Kafka+ELK架构（附部署实例）

EFLKK

一、Zookeeper
- 1.1 简介
- 1.2 zookeeper的作用
- 1.3 Zookeeper的特点
- 1.5 Zookeeper的数据结构
- 1.6 Zookeeper的应用场景
- 1.7 Zookeeper的选举机制（重要）
- - 1.7.1 第一次启动时
  - 1.7.2 非第一次启动时
二、Zookeeper集群部署
- 2.1 安装前准备
- 2.2 安装 Zookeeper
- - Step1 解压代码包
  - Step2 修改配置文件
  - Step3 创建相关目录和文件
  - Step4 编写 Zookeeper 启动脚本
  - Step5 启动ZK，查看状态
三、消息队列
- 3.1 为什么要用消息队列？
- 3.2 中间件
- 3.3 使用消息队列的好处
- 3.4 消息队列的两种模式
- - 3.4.1 点对点模式
  - 3.4.2 发布/订阅模式
四、Kafka
- 4.1 简介
- 4.2 特性
- 4.3 Kafka系统架构
- - 4.3.1 核心组件
  - 4.3.2 概念扩展
- 4.4 怎么部署kafka?
五、Kafka集群部署
- Step1 下载Kafka软件包
- Step2 安装Kafka
- Step3 编写启动脚本，启动kafka
六、搭建Filebeat+Kafka+ELK架构
- 6.1 部署 Zookeeper+Kafka 集群
- 6.2 部署 Filebeat
- 6.3 部署ELK
- 6.4 在 Logstash 组件所在节点上新建一个 Logstash 配置文件
- 6.5 效果测试

一、Zookeeper

1.1 简介

分布式应用管理框架。

Zookeeper是个开源的,分布式的，为分布式框架提供协调服务的Apach项目。

1.2 zookeeper的作用

主要用于解决分布式应用集群中应用系统的一致性问题。

作为文件系统，用于注册各种分布式应用，储存管理分布式应用的元信息；

作为通知机制，如果节点或者服务本身的状态出现问题会通知客户端。

1.3 Zookeeper的特点

1）是由一个领导者（Leader），多个跟随者（Follower）组成的集群；

2）Zookeeper集群中只要有半数以上节点存活，Zookeeper集群就能正常服务，所以Zookeeper适合安装奇数台服务器；

3）全局数据一致：每个Server保存一份相同的数据副本，Client无论连接到哪个Server，数据都是一致的；

4）更新请求顺序执行，来自同一个Client的更新请求按其发送顺序依次执行，即先进先出；

5）数据更新原子性，一次数据更新要么成功，要么失败；

6）实时性，在一定时间范围内，Client能读到最新数据。

1.5 Zookeeper的数据结构

ZooKeeper数据模型的结构与Linux文件系统很类似，整体上可以看作是一棵树，每个节点称做一个ZNode。

每一个ZNode默认能够存储1MB的数据，每个ZNode都可以通过其路径唯一标识。

1.6 Zookeeper的应用场景

1）统一命名服务
在分布式环境下，经常需要对应用/服务进行统一命名，便于识别。

2）统一配置管理
配置管理可交由ZooKeeper实现。

将配置信息写入ZooKeeper上的一个Znode，各个客户端服务器监听这个Znode，一旦Znode中的数据被修改，ZooKeeper将通知各个客户端服务器。

3）统一集群管理
ZooKeeper可以实现实时监控节点状态变化，将节点信息写入ZooKeeper上的一个ZNode，监听这个ZNode可获取它的实时状态变化。

4）服务器动态上下线
客户端能实时洞察到服务器上下线的变化。

5）软负载均衡
在Zookeeper中记录每台服务器的访问数，让访问数最少的服务器去处理最新的客户端请求。

1.7 Zookeeper的选举机制（重要）

1.7.1 第一次启动时

比较服务器节点的myid，谁的myid大就获取比它小的服务器节点的选票，当选票超过服务器节点数量的半数则当选为leader，其它节点为follower；

即使后面再有其它myid更大的节占加入集群，也不会影响到之前的选举结果。

1.7.2 非第一次启动时

如果是非leader节点故障，替换新节点继续当follower，和现存的leader连接并同步数据；

如果是leader节点故障，则需要重新选举新的leader：
1）先比较每个节点的Epoch（参与选举的次数），最大的直接当选leader；

2）如果有Epoch相同的节点，则比较zxid(写操作的事务ID)，由最大的zxid节点当选leader；

3）如果有zxid相同的节点，则比较sid（等同于myid），由最大的sid节点当选leader。

二、Zookeeper集群部署

#准备 3 台服务器做 Zookeeper 集群192.168.2.100192.168.2.102192.168.2.103

2.1 安装前准备

#关闭防火墙systemctl stop firewalldsystemctl disable firewalldsetenforce 0

#安装 JDKyum install -y java-1.8.0-openjdk java-1.8.0-openjdk-develjava -version

#下载安装包官方下载地址：https://archive.apache.org/dist/zookeeper/cd /optwget https://archive.apache.org/dist/zookeeper/zookeeper-3.6.4/apache-zookeeper-3.6.4-bin.tar.gz

2.2 安装 Zookeeper

Step1 解压代码包

cd /opt#解压tar -zxvf apache-zookeeper-3.6.4-bin.tar.gzmv apache-zookeeper-3.6.4-bin/usr/local/zookeeper-3.6.4

Step2 修改配置文件

cd /usr/local/zookeeper-3.6.4/conf/#配置模板cp zoo_sample.cfg zoo.cfg

#修改配置文件vim zoo.cfgtickTime=2000 #通信心跳时间，Zookeeper服务器与客户端心跳时间，单位毫秒initLimit=10#Leader和Follower初始连接时能容忍的最多心跳数（tickTime的数量），这里表示为10*2ssyncLimit=5 #Leader和Follower之间同步通信的超时时间，这里表示如果超过5*2s，Leader认为Follwer死掉，并从服务器列表中删除FollwerdataDir=/usr/local/zookeeper-3.6.4/data#修改，指定保存Zookeeper中的数据的目录，目录需要单独创建dataLogDir=/usr/local/zookeeper-3.6.4/logs#添加，指定存放日志的目录，目录需要单独创建clientPort=2181 #客户端连接端口#添加集群信息server.1=192.168.2.100:3188:3288server.2=192.168.2.102:3188:3288server.3=192.168.2.103:3188:3288

#补充知识server.A=B:C:D-A是一个数字，表示这个是第几号服务器。集群模式下需要在zoo.cfg中dataDir指定的目录下创建一个文件myid，这个文件里面有一个数据就是A的值，Zookeeper启动时读取此文件，拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。-B是这个服务器的地址。-C是这个服务器Follower与集群中的Leader服务器交换信息的端口。-D是万一集群中的Leader服务器挂了，需要一个端口来重新进行选举，选出一个新的Leader，而这个端口就是用来执行选举时服务器相互通信的端口。

Step3 创建相关目录和文件

#拷贝配置好的 Zookeeper 配置文件到其他机器上scp /usr/local/zookeeper-3.6.4/conf/zoo.cfg 192.168.2.102:/usr/local/zookeeper-3.6.4/conf/scp /usr/local/zookeeper-3.6.4/conf/zoo.cfg 192.168.2.103:/usr/local/zookeeper-3.6.4/conf/

#在每个节点上创建数据目录和日志目录mkdir /usr/local/zookeeper-3.6.4/datamkdir /usr/local/zookeeper-3.6.4/logs

#在每个节点的dataDir指定的目录下创建一个 myid 的文件echo 1 > /usr/local/zookeeper-3.6.4/data/myidecho 2 > /usr/local/zookeeper-3.6.4/data/myidecho 3 > /usr/local/zookeeper-3.6.4/data/myid

Step4 编写 Zookeeper 启动脚本

#Zookeeper 启动脚本vim /etc/init.d/zookeeper#!/bin/bash#chkconfig: 2345 20 90#description:Zookeeper Service Control ScriptZK_HOME='/usr/local/zookeeper-3.6.4'case $1 instart)echo "---------- zookeeper 启动 ------------"$ZK_HOME/bin/zkServer.sh start;;stop)echo "---------- zookeeper 停止 ------------"$ZK_HOME/bin/zkServer.sh stop;;restart)echo "---------- zookeeper 重启 ------------"$ZK_HOME/bin/zkServer.sh restart;;status)echo "---------- zookeeper 状态 ------------"$ZK_HOME/bin/zkServer.sh status;;*)echo "Usage: $0 {start|stop|restart|status}"esac

Step5 启动ZK，查看状态

#设置开机自启chmod +x /etc/init.d/zookeeperchkconfig --add zookeeper#分别启动 Zookeeperservice zookeeper start

#查看当前状态service zookeeper status

三、消息队列

3.1 为什么要用消息队列？

主要原因是由于在高并发环境下，同步请求来不及处理，请求往往会发生阻塞。

比如大量的请求并发访问数据库，导致行锁表锁，最后请求线程会堆积过多，从而触发 too many connection 错误，引发雪崩效应。

使用消息队列，通过异步处理请求，从而缓解系统的压力。

3.2 中间件

中间件用于实现应用解耦、异步处理。

web应用型（代理服务器）：Nginx 、Haproxy 、Tomcat PHP

消息队列型（MQ):Active MQ 、RabbitMQ 、RocketMQ 、Kafka

3.3 使用消息队列的好处

1）应用解耦
允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。

2）可恢复性

消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

3）数据缓冲
有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。

4）灵活性 & 峰值处理能力
在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。

如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。

使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

5）异步通信
很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。

想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

3.4 消息队列的两种模式

3.4.1 点对点模式

一对一，消费者主动拉取数据，消费者消费消息后清除消息。

3.4.2 发布/订阅模式

一对多，又叫观察者模式。

数据生产后会推送给所有消费者，消费者消费消息之后不会清除消息。

四、Kafka

4.1 简介

Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据领域的实时计算以及日志收集。

4.2 特性

1）高吞吐量、低延迟
Kafka 每秒可以处理几十万条消息，它的延迟最低只有几毫秒。

每个 topic 可以分多个 Partition，Consumer Group 对 Partition 进行消费操作，提高负载均衡能力和消费能力。

2）可扩展性
kafka 集群支持热扩展

3）持久性、可靠性
消息被持久化到本地磁盘，并且支持数据备份防止数据丢失

4）容错性
允许集群中节点失败（多副本情况下，若副本数量为 n，则允许 n-1 个节点失败）

5）高并发
支持数千个客户端同时读写

4.3 Kafka系统架构

4.3.1 核心组件

1）Broker
Kafka服务器节点。

一个集群由多个 broker 组成，一个 broker 可以容纳多个 topic。

2）Consumer
消费者可以从 broker 中拉取数据。

消费者可以消费多个 topic 中的数据。

3）Consumer Group（CG）

消费者组是实际的消息订阅者。

消费者组由一个或者多个消费者，且组内成员不能重复消费一个Partiton数据。

4）Producer

生产者即数据的发布者，该角色将消息 push 发布到 Kafka 的 topic 中。
broker 接收到生产者发送的消息后，broker 将该消息追加到当前用于追加数据的 segment 文件中。
生产者发送的消息，存储到一个 partition 中，生产者也可以指定数据存储的 partition。

5）Topic
可以理解为一个队列，生产者和消费者面向的都是一个 topic。

6）Zookeeper

存储kafka集群的元数据信息，生产者和消费者的动作都需要zookeeper的管理和支持。

比如生产者推送数据到kafka集群需要先通过zk寻找到kafka服务器节点的位置，消费者需要从zk获取offset记录的上一次消费的位置再继续向后消费。

Producer ——> Topic消息队列 ——> 一个或者多个Partition分区 ——> 一个或者多个replica副本(Leader负责数据读写，follower只负责同步复制leader的数据) Consumer ——> offset偏移量(用于记录消费者上一次消费的位置)

4.3.2 概念扩展

1）Partition
一个 topic 可以分割为一个或多个 partition，每个 partition 是一个有序的队列。

Kafka 只保证 partition 内的记录是有序的，而不保证 topic 中不同 partition 的顺序。

每个 topic 至少有一个 partition，当生产者产生数据的时候，会根据分配策略选择分区，然后将消息追加到指定的分区的队列末尾。

#Partation 数据路由规则：1．指定了 patition，则直接使用；2．未指定 patition 但指定 key（相当于消息中某个属性），通过对 key 的 value 进行 hash 取模，选出一个 patition；3．patition 和 key 都未指定，使用轮询选出一个 patition。每条消息都会有一个自增的编号，用于标识消息的偏移量，标识顺序从 0 开始。每个 partition 中的数据使用多个 segment 文件存储。如果 topic 有多个 partition，消费数据时就不能保证数据的顺序。严格保证消息的消费顺序的场景下（例如商品秒杀、 抢红包），需要将 partition 数目设为 1。broker 存储 topic 的数据。如果某 topic 有 N 个 partition，集群有 N 个 broker，那么每个 broker 存储该 topic 的一个 partition。如果某 topic 有 N 个 partition，集群有 (N+M) 个 broker，那么其中有 N 个 broker 存储 topic 的一个 partition， 剩下的 M 个 broker 不存储该 topic 的 partition 数据。如果某 topic 有 N 个 partition，集群中 broker 数目少于 N 个，那么一个 broker 存储该 topic 的一个或多个 partition。在实际生产环境中，尽量避免这种情况的发生，这种情况容易导致 Kafka 集群数据不均衡。

#分区的原因方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；可以提高并发，因为可以以Partition为单位读写了。

2）Replica
副本，为保证集群中的某个节点发生故障时，该节点上的 partition 数据不丢失，且 kafka 仍然能够继续工作，kafka 提供了副本机制。

一个 topic 的每个分区都有若干个副本，一个 leader 和若干个 follower。

3）Leader
每个 partition 有多个副本，其中有且仅有一个作为 Leader，Leader 是当前负责数据的读写的 partition。

4）Follower
Follower 跟随 Leader，所有写请求都通过 Leader 路由，数据变更会广播给所有 Follower，Follower 与 Leader 保持数据同步。

Follower 只负责备份，不负责数据的读写。

如果 Leader 故障，则从 Follower 中选举出一个新的 Leader。

当 Follower 挂掉、卡住或者同步太慢，Leader 会把这个 Follower 从 ISR（Leader 维护的一个和 Leader 保持同步的 Follower 集合）列表中删除，重新创建一个 Follower。

5）offset 偏移量
可以唯一的标识一条消息。
偏移量决定读取数据的位置，不会有线程安全的问题，消费者通过偏移量来决定下次读取的消息（即消费位置）。
消息被消费之后，并不被马上删除，这样多个业务就可以重复使用 Kafka 的消息。

某一个业务也可以通过修改偏移量达到重新读取消息的目的，偏移量由用户控制,消息最终还是会被删除的，默认生命周期为 1 周（7*24小时）。

4.4 怎么部署kafka” />五、Kafka集群部署

Step1 下载Kafka软件包

官方下载地址：http://kafka.apache.org/downloads.htmlcd /opt#下载wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.7.1/kafka_2.13-2.7.1.tgz

Step2 安装Kafka

1.解压软件包

cd /opt/#解压tar zxvf kafka_2.13-2.8.2.tgzmv kafka_2.13-2.8.2/usr/local/kafka

2.修改配置文件

#备份cd /usr/local/kafka/config/cp server.properties{,.bak}

#修改配置文件vim server.propertiesbroker.id=0 #21行，broker的全局唯一编号，每个broker不能重复，因此要在其他机器上配置 broker.id=1、broker.id=2listeners=PLAINTEXT://192.168.80.10:9092#31行，指定监听的IP和端口，如果修改每个broker的IP需区分开来，也可保持默认配置不用修改num.network.threads=3 #42行，broker 处理网络请求的线程数量，一般情况下不需要去修改num.io.threads=8 #45行，用来处理磁盘IO的线程数量，数值应该大于硬盘数socket.send.buffer.bytes=102400 #48行，发送套接字的缓冲区大小socket.receive.buffer.bytes=102400 #51行，接收套接字的缓冲区大小socket.request.max.bytes=104857600 #54行，请求套接字的缓冲区大小log.dirs=/usr/local/kafka/logs #60行，kafka运行日志存放的路径，也是数据存放的路径num.partitions=1#65行，topic在当前broker上的默认分区个数，会被topic创建时的指定参数覆盖num.recovery.threads.per.data.dir=1 #69行，用来恢复和清理data下数据的线程数量log.retention.hours=168#103行，segment文件（数据文件）保留的最长时间，单位为小时，默认为7天，超时将被删除log.segment.bytes=1073741824#110行，一个segment文件最大的大小，默认为 1G，超出将新建一个新的segment文件zookeeper.connect=192.168.2.100:2181,192.168.2.102:2181,192.168.2.103:2181 #123行，配置连接Zookeeper集群地址

#传输配置文件并修改scp server.properties 192.168.2.102:/usr/local/kafka/config/scp server.properties 192.168.2.103:/usr/local/kafka/config/

3.修改环境变量

vim /etc/profileexport KAFKA_HOME=/usr/local/kafkaexport PATH=$PATH:$KAFKA_HOME/binsource /etc/profile

Step3 编写启动脚本，启动kafka

#kafka启动脚本vim /etc/init.d/kafka#!/bin/bash#chkconfig:2345 22 88#description:Kafka Service Control ScriptKAFKA_HOME='/usr/local/kafka'case $1 instart)echo "---------- Kafka 启动 ------------"${KAFKA_HOME}/bin/kafka-server-start.sh -daemon ${KAFKA_HOME}/config/server.properties;;stop)echo "---------- Kafka 停止 ------------"${KAFKA_HOME}/bin/kafka-server-stop.sh;;restart)$0 stop$0 start;;status)echo "---------- Kafka 状态 ------------"count=$(ps -ef | grep kafka | egrep -cv "grep|$$")if [ "$count" -eq 0 ];thenecho "kafka is not running"elseecho "kafka is running"fi;;*)echo "Usage: $0 {start|stop|restart|status}"esac

#设置开机自启chmod +x /etc/init.d/kafkachkconfig --add kafka#分别启动 Kafkaservice kafka start

六、搭建Filebeat+Kafka+ELK架构

Server	IP	组件
Node1	192.168.2.100	Elasticsearch 、 Kibana、Zookeeper、Kafka
Node2	192.168.2.102	Elasticsearch、Zookeeper、Kafka
Apache	192.168.2.103	Logstash、Apache、Zookeeper、Kafka
Filebeat	192.168.2.105	Filebeat、Zookeeper、Kafka

6.1 部署 Zookeeper+Kafka 集群

详见上文 Zookeeper集群部署和Kafka集群部署

6.2 部署 Filebeat

1.前置准备

#修改主机名hostnamectl set-hostname filebeat #关闭防火墙和selinuxsystemctl disable firewalld --nowsetenforce 0

2.安装filebeat

cd /opt#解压tar zxvf filebeat-6.7.2-linux-x86_64.tar.gzmv filebeat-6.7.2 -linux-x86_64 /usr/local/filebeat

3.修改配置文件

cd /usr/local/filebeatvim filebeat.ymlfilebeat.input:- type: logenabled: truepaths:- /var/log/httpd/access_logtags: ["access"]- type: logenabled: truepaths:- /var/log/httpd/error_logtags: ["error"]......#添加输出到 Kafka 的配置output.kafka:enabled: truehosts: ["192.168.2.100:9092","192.168.2.102:9092","192.168.2.103:9092"]#指定 Kafka 集群配置topic: "httpd"#指定 Kafka 的 topic

4.启动filebeat

#启动 filebeat./filebeat -e -c filebeat.yml

6.3 部署ELK

详见我的【ELK 使用指南 1】

6.4 在 Logstash 组件所在节点上新建一个 Logstash 配置文件

#切换到配置文件子目录cd /etc/logstash/conf.d/

#新建配置文件vim kafka.confinput {kafka {bootstrap_servers => "192.168.2.100:9092,192.168.2.102:9092,192.168.2.103:9092"#kafka集群地址topics=> "httpd" #拉取的kafka的指定topictype => "httpd_kafka"#指定 type 字段codec => "json"#解析json格式的日志数据auto_offset_reset => "latest"#拉取最近数据，earliest为从头开始拉取decorate_events => true #传递给elasticsearch的数据额外增加kafka的属性数据}}output {if "access" in [tags] {elasticsearch {hosts => ["192.168.2.100:9200"]index => "httpd_access-%{+YYYY.MM.dd}"}}if "error" in [tags] {elasticsearch {hosts => ["192.168.2.100:9200"]index => "httpd_error-%{+YYYY.MM.dd}"}}stdout { codec => rubydebug }}

#启动 logstashlogstash -f kafka.conf

6.5 效果测试

浏览器访问 http://192.168.2.100:5601 登录 Kibana单击“Create Index Pattern”按钮添加索引“httpd_access-*”单击 “create” 按钮创建

单击“Create Index Pattern”按钮添加索引“httpd_error-*”单击 “create” 按钮创建

单击 “Discover” 按钮可查看图表信息及日志信息。