这将是一套完整详细且持续更新的、长期维护的原创 Flink系列教程、文档，其中会包含各种商用实例详解、Flink源码讲解、机制剖析、周边组件讲解等，旨在帮助开发者快速融入Flink开发，或作为工具文档参阅。也希望更多的开发者可以参与到大数据相关的技术讨论中来，共同商讨疑难杂症，丰富社区。——尽际

本文标题: 如何实现 Flink 服务的高可用

文章作者: 尽际

发布时间: 2019年08月06日 - 23:38:30

最后更新: 2019年08月06日 - 23:38:30

原始链接:

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际转载请保留原文链接及作者。

四、Flink 服务的高可用

在几乎所有的分布式服务中，服务大体上都会分为两种角色：主服务、从服务。例如：HDFS 中的 NameNode 与 DataNode；YARN 中的 Resourcemanager 与 NodeManager；Flink 中的 JobManager 与 TaskManager。

主服务一般情况下会协调、管理、控制着整个分布式服务的运行。对于 Flink 而言，JobManager 负责作业调度、资源管理，如果该服务异常下线，则会导致整个 Flink 分布式服务崩溃。对于单台 JobManager 服务而言（单点故障）还是存在较大风的。因此，本节主要讲述如何部署Flink JobManager服务的高可用。

4.1 基于 Standalone 模式配置 Flink 高可用

4.1.1 高可用说明

在 Standalone 模式下，可以同时在多台节点上开启 JobManager 服务，并将状态注册到 Zookeeper，保证整个 Flink 集群中同一时间只有一个 JobManager 处于 Leader 状态，负责与客户端交互，并控制集群中的 TaskManager 服务，其他 JobManager 处于 Standby 状态。

当处于 Leader 状态的 JobManager 异常崩溃时，Flink 集群中另外某一个 JobManager 会从 Standby 状态切换为 Leader 状态，接手集群的维护和管理。此时，即使刚才崩溃的 JobManager 从故障中恢复，不会再次立即担任 Leader，而是变为 Standby 状态。

4.1.2 部署高可用

修改配置文件

修改 Flink conf 目录下的 masters 文件，内容如下：
```
linux01:8081
linux02:8081
```

修改Flink conf 目录下的 flink-conf.yaml 文件，内容如下：

# 指定高可用模式为：Zookeeper。
high-availability: zookeeper
# 指定 Zookeeper 节点地址，多个地址用逗号分隔。
high-availability.zookeeper.quorum: linux01:2181,linux02:2181,linux03:2181
# 设置 JobManager 注册到 Zookeeper 中的目录（挂载点目录），
# 注意：如果当前所有机器节点中存在多个 Standalone 模式的高可用集群，则应该有不同的挂载点目录。
high-availability.zookeeper.path.root: /flink
# 指定当前高可用集群的唯一ID（如果当前所有机器节点中存在多个 Standalone 模式的高可用集群），
# 注意，在 YARN 模式下不要设置此值，YARN 每次会自动生成 Cluster-id。
high-availability.cluster-id: /flink_ns01
# 设置高可用数据的存储位置，Zookeeper中只存储元数据信息。
high-availability.storageDir: hdfs://linux01:8020/flink/recovery

分发配置

分发上述修改后的配置文件到其他机器节点，命令如下：

$ pwd
/home/admin/modules/flink-1.8.1
$ scp -r conf/ linux02:/home/admin/modules/flink-1.8.1/
$ scp -r conf/ linux03:/home/admin/modules/flink-1.8.1/

启动服务

最后，通过脚本启动 Flink 服务即可，命令如下：

$ bin/start-cluster.sh
Starting HA cluster with 2 masters.
Starting standalonesession daemon on host linux01.
Starting standalonesession daemon on host linux02.
Starting taskexecutor daemon on host linux02.
Starting taskexecutor daemon on host linux03.

4.2 基于 YARN 模式配置 Flink 高可用

4.2.1 高可用说明

基于 YARN 模式部署 JobManager 的高可用（Flink Session方式），不会提前开启多个 JobManager，而是只开启 1 个，当这个 JobManager 在 YARN 中发生异常时，YARN 会尝试在不同的 NodeManager 节点中重启一个新的 JobManager。

在此过程中，需要在 YARN 中配置 Application Master 的重启次数，并在 Flink 的配置文件中，指定 JobManager 重启尝试的次数。

接下来，我们进行高可用的部署。

4.2.2 部署高可用

修改配置文件

修改 yarn-site.xml 配置文件

设置 Application Master 的重试次数，添加如下内容：

<property>
  <name>yarn.resourcemanager.am.max-attempts</name>
  <value>6</value>
  <description>
    The maximum number of application master execution attempts.
  </description>
</property>

如果上数值设置为 2，则意味着允许 Application Master 单点故障。

修改 Flink 的 flink-conf.yaml 文件

重新修改 flink-conf.yaml 高可用部分的内容如下：

high-availability: zookeeper
high-availability.zookeeper.quorum: linux01:2181,linux02:2181,linux03:2181
high-availability.storageDir: hdfs://linux01:8020/flink/recovery
high-availability.zookeeper.path.root: /flink
yarn.application-attempts: 4

分发 Flink 和 YARN 的配置文件到其他节点

$ pwd
/home/admin/modules/flink-1.8.1

$ scp -r conf/ linux02:/home/admin/modules/flink-1.8.1/
$ scp -r conf/ linux03:/home/admin/modules/flink-1.8.1/

$ scp /home/admin/modules/hadoop-2.7.2/etc/hadoop/yarn-site.xml linux02:/home/admin/modules/hadoop-2.7.2/etc/hadoop/
$ scp /home/admin/modules/hadoop-2.7.2/etc/hadoop/yarn-site.xml linux03:/home/admin/modules/hadoop-2.7.2/etc/hadoop/

启动服务

最后，通过脚本启动 Flink Session 服务即可，命令如下：
```
$ bin/yarn-session.sh -n 2
```

004 Flink 服务的高可用