004 Flink 服务的高可用

这将是一套完整详细且持续更新的、长期维护的 原创 Flink系列教程、文档,其中会包含各种商用实例详解、Flink源码讲解、机制剖析、周边组件讲解等,旨在帮助开发者快速融入Flink开发,或作为工具文档参阅。也希望更多的开发者可以参与到大数据相关的技术讨论中来,共同商讨疑难杂症,丰富社区。——尽际

本文标题: 如何实现 Flink 服务的高可用

文章作者: 尽际

发布时间: 2019年08月06日 - 23:38:30

最后更新: 2019年08月06日 - 23:38:30

原始链接:

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。


四、Flink 服务的高可用

在几乎所有的分布式服务中,服务大体上都会分为两种角色:主服务从服务。例如:HDFS 中的 NameNode 与 DataNode;YARN 中的 Resourcemanager 与 NodeManager;Flink 中的 JobManager 与 TaskManager。

主服务 一般情况下会协调、管理、控制着整个分布式服务的运行。对于 Flink 而言,JobManager 负责作业调度、资源管理,如果该服务异常下线,则会导致整个 Flink 分布式服务崩溃。对于单台 JobManager 服务而言(单点故障)还是存在较大风的。因此,本节主要讲述如何部署Flink JobManager服务的高可用。

4.1 基于 Standalone 模式配置 Flink 高可用

4.1.1 高可用说明

在 Standalone 模式下,可以同时在多台节点上开启 JobManager 服务,并将状态注册到 Zookeeper,保证整个 Flink 集群中同一时间只有一个 JobManager 处于 Leader 状态,负责与客户端交互,并控制集群中的 TaskManager 服务,其他 JobManager 处于 Standby 状态。

当处于 Leader 状态的 JobManager 异常崩溃时,Flink 集群中另外某一个 JobManager 会从 Standby 状态切换为 Leader 状态,接手集群的维护和管理。此时,即使刚才崩溃的 JobManager 从故障中恢复,不会再次立即担任 Leader,而是变为 Standby 状态。

4.1.2 部署高可用

  1. 修改配置文件

    • 修改 Flink conf 目录下的 masters 文件,内容如下:

      linux01:8081
      linux02:8081
      
    • 修改Flink conf 目录下的 flink-conf.yaml 文件,内容如下:

      # 指定高可用模式为:Zookeeper。
      high-availability: zookeeper
      # 指定 Zookeeper 节点地址,多个地址用逗号分隔。
      high-availability.zookeeper.quorum: linux01:2181,linux02:2181,linux03:2181
      # 设置 JobManager 注册到 Zookeeper 中的目录(挂载点目录),
      # 注意:如果当前所有机器节点中存在多个 Standalone 模式的高可用集群,则应该有不同的挂载点目录。
      high-availability.zookeeper.path.root: /flink
      # 指定当前高可用集群的唯一ID(如果当前所有机器节点中存在多个 Standalone 模式的高可用集群),
      # 注意,在 YARN 模式下不要设置此值,YARN 每次会自动生成 Cluster-id。
      high-availability.cluster-id: /flink_ns01
      # 设置高可用数据的存储位置,Zookeeper中只存储元数据信息。
      high-availability.storageDir: hdfs://linux01:8020/flink/recovery
      
    • 分发配置

      分发上述修改后的配置文件到其他机器节点,命令如下:

      $ pwd
      /home/admin/modules/flink-1.8.1
      $ scp -r conf/ linux02:/home/admin/modules/flink-1.8.1/
      $ scp -r conf/ linux03:/home/admin/modules/flink-1.8.1/
      
  2. 启动服务

    最后,通过脚本启动 Flink 服务即可,命令如下:

    $ bin/start-cluster.sh
    Starting HA cluster with 2 masters.
    Starting standalonesession daemon on host linux01.
    Starting standalonesession daemon on host linux02.
    Starting taskexecutor daemon on host linux02.
    Starting taskexecutor daemon on host linux03.
    

4.2 基于 YARN 模式配置 Flink 高可用

4.2.1 高可用说明

基于 YARN 模式部署 JobManager 的高可用(Flink Session方式),不会提前开启多个 JobManager,而是只开启 1 个,当这个 JobManager 在 YARN 中发生异常时,YARN 会尝试在不同的 NodeManager 节点中重启一个新的 JobManager。

在此过程中,需要在 YARN 中配置 Application Master 的重启次数,并在 Flink 的配置文件中,指定 JobManager 重启尝试的次数。

接下来,我们进行高可用的部署。

4.2.2 部署高可用

  1. 修改配置文件

    • 修改 yarn-site.xml 配置文件

      设置 Application Master 的重试次数,添加如下内容:

      <property>
        <name>yarn.resourcemanager.am.max-attempts</name>
        <value>6</value>
        <description>
          The maximum number of application master execution attempts.
        </description>
      </property>
      

      如果上数值设置为 2,则意味着允许 Application Master 单点故障。

    • 修改 Flink 的 flink-conf.yaml 文件

      重新修改 flink-conf.yaml 高可用部分的内容如下:

      high-availability: zookeeper
      high-availability.zookeeper.quorum: linux01:2181,linux02:2181,linux03:2181
      high-availability.storageDir: hdfs://linux01:8020/flink/recovery
      high-availability.zookeeper.path.root: /flink
      yarn.application-attempts: 4
      
    • 分发 Flink 和 YARN 的配置文件到其他节点

      $ pwd
      /home/admin/modules/flink-1.8.1
      
      $ scp -r conf/ linux02:/home/admin/modules/flink-1.8.1/
      $ scp -r conf/ linux03:/home/admin/modules/flink-1.8.1/
      
      $ scp /home/admin/modules/hadoop-2.7.2/etc/hadoop/yarn-site.xml linux02:/home/admin/modules/hadoop-2.7.2/etc/hadoop/
      $ scp /home/admin/modules/hadoop-2.7.2/etc/hadoop/yarn-site.xml linux03:/home/admin/modules/hadoop-2.7.2/etc/hadoop/
      
  2. 启动服务

    最后,通过脚本启动 Flink Session 服务即可,命令如下:

    $ bin/yarn-session.sh -n 2
    

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 207,113评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,644评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,340评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,449评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,445评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,166评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,442评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,105评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,601评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,066评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,161评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,792评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,351评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,352评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,584评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,618评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,916评论 2 344