hadoop的高可用(HA)机制

一、HA简介

HA(High Available)即高可用,HA的目的是为了消除单点故障(SPOF), 对hadoop而言,HA包含了Hdfs的HA和Yarn的HA。配置HA后,集群中Hdfs的NameNode或Yarn的ResourceManager在宕或升级维护等场景下可快速进行机器切换,保证集群可用。

二、 Hdfs的HA机制

1.1 Hdfs HA方案

为了解决Hdfs的SPOF问题,Hadoop提供Hdfs的HA方案是:提供两个NameNode,一个处于active状态,对位提供服务处理客户端的读写请求;另一个处于standby状态,不对外提供服务,仅仅同步active的NameNode的状态,以在其故障时快速进行快速转移。

基于QJM(Quorum Journal Node)的Hdfs HA方案:


image.png
  • 集群启动后,standby NameNode和active NameNode同时与JournalNodes(JNS)进程保持通信。其中,active NameNode提供服务,处理客户端和DateNode的请求。active节点在namespace更新时将editlog写到本地和JNS(作为shared editlog)。而standby NameNode周期性的从JNS中获取editlog并应用到本地namespace,在failover发生时,standby节点会在转变为active之前从JNS中读取并处理所有editlog,以此保持与active NameNode的状态完全同步。

  • 另一方面,为了failover后standy节点快速提供服务,所有的DateNode节点同时向主备两个NameNode报告block信息。

  • 在任意时刻,为了防止“split-brain”(脑裂),集群中保持只有一个active NameNode,否则集群中两个NameNode会产生不同的状态数据导致数据丢失或异常。这里通过fencing实现,具体表现为:1)每个时刻只能有一个NameNode能够写JNS; 2)每个时刻只有一个NameNode能够向DateNode发送更新命令。3)每个时刻只有一个NameNode响应客户端请求

  • 为了实现HA的自动failover,每个NameNode节点都开启一个FailoverController进程,FailoverController与zookeeper集群通信。FailoverController与zookeeper集群通信通过zookeeper选举机制选出active节点,并通过RPC发动命令让本机的NameNode转换为active或standby状态。

1.2 Hdfs HA的自动故障转移

上一节HA方案中的FailoverController(ZKFC)和zookeeper是为了实现HA的自动failover(如果没有需要手动failover)。看下ZKFC的架构设计:

image.png

ZKFC和NameNode部署在同一台宿主机器上(两者在不同的jvm进程),HealthMonitor、ActiveStandbyElector与ZKFailoverController处于同一个jvm进程(zkfc)

ZKFC主要的三个组件:

  1. HealthMonitor
    定期检查本地NameNode的状态,状态变化时回调ZKFailoverController作相应处理。

  2. ActiveStandbyElector
    管理NameNode在zookeeper上的状态,zookeeper上对应znode节点变化时回调ZKFailoverController作相应处理。

  3. ZKFailoverController
    向HealthMonitor和ActiveStandbyElector注册回调方法,接收并处理两者的事件。

ZKFC实现的功能:

  1. 健康监控(Health monitoring)

    通过HealthMonitor定期监控本地NameNode是否存活和健康。

  2. zk session管理(ZooKeeper Session Management)

    当本地NameNode是健康的时候,zkfc在zookeeper中持有一个session。如果本地NameNode正好是active节点,zkfc还会在zookeeper中持有“ephemeral”的znode作为锁,如果本地NameNode失效,ephemeral的znode会自动删除。

  3. 基于zk选主(ZooKeeper-based election )

    • 对active节点,如果HealthMonitor健康到本地NameNode处于非健康状态,则先通过fence功能关闭它(关闭或不能提供服务),再从zookeeper中删除对应的znode节点;

    • 对standby节点,如果本地NameNode是健康的,zkfc发现没有其它节点持有ephemeral独占锁(ActiveStandbyElector会监控到该事件), 则尝试去获取独占锁,如果获得该锁则进行failover:

      1)如果需要,则先对之前active的NameNode进行fence(可通过远程ssh强制杀死进程);

      2)将本地NameNode转换为active状态。

二、 Yarn的HA机制

2.1 Yarn HA方案

ResourceManager(RM)负责Yarn集群资源的跟踪及应用调度。Yarn的HA方案:通过active/standby架构,提供多个ResourceManager,同一时刻只有一个RM处于active状态,其它一个或多个RM处于standby状态,以此在RM故障时快速转移(支持手动或自动的方式)。

image.png
  • ResourceManager(RM)
    启动后尝试向zookeeper的/hadoop-ha节点写一个lock文件,获取lock成功则成为active节点,否则为standby节点。standby节点循环监控lock是否存在,如果不存在尝试获取,争取成为active节点。RM负责:接收client端任务请求,接收NodeManager节点的资源汇报,分配和调度NM的资源,启动和监控ApplicationMaster(AM)

  • NodeManager(NM)
    NM负责节点资源管理,启动container容器并运行task,上报资源和container运行状态给RM,task处理状态上报给ApplicationMaster(AM)

  • RMstatestore
    RM提供了多种RMstatestore的实现(可通过yarn.resourcemanager.store.class配置),如:MemoryRMStateStore、FileSystemRMStateStore、ZKRMStateStore,后两种实现是持久化的实现,其中,ZKRMStateStore在任意时间只允许单个RM的写入请求,防止脑裂,因此建议在HA方案中使用RMstatestore。

2.2 Yarn HA自动故障转移

ResourceManager中基于zookeeper的ActiveStandbyElector来选举哪个RM作为active RM。active RM关闭或故障时自动选举standby状态的RM作为新的active RM接管active RM的工作。

与HDFS的HA不同的是,YARN的HA方案不需要单独的ZKFC deamon程序, 基于zk的ActiveStandbyElector作为RM内部组件进行故障检测和active选举, zkfc仅仅作为RM的一个线程存在。

三、HA集群搭建

HA集群搭建,可参考另一篇博客://www.greatytc.com/p/e3b0afee4390

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352