spark从入门到放弃五十四:Spark Streaming(14)checkpoint

1.概述

每一个spark streaming 应用正常来说都要7*24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此,对实时计算的要求,应该是必须能够与应用程序逻辑无关的失败,进行容错。
如果要实现这个目标,spark streaming 程序就必须将足够的信息checkpoint 到容错的存储系统上,从而让他能够从失败中进行恢复。有两种数据需要进行checkpoint

2.1元数据checkpoint

将定义流式计算逻辑的信息,保存到容错的存储系统上,比如hdfs,当运行spark streaming 应用程序的Driver 进程所在节点失败时,该信息可以进行恢复。元数据信息包括:
(1).配置信息 --创建spark Streaming 应用程序的配置信息,比如sparkConf 中的信息。
(2)DStream 操作信息--定义Spark Streaming 应用程序的计算逻辑的DStream 操作信息。
(3) 未处理的batch 信息--那些job 数据正在排队,还没有处理的batch 信息。

2.2数据checkpoint

将实时计算过程中产生的RDD 的数据保存到可靠的存储系统中。
对于一些将多个batch的数据进聚合,有状态的transform 操作,这是非常有用的。在这种transform 操作中,生成的RDD 依赖之前的batch 的RDD ,这个会导致随着时间的推移,RDD 的依赖链条会变得越来越长。
要避免依赖链条变得越来越长,导致的一起变得越来越长的失败恢复时间,有状态的transformation 操作执行过程中间产生的RDD 会定期的被checkpoint 到可靠的存储系统上如hdfs ,从而削减RDD 的依赖链条,进而缩短失败恢复时间。
一句话概括一下,元数据checkpoint 主要是为了从driver 中进行恢复,而RDD checkpoing 主要是为了 使用到有状态的transformation 操作时,能够在其生产出的数据丢失时,进行快速的数据恢复。

3.如何启用checkpoint 机制

1.对于有状态的transform 操作,启用checkpoint 机制,定期的将其生产的RDD 数据checkpoint 式比较简单的。
可以通过配置一个容错的,可靠的文件系统比如HDFS 目录,来启用checkpoint 机制,checkpoint 数据就会写入到该目录,使用StreamingContext 的checkpoint() 方法即可,然后就可以放心的使用有状态的transformation 操作可
2.如果为了要从Driver 失败进行恢复,那么启用checkpoint 机制,是比较复杂的需要改写spark Streaming 应用程序。
当应用程序第一次启动的时候 需要创建一个新的Streaming context 并且调用其start 方法进行启动当driver 从失败中恢复过来时,需要从checkpoint 目录中记录的元数据进行恢复,恢复出来一个Streaming context .
欢迎关注,更多福利


这里写图片描述
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容