Spark架构(译)

这篇文章,是我在尝试理解Spark的一些概念时,找到的一篇文章。这篇文章主要介绍的是Spark中的内存模型。由于译者水平有限,翻译的过程中难免有些错误,请读者怀着质疑的心理来阅读这篇文章。

我们先来看 http://spark.apache.org/docs/1.3.0/cluster-overview.html中给的一副图片:

正如你所看到的那样,其中包含了太多术语。我个人不是很喜欢这种风格,因为它并不能突出一些重点概念。

我们从头开始说。在你的集群中,任何Spark进程都是都是一个JVM进程。所以,你可以通过配置JVM的内存的那些参数来配置它。下面是一幅关于Spark如何分配JVM堆内存的图片:

默认情况下,Spark会启动一个有512MB大小堆内存的JVM。为了保证安全,避免OOM这种错误,Spark只允许你使用90%的堆内存,当然,你可以通过spark.storage.safetyFraaction参数来进行调节。

你可能听说过这样一种说法,作为一个内存工具,Spark允许你将数据保存到内存中。如果你看过我的https://0x0fff.com/spark-misconceptions/这篇文章,你应该明白,Spark并不是一个真正的内存工具,它只是按照LRU算法来使用的它的缓存。

所以,Spark会划分一部分内存,用于缓存你在处理过程中产生的数据,这一部分内存的大小,通常是安全堆(堆的90%)的60%,你也可以通过spark.storage.memoryFraction参数来调节。所以,如果你想要知道,在你的集群中,Spark能够缓存多少数据,你可以通过下面的公式计算:集群中全部的堆的大小safetyFraction * storage.memoryFraction,在默认的情况下,允许Spark使用90%60%,也就是54%的集群中全部的堆内存。

现在我们来介绍一下shuffle memory。它可以通过下面的公式计算:堆大小 * spark.shuffle.safetyFraction * spark.shuffle.memoryFraction。其中,默认情况下,spark.shuffle.memoryFraction是80%,spark.shuffle.memoryFraction是20%。所以,你可以将16%的堆大小用于shuffle。

那么,shuffle memory是干嘛的呢?顾名思义,一般情况下,就是用于shuffle这个操作。当执行shuffle操作时,有的时候,需要对数据进行排序,这时候,我们就需要一个buffer,而shuffle memory就可以作为这个buffer来使用。那么,如果我们的数据量太大,shuffle memory不够用怎么办?我们有大量的外排序算法可以使用。

还有一块区域我们没有介绍到,就是unroll memory。这块内存的大小可以通过下面的公式计算:堆大小 * spark.storage.unrollFraction * spark.storage.memoryFraction * spark.storage.safetyFraction,默认情况下,就是20% * 60% * 90%,即10.8%。

那么,unroll memory又是干嘛的呢?这块内存,是我们需要数据"展开"的时候使用的。比如,被序列化之后的数据并不能被直接使用,所以,我们需要将它"展开"。这块区域是和Storage这块区域共享的,所以,这也就意味着,如果你需要一些内存来展开数据,那么,可能会丢失一些存储在Spark LRU Cache中的Partition.

现在你理解了Spark如何使用内存了。

那我们来看一下,当你启动一个Spark集群时,它看起来是什么样子?下面的例子都是针对YARN来进行的。

在一个YARN集群中,有一个Resource Manager,用于控制集群中的资源,以及好多个Node Managers,用来控制每个节点上资源的使用率。当你向YARN Resource Manager请求资源的时候,它会告诉你,你应该去联系哪个Node Manager,来获取execution container。每个execution container都是一个拥有你请求的资源的JVM。execution container的位置是由Resource Manager决定的,你无法控制它。比如,如果一个节点有64GB的内存,然后你请求10个executors,每个executors都需要4GB的内存,那么,即使你有一个包含很多个节点的集群,这些executors还是可能仅仅运行在一个节点上。

你的Job,会被拆分成不同的Stage,然后,每个Stage又会被切分成tasks。每个task都会被分开调度。你可以把每个executor看成一个task池,每个executor都可以让你运行spark.executor.cores / spark.task.cpus个tasks。

例如,如果我们有一个12个节点的集群,每个节点都有64GB的内存,32个核。所以,你可以在每个节点上启动两个用于26GB内存以及12个核的executor。所以你的集群总共能处理12 machines * 2 executors per machine * 12 cores per executor / 1 core for each task = 288个task。也就是说,你的集群能够同时运行288个task。这个集群中,你可以用来缓存你的数据的内存为0.9 spark.storage.safetyFraction * 0.6 spark.storage.memoryFraction * 12 machines * 2 executors per machine * 26GB per executor=336.96GB

原文链接

https://0x0fff.com/spark-architecture/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343