spark shuffle 的两种实现

在Spark 1.2以前,默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端,就是会产生大量的中间磁盘文件,进而由大量的磁盘IO操作影响了性能。

在Spark 1.2以后的版本中,默认的ShuffleManager改成了SortShuffleManager。SortShuffleManager相较于HashShuffleManager来说,有了一定的改进。主要就在于,每个Task在进行shuffle操作时,虽然也会产生较多的临时磁盘文件,但是最后会将所有的临时文件合并(merge)成一个磁盘文件,因此每个Task就只有一个磁盘文件。在下一个stage的shuffle read task拉取自己的数据时,只要根据索引读取每个磁盘文件中的部分数据即可。

HashShuffleManager(spark 2.x弃用)

未经优化的HashShuffleManager 


优化后的HashShuffleManager 


优化,是指我们可以设置一个参数,spark.shuffle.consolidateFiles。该参数默认值为false,将其设置为true即可开启优化机制。通常来说,如果我们使用HashShuffleManager,那么都建议开启这个选项。

SortShuffleManager

SortShuffleManager的运行机制主要分成两种,一种是普通运行机制,另一种是bypass运行机制。当shuffle read task的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值时(默认为200),就会启用bypass机制。


在基于排序的shuffle中,根据目标分区ID对传入的记录进行排序,然后写入一个单一的map output file 。reducers 拉取该文件的相邻区域,以便读取他们的map output 部分。在map output数据太大而无法加载内存的情况下,已排序的输出子集可以溢出到磁盘,而磁盘文件上的子集被合并,生成最终输出文件。

基于sort的洗牌有两种不同的生成路径来产生它的map output 文件: 

1、Serialized sorting 

当以下三个条件都成立时使用: 

shuffle依赖项不指定聚集或输出排序; 

支持序列化值的重新定位(当前支持KryoSerializer 和 Spark SQL’s custom serializers); 

shuffle产生少于16777216个输出分区 

2、Deserialized sorting 

用于处理所有其他情况。

Serialized sorting mode序列化排序模式 

在序列化排序模式中,传入的记录只要传递到shuffle写入器,并在排序过程中以串行形式缓冲,做了几处优化:

1、排序操作的是二进制序列化数据而不是java对象,从而降低了内存消耗和GC开销。 

这种优化要求记录序列化器具有一定的属性允许序列化记录被重新排序,而不需要反序列化。

2、它使用一种专门的缓存高效排序器(ShuffleExternalSorter)排序,压缩记录指针和分区ID的数组。在排序数组中,每条记录只使用8字节的空间,这可以将更多的数组放入缓存中。

3、 溢出合并过程对属于同一个分区的序列化记录块进行操作。在合并过程中不需要反序列化记录。

4、当溢出压缩编解码器支持压缩数据的级联时,溢出合并简单地串联序列化和压缩溢出分区以生成最终输出分区。 

这允许使用高效的数据复制方法,如NIO的“transferTo”。为了避免在合并过程中分配解压或复制缓冲区。

ByPassSortShuffleManager

该类实现基于排序的 shuffle hash-style shuffle fallback 路径。写入路径将传入记录写入单独的文件,每个reduce分区一个文件,然后将这些文件串联起来。每个分区文件形成单个输出文件,其中的区域被提供给reducers.记录不缓存在内存中,基本和HashShuffleWriter类似, 

除了除了它以格式写入输出,可以通过IndexShuffleBlockResolver服务或消费,这个写入路径对于大量的reduce分区是无效的,因为 

同时为所有分区打开单独的序列化程序和文件流。

启动bypass机制的条件:

no Ordering is specified, 

no Aggregator is specific 

the number of partitions is less than spark.shuffle.sort.bypassMergeThreshold


Spark Shuffle调优 

spark.shuffle.file.buffer 32k buffer大小默认是32K  maptask端的shuffle 降低磁盘IO .

spark.reducer.MaxSizeFlight 48M shuffle read拉取数据量的大小

spark.shuffle.memoryFraction 0.2 shuffle聚合内存的比例

spark.shuffle.io.maxRetries 3 拉取数据重试次数

spark.shuffle.io.retryWait 5s 调整到重试间隔时间60s

spark.shuffle.manager hash|sort Spark Shuffle的种类

spark.shuffle.consolidateFiles false 针对HashShuffle   HashShuffle 合并机制

spark.shuffle.sort.bypassMergeThreshold 200 针对SortShuffle SortShuffle bypass机制 200次

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容