Spark-Shuffle详细过程参考

MapReduce的shuffle的计算过程是在executor中划分mapper与reducer，可以作为对比参考。

Spark的Shuffle中有两个重要的压缩参数：

设置spark.shuffle.compress=true：是否将会将shuffle中outputs的过程进行压缩。
可将spark.io.compression.codec 编码器设置数据压缩格式。
通过spark.shuffle.manager 来设置shuffle时的排序算法，有hash,sort,tungsten-sort。（用hash会快一点，因为不需要排序）

Hash Shuffle 输出中间数据

使用hash散列有很多缺点，主要是因为每个Map task都会为每个reduce生成一份文件，所以最后就会有M * R个文件数量，与executor数量和core数量没有关系。那么如果在比较多的Map数量和Reduce数量的情况下就会出问题，输出缓冲区的大小，系统中打开文件的数量，创建和删除所有这些文件的速度都会受到影响。如下图：

M*R个中间小文件

这里有一个优化的参数spark.shuffle.consolidateFiles，默认为false。当设置成true时，会对mapper output时的文件进行合并。如果你集群有E个executors(“-num-excutors”)以及C个cores（"-executor-cores”），以及每个task有T个CPUs(“spark.task.cpus”)，那么总共的execution的slot在集群上的个数就是E * C / T(也就是executor个数×CORE的数量/CPU个数）个，那么shuffle过程中所创建的文件就为E * C / T * R（也就是executor个数 × core的个数/CPU个数×Reduce个数）个。

#补充说明：spark.task.cpus默认值为1，表示number of cores to allocate for each task。

文献中都写的太过公式化，此处用通俗易懂的形式阐述下。就好比总共的并行度是20(5个executor,每个executor有4个core) Map阶段会将数据写入磁盘，当它完成时，他将会以Reduce的个数来生成文件数。那么每个executor就只会计算core的数量/spark.task.cpus个数的tasks。如果task数量大于总共集群并行度，那么将开启下一轮轮询执行。HashShuffle的执行速度较快，因为没有再对中间结果进行排序，减少了reduce打开文件时的性能消耗。

当数据是经过序列化以及压缩的，重新读取文件时，数据将进行解压缩与反序列化，这里reduce端数据的拉取有个参数spark.reducer.maxSizeInFlight(默认为48MB)，它将决定每次数据从远程的executors中拉取大小。这个拉取过程是由5个并行的request，从不同的executor中拉取过来，从而提升了fetch的效率。如果你加大了这个参数，那么reducers将会请求更多的文数据进来，它将提高性能，但是也会增加reduce时的内存开销。

Sort Shuffle 输出中间数据

Sort Shuffle如同hash shuffle的Map输出数据到磁盘，Reduce拉取数据的一个性质，当在进行SortShuffle时，总共的Reducers要小于spark.shuffle.sort.bypassMergeThrshold(默认为200)，将会执行回退计划，使用HashShuffle将数据写入单独的文件中，然后将这些小文件聚集到一个文件中，从而加快了效率。（实现自BypassMergeSortShuffleWriter中）

那么它的实现逻辑是在Reducer端合并Mappers的输出结果。Spark在reduce端的排序是用了TimSort，它就是在reduce前，提前用算法进行了排序。那么用算法的思想来说，合并的M*N个元素进行排序，那么其复杂度为O(MNlogM)，具体算法不讲了。

随之，当你没有足够的内存保存map的输出结果时，在溢出前，会将它们spill到磁盘，那么缓存到内存的大小便是 spark.shuffle.memoryFraction * spark.shuffle.safetyFraction。默认的情况下是”JVM Heap Size * 0.2 * 0.8 = JVM Heap Size * 0.16”。需要注意的是，当你多个线程同时在一个executor中运行时（spark.executor.cores/spark.task.cpus 大于1的情况下），那么map output的每个task将会拥有 “JVM Heap Size * spark.shuffle.memoryFraction * spark.shuffle.safetyFraction / spark.executor.cores * spark.task.cpus。

使用此种模式，会比使用hashing要慢一点，可通过bypassMergeThreshold找到集群的最快平衡点。

Tungsten Sort 输出中间数据

使用此种排序方法的优点在于，操作的二进制数据不需要进行反序列化。它使用 sun.misc.Unsafe模式进行直接数据的复制，因为没有反序列化，所以直接是个字节数组。同时，它使用特殊的高效缓存器ShuffleExtemalSorter压记录与指针以及排序的分区id.只用了8 Bytes的空间的排序数组。这将会比使用CPU缓存要效率。

每个spill的数据、指针进行排序，输出到一个索引文件中。随后将这些partitions再次合并到一个输出文件中。

#refer：https://0x0fff.com/spark-memory-management/

最后编辑于：2019.01.07 14:54:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,039评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,426评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,417评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,868评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,892评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,692评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,416评论 3赞 419
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,326评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,782评论 1赞 316
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,957评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,102评论 1赞 350
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,790评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,442评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,996评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,113评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,332评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,044评论 2赞 355

Spark-Shuffle详细过程参考

推荐阅读更多精彩内容