大数据开发之MapReduce介绍

一.MapReduce简介

最简单的WordCount采用MR算法:

image.png

MapReduce是一种用于数据处理的编程模型。该模型非常简单。同一个程序Hadoop可以运行用各种语言编写的Map Reduce程序。最重要的是， MapReduce 程序本质上是并行的，因此可以将大规模的数据分析交给任何一个拥有足够多机器的运营商。MapReduce的优势在于处理大型数据集。

MapReduce的工作过程分为两个阶段：map阶段和reduce阶段。每个阶段都有键／值对作为输入和输出，并且它们的类型可由程序员选择。程序员还具体定义了两个函数：map函数和reduce函数。

在一个mapreduce的作业中必定会涉及到如下一些组件：
1、客户端，提交mapreduce作业
2、yarn资源管理器，负责集群上计算资源的协调
3、yarn节点管理器，负责启动和监控集群中机器上的计算容器（container）
4、mapreduce的application master，负责协调运行mapreduce的作业
5、hdfs，分布式文件系统，负责与其他实体共享作业文件

二.MapReduce作业提交过程

MapReduce作业的提交过程包含如下几个步骤

1.作业的提交
2.作业的初始化
3.作业任务的分配
4.作业任务的执行
5.作业执行状态更新
6.作业完成

image.png

2.1 作业的提交

JobSubmmiter实现的大概过程如下：
1、向资源管理器resourcemanager提交申请，用于一个mapreduce作业ID，如图步骤2所示
2、检查作业的输出配置，判断目录是否已经存在等信息
3、计算作业的输入分片的大小
4、将运行作业的jar，配置文件，输入分片的计算资源复制到一个以作业ID命名的hdfs临时目录下，作业jar的复本比较多，默认为10个（通过参数mapreduce.client.submit.file.replication控制），
5、通过资源管理器的submitApplication方法提交作业

2.2 作业的初始化

1、当资源管理器通过方法submitApplication方法被调用后，便将请求传给了yarn的调度器，然后调度器在一个节点管理器上分配一个容器（container0）用来启动application master（主类是MRAppMaster）进程。该进程一旦启动就会向resourcemanager注册并报告自己的信息，application master并且可以监控map和reduce的运行状态。因此application master对作业的初始化是通过创建多个薄记对象以保持对作业进度的跟踪。

2、application master接收作业提交时的hdfs临时共享目录中的资源文件，jar，分片信息，配置信息等。并对每一个分片创建一个map对象，以及通过mapreduce.job.reduces参数（作业通过setNumReduceTasks()方法设定）确定reduce的数量。

3、application master会判断是否使用uber（作业与application master在同一个jvm运行，也就是maptask和reducetask运行在同一个节点上）模式运行作业，uber模式运行条件：map数量小于10个，1个reduce，且输入数据小于一个hdfs块
可以通过参数：

mapreduce.job.ubertask.enable   #是否启用uber模式
mapreduce.job.ubertask.maxmaps   #ubertask的最大map数
mapreduce.job.ubertask.maxreduces #ubertask的最大reduce数
mapreduce.job.ubertask.maxbytes #ubertask最大作业大小

4、application master调用setupJob方法设置OutputCommiter,FileOutputCommiter为默认值，表示建立做的最终输出目录和任务输出的临时工作空间

2.3 作业任务分配

1、在application master判断作业不符合uber模式的情况下，那么application master则会向资源管理器为map和reduce任务申请资源容器。

2、首先就是为map任务发出资源申请请求，直到有5%的map任务完成时，才会为reduce任务所需资源申请发出请求。

3、在任务的分配过程中，reduce任务可以在任何的datanode节点运行，但是map任务执行的时候需要考虑到数据本地化的机制，在给任务指定资源的时候每个map和reduce默认为1G内存，可以通过如下参数配置：

mapreduce.map.memory.mb
mapreduce.map.cpu.vcores
mapreduce.reduce.memory.mb
mapreduce.reduce.cpu.vcores

2.4 作业任务的执行

application master提交申请后，资源管理器为其按需分配资源，这时，application master就与节点管理器通信来启动容器。该任务由主类YarnChild的一个java应用程序执行。在运行任务之前，首先将所需的资源进行本地化，包括作业的配置，jar文件等。接下来就是运行map和reduce任务。YarnChild在单独的JVM中运行。

2.5 作业任务的状态更新

每个作业和它的每个任务都有一个状态：作业或者任务的状态（运行中，成功，失败等），map和reduce的进度，作业计数器的值，状态消息或描述当作业处于正在运行中的时候，客户端可以直接与application master通信，每秒（可以通过参数mapreduce.client.progressmonitor.pollinterval设置）轮询作业的执行状态，进度等信息。

2.6 作业的完成

当application master收到最后一个任务已完成的通知，便把作业的状态设置为成功。
在job轮询作业状态时，知道任务已经完成，然后打印消息告知用户，并从waitForCompletion()方法返回。
当作业完成时，application master和container会清理中间数据结果等临时问题。OutputCommiter的commitJob()方法被调用，作业信息由作业历史服务存档，以便用户日后查询。

三.shuffle

mapreduce确保每个reduce的输入都是按照键值排序的，系统执行排序，将map的输入作为reduce的输入过程称之为shuffle过程。shuffle也是我们优化的重点部分。shuffle流程图如下图所示：

image.png

3.1 map端

在生成map之前，会计算文件分片的大小

然后会根据分片的大小计算map的个数，对每一个分片都会产生一个map作业，或者是一个文件（小于分片大小*1.1）生成一个map作业，然后通过自定的map方法进行自定义的逻辑计算，计算完毕后会写到本地磁盘。

在这里不是直接写入磁盘，为了保证IO效率，采用了先写入内存的环形缓冲区，并做一次预排序（快速排序）。缓冲区的大小默认为100MB（可通过修改配置项mpareduce.task.io.sort.mb进行修改），当写入内存缓冲区的大小到达一定比例时，默认为80%（可通过mapreduce.map.sort.spill.percent配置项修改）,将启动一个溢写线程将内存缓冲区的内容溢写到磁盘（spill to disk），这个溢写线程是独立的，不影响map向缓冲区写结果的线程，在溢写到磁盘的过程中，map继续输入到缓冲中，如果期间缓冲区被填满，则map写会被阻塞到溢写磁盘过程完成。溢写是通过轮询的方式将缓冲区中的内存写入到本地mapreduce.cluster.local.dir目录下。在溢写到磁盘之前，我们会知道reduce的数量，然后会根据reduce的数量划分分区，默认根据hashpartition对溢写的数据写入到相对应的分区。在每个分区中，后台线程会根据key进行排序，所以溢写到磁盘的文件是分区且排序的。如果有combiner函数，它在排序后的输出运行，使得map输出更紧凑。减少写到磁盘的数据和传输给reduce的数据。

每次环形换冲区的内存达到阈值时，就会溢写到一个新的文件，因此当一个map溢写完之后，本地会存在多个分区切排序的文件。在map完成之前会把这些文件合并成一个分区且排序(归并排序)的文件，可以通过参数mapreduce.task.io.sort.factor控制每次可以合并多少个文件。

在map溢写磁盘的过程中，对数据进行压缩可以提交速度的传输，减少磁盘io，减少存储。默认情况下不压缩，使用参数mapreduce.map.output.compress控制，压缩算法使用mapreduce.map.output.compress.codec参数控制。

3.2 reduce端

map任务完成后，监控作业状态的application master便知道map的执行情况，并启动reduce任务，application master并且知道map输出和主机之间的对应映射关系，reduce轮询application master便知道主机所要复制的数据。

一个Map任务的输出，可能被多个Reduce任务抓取。每个Reduce任务可能需要多个Map任务的输出作为其特殊的输入文件，而每个Map任务的完成时间可能不同，当有一个Map任务完成时，Reduce任务就开始运行。Reduce任务根据分区号在多个Map输出中抓取（fetch）对应分区的数据，这个过程也就是Shuffle的copy过程。。reduce有少量的复制线程，因此能够并行的复制map的输出，默认为5个线程。可以通过参数mapreduce.reduce.shuffle.parallelcopies控制。

这个复制过程和map写入磁盘过程类似，也有阀值和内存大小，阀值一样可以在配置文件里配置，而内存大小是直接使用reduce的tasktracker的内存大小，复制时候reduce还会进行排序操作和合并文件操作。

如果map输出很小，则会被复制到Reducer所在节点的内存缓冲区，缓冲区的大小可以通过mapred-site.xml文件中的mapreduce.reduce.shuffle.input.buffer.percent指定。一旦Reducer所在节点的内存缓冲区达到阀值，或者缓冲区中的文件数达到阀值，则合并溢写到磁盘。

如果map输出较大，则直接被复制到Reducer所在节点的磁盘中。随着Reducer所在节点的磁盘中溢写文件增多，后台线程会将它们合并为更大且有序的文件。当完成复制map输出，进入sort阶段。这个阶段通过归并排序逐步将多个map输出小文件合并成大文件。最后几个通过归并合并成的大文件作为reduce的输出

3.3 总结

当Reducer的输入文件确定后，整个Shuffle操作才最终结束。之后就是Reducer的执行了，最后Reducer会把结果存到HDFS上。

在Hadoop集群环境中，大部分map 任务与reduce任务的执行是在不同的节点上。当然很多情况下Reduce执行时需要跨节点去拉取其它节点上的map任务结果。如果集群正在运行的job有很多，那么task的正常执行对集群内部的网络资源消耗会很严重。这种网络消耗是正常的，我们不能限制，能做的就是最大化地减少不必要的消耗。还有在节点内，相比于内存，磁盘IO对job完成时间的影响也是可观的。从最基本的要求来说，我们对Shuffle过程的期望可以有：

1、完整地从map task端拉取数据到reduce 端。
2、在跨节点拉取数据时，尽可能地减少对带宽的不必要消耗。
3、减少磁盘IO对task执行的影响。

在MapReduce计算框架中，主要用到两种排序算法：快速排序和归并排序。在Map任务发生了2次排序，Reduce任务发生一次排序：

1、第1次排序发生在Map输出的内存环形缓冲区，使用快速排序。当缓冲区达到阀值时，在溢写到磁盘之前，后台线程会将缓冲区的数据划分成相应分区，在每个分区中按照键值进行内排序。

2、第2次排序是在Map任务输出的磁盘空间上将多个溢写文件归并成一个已分区且有序的输出文件。由于溢写文件已经经过一次排序，所以合并溢写文件时只需一次归并排序即可使输出文件整体有序。

3、第3次排序发生在Shuffle阶段，将多个复制过来的Map输出文件进行归并，同样经过一次归并排序即可得到有序文件。

四.作业失败和容错

既然有作业的运行，肯定会有作业的失败，作业的失败（不考虑硬件，平台原因引起的失败）可能会存在不同的问题

4.1 任务运行失败

用户代码抛出异常（代码没写好）：这种情况任务JVM会在退出之前向application master发送错误报告，并记录进用户日志，application master对该作业标记为failed，并释放掉占有的资源容器。

另一种就是JVM突然退出，这种情况节点管理器会注意到进程已经退出，并通知application master将此任务标记为失败，如果是因为推测执行而导致任务被终止，则不会被被标记为失败。而任务挂起又不同，一旦application master注意到有一段时间没有收到进度更新，便会把任务标记为失败，默认为10分钟，参数mapreduce.task.timeout控制application master被告知一个任务失败，将会重新调度该任务执行（会在与之前失败的不同节点上运行），默认重试4次，如果四次都失败，则作业判定为失败，参数控制为：

mapreduce.map.maxattempts
mapreduce.reduce.maxattempts

4.2 application master运行失败

AM也可能由于各种原因（如网络问题或者硬件故障）失效，Yarn同样会尝试重启AM
可以为每个作业单独配置AM的尝试重启次数：mapreduce.am.max-attempts，默认值为2
Yarn中的上限一起提高：yarn.resourcemanager.am.nax-attempts，默认为2，单个应用程序不可以超过这个限制，除非同时修改这两个参数。

恢复过程：application master向资源管理器发送周期性的心跳。当application master失败时，资源管理器会检测到该失败，并在一个新的容器中启动application master，并使用作业历史来恢复失败的应用程序中的运行任务状态，使其不必重新运行，默认情况下恢复功能是开启的，yarn.app.mapreduce.am.job.recovery.enable控制客户端向application master轮询作业状态时，如果application master运行失败了，则客户端会向资源管理器resourcemanager询问和缓存application master地址。

4.3 节点管理器运行失败

如果节点管理器崩溃或者运行非常缓慢，则就会停止向资源管理器发送心跳信息，如果10分钟（可以通过参数yarn.resourcemanager.nm.liveness-monitor.expiry-interval-ms设置）资源管理器没有收到一条心跳信息，则资源管理器将会通知停止发送心跳的节点管理器，并将其从自己的资源池中移除该节点管理器，在该节点上的application master和任务的失败，都通过如上两种恢复机制进行恢复。

4.4 资源管理器运行失败

资源管理器失败时一个很严重的问题，所有的任务将不能被分配资源，作业和容器都无法启动，那么整个通过yarn控制资源的集群都处于瘫痪状态。

容错机制：resourcemanager HA

参考

内容来自《Hadoop权威指南》及 https://www.cnblogs.com/zsql/p/11600136.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,884评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,347评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,435评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,509评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,611评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,837评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,987评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,730评论 0赞 267
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,194评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,525评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,664评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,334评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,944评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,764评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,997评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,389评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,554评论 2赞 349

大数据开发之MapReduce介绍

一.MapReduce简介

二.MapReduce作业提交过程

2.1 作业的提交

2.2 作业的初始化

2.3 作业任务分配

2.4 作业任务的执行

2.5 作业任务的状态更新

2.6 作业的完成

三.shuffle

3.1 map端

3.2 reduce端

3.3 总结

四.作业失败和容错

4.1 任务运行失败

4.2 application master运行失败

4.3 节点管理器运行失败

4.4 资源管理器运行失败

参考

推荐阅读更多精彩内容