MapReduce计算模型

在Hadoop中，用于执行MapReduce任务的机器角色有两个：

JobTracker:用于调度工作的，初始化作业，分配作业，与TaskTracker进行通信，协调整个作业的执行
TaskTracker:用于执行工作的；保持与JobTracker的通信，在分配的数据片段上执行map或reduce任务
HDFS：保存作业的数据，配置信息，保存作业结果
客户端：编写mapreduce，配置作业，提交作业

一个Hadoop集群只有一个JobTracker.

MapReduce是一种编程模型，是一种编程方法。

输入一个大文件，通过split之后，将其分为多个分片
每个文件分片由单独的机器去处理，这就是map方法
将各个机器计算的结果进行汇总并得到最终的结果，这就是reduce方法

input->split->map->shuffle->reduce->output

在Hadoop中，每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两个阶段：map阶段和reduce阶段，这两个阶段分别用两个函数来表示，即map函数和reduce函数，map函数接受一个<key,value>形式的输入，然后同样产生一个key-value形式的中间输出，Hadoop会负责将所有具有相同中间key值的value集合到一起传递给reduce函数，reduce函数接受一个如<key,(list of value)>的形式输入，然后对这个value集合进行处理，每个reduce产生0个或者1个输出，reduce的输出结果也是key-value

在MR的标准模型中，reduce阶段在map阶段完成之前无法启动，而且在下载到reducer之前，所有处理过程的中间数据都保存在磁盘中，所有这些都显著增加了处理的延迟

shuffle

shuffle过程包含在map和reduce两端，在Map端的shuffle过程是对map的结果进行划分partition,排序sort和分割spill,然后将属于同一个划分的输出合并在一起merge,并写在磁盘上，同时按照不同的划分将结果发送给对应的reduce（map的输出的划分和reduce的对应关系由JobTracker确定）。reduce端又会将各个map送来的属于同一个划分的输出进行合并，然后对merge的结果进行排序，最后交给reduce处理

map端

map端的shuffle过程包含在collect函数对map输出结果的处理过程中，

reduce端

reduce端shuffle阶段可以分为三个阶段：复制map输出，排序合并，reduce处理

旧API

map方法

map函数继承于MapReduceBase,并且实现了Mapper接口，此接口是一个泛型类型，有4个形式的参数，分别是

输入key值类型
输入value值类型
输出Key值类型
输出value值类型

reduce方法

reduce函数继承于MapReduceBase，并且实现了Reducer接口，reduce函数是以map函数的输出作为输入

新API

在新API中，Mapper与Reducer已经不是接口而是抽象类，而且map函数和reduce函数已经不再实现Mapper和Reducer接口，而是继承。
广泛使用context对象，并使用MapContext进行MapReduce之间的通信，MapContext同时充当OutCollector和Reporter
角色
Job的配置统一由configuration来完成，不需要额外使用JobConf对守护进程进行配置
由Job类来负责Job的控制，而不是JobClient,JobClient在新API中被删除

数据流

数据首先按照TextInputFormat形式被处理成两个InputSplit,然后输入到两个map中，map程序会读取inputSplit指定位置的数据，然后按照设定的方式处理批数据，最后写入本地磁盘中。注意，这里不是写到hdfs上，因为map的输出在job完成之后即可删除，因此不需要存储在hdfs上。但是由于网络传输降低了mapreduce任务的执行效率，因此map的输出文件是写在磁盘上的，如果map程序在没有来得及将数据传送到reduce就崩溃了，那么JobTracker只需要另外选取一台机器重新执行这个task就可以了。

Reduce会读取map的输出数据，合并Value,然后将他们输出到hdfs上，reduce的输出会占用很多的网络带宽，不过这与上传数据一样，是不可避免的。

在这，需要注意：

MapReduce在执行过程中往往不止一个reduce task,reduce task的数量是可以通过程序指定的，当存在多个reduce task时，每个reduce会收集一个或者多个key值，当出现多个reduce task时，每个reducetask都会生成一个输出文件
在没有reduce任务时，系统会直接将map的输出结果作为最终的结果，同时map task的数量可以看成是reduce task的数量，即有多少个maptask就有多少个输出文件

MR任务优化

MapReduce计算模型的优化主要集中在两个方面：计算性能方面的优化，IO操作方面的优化

任务的调度
计算方面，hadoop总是优先将任务分配给空闲的机器，使得所有的任务能公平分享资源；IO方面，hadoop尽量将Map任务分配给InputSplit的机器，减少网络IO的消耗
数据预处理与InputSplit的大小
MR任务擅长处理少量的大数据，不擅长大量的小数据，因此可以通过设置map的输入数据大小来调整map运行时间，可以设置块block的大小，也可以设置map任务的梳理来调整map任务的数据输入
maph和reduce任务的数量
combine函数
压缩
自定义comparator

Hadoop流

基本工作原理：

InputSplit->map>stdin>executable->stout->map->key/value

当一个可执行文件作为Mapper时，每一个map任务以一个独立的进程启动这个可执行文件，然后在map任务运行时，会把输入切分成行提供给可执行文件，并作为它的标准输入stdin内容，当可执行文件运行出结果

几个问题

新旧API之间的差别
如何去重
如何排序
reduce卡死
reduce过程的百分比与对应的处理如下：
1. 0~33%是shuffle的过程，数据从mapper已到了reducer
2. 33~67%是sort的过程，这个过程只会在mapper完成后才会执行
3. 67~100%才是reducer程序执行的过程。如果reduce卡在了67%，那么说明reducer一个也没有执行。可能是输入数据太大，超过了限制，也可能是reducer有死循环的bug

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,265评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,078评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,852评论 0赞 347
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,408评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,445评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,772评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,921评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,688评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,130评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,467评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,617评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,276评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,882评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,740评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,967评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,315评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,486评论 2赞 348