MapReduce计算模型

在Hadoop中,用于执行MapReduce任务的机器角色有两个:

  • JobTracker:用于调度工作的,初始化作业,分配作业,与TaskTracker进行通信,协调整个作业的执行
  • TaskTracker:用于执行工作的;保持与JobTracker的通信,在分配的数据片段上执行map或reduce任务
  • HDFS:保存作业的数据,配置信息,保存作业结果
  • 客户端:编写mapreduce,配置作业,提交作业

一个Hadoop集群只有一个JobTracker.

MapReduce是一种编程模型,是一种编程方法。

  • 输入一个大文件,通过split之后,将其分为多个分片
  • 每个文件分片由单独的机器去处理,这就是map方法
  • 将各个机器计算的结果进行汇总并得到最终的结果,这就是reduce方法

input->split->map->shuffle->reduce->output

在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两个阶段:map阶段和reduce阶段,这两个阶段分别用两个函数来表示,即map函数和reduce函数,map函数接受一个<key,value>形式的输入,然后同样产生一个key-value形式的中间输出,Hadoop会负责将所有具有相同中间key值的value集合到一起传递给reduce函数,reduce函数接受一个如<key,(list of value)>的形式输入,然后对这个value集合进行处理,每个reduce产生0个或者1个输出,reduce的输出结果也是key-value

在MR的标准模型中,reduce阶段在map阶段完成之前无法启动,而且在下载到reducer之前,所有处理过程的中间数据都保存在磁盘中,所有这些都显著增加了处理的延迟

shuffle

shuffle过程包含在map和reduce两端,在Map端的shuffle过程是对map的结果进行划分partition,排序sort和分割spill,然后将属于同一个划分的输出合并在一起merge,并写在磁盘上,同时按照不同的划分将结果发送给对应的reduce(map的输出的划分和reduce的对应关系由JobTracker确定)。reduce端又会将各个map送来的属于同一个划分的输出进行合并,然后对merge的结果进行排序,最后交给reduce处理

map端

map端的shuffle过程包含在collect函数对map输出结果的处理过程中,

reduce端

reduce端shuffle阶段可以分为三个阶段:复制map输出,排序合并,reduce处理

旧API

map方法

map函数继承于MapReduceBase,并且实现了Mapper接口,此接口是一个泛型类型,有4个形式的参数,分别是

  1. 输入key值类型
  2. 输入value值类型
  3. 输出Key值类型
  4. 输出value值类型

reduce方法

reduce函数继承于MapReduceBase,并且实现了Reducer接口,reduce函数是以map函数的输出作为输入

新API

  • 在新API中,Mapper与Reducer已经不是接口 而是抽象类,而且map函数和reduce函数已经不再实现Mapper和Reducer接口,而是继承。
  • 广泛使用context对象,并使用MapContext进行MapReduce之间的通信,MapContext同时充当OutCollector和Reporter
    角色
  • Job的配置统一由configuration来完成,不需要额外使用JobConf对守护进程进行配置
  • 由Job类来负责Job的控制,而不是JobClient,JobClient在新API中被删除

数据流

数据首先按照TextInputFormat形式被处理成两个InputSplit,然后输入到两个map中,map程序会读取inputSplit指定位置的数据,然后按照设定的方式处理批数据,最后写入本地磁盘中。注意,这里不是写到hdfs上,因为map的输出在job完成之后即可删除,因此不需要存储在hdfs上。但是由于网络传输降低了mapreduce任务的执行效率,因此map的输出文件是写在磁盘上的,如果map程序在没有来得及将数据传送到reduce就崩溃了,那么JobTracker只需要另外选取一台机器重新执行这个task就可以了。

Reduce会读取map的输出数据,合并Value,然后将他们输出到hdfs上,reduce的输出会占用很多的网络带宽,不过这与上传数据一样,是不可避免的。

在这,需要注意:

  • MapReduce在执行过程中往往不止一个reduce task,reduce task的数量是可以通过程序指定的,当存在多个reduce task时,每个reduce会收集一个或者多个key值,当出现多个reduce task时,每个reducetask都会生成一个输出文件
  • 在没有reduce任务时,系统会直接将map的输出结果作为最终的结果,同时map task的数量可以看成是reduce task的数量,即有多少个maptask就有多少个输出文件

MR任务优化

MapReduce计算模型的优化主要集中在两个方面:计算性能方面的优化,IO操作方面的优化

  1. 任务的调度
    计算方面,hadoop总是优先将任务分配给空闲的机器,使得所有的任务能公平分享资源;IO方面,hadoop尽量将Map任务分配给InputSplit的机器,减少网络IO的消耗
  2. 数据预处理与InputSplit的大小
    MR任务擅长处理少量的大数据,不擅长大量的小数据,因此可以通过设置map的输入数据大小来调整map运行时间,可以设置块block的大小,也可以设置map任务的梳理来调整map任务的数据输入
  3. maph和reduce任务的数量
  4. combine函数
  5. 压缩
  6. 自定义comparator

Hadoop流

基本工作原理:

InputSplit->map>stdin>executable->stout->map->key/value

当一个可执行文件作为Mapper时,每一个map任务以一个独立的进程启动这个可执行文件,然后在map任务运行时,会把输入切分成行提供给可执行文件,并作为它的标准输入stdin内容,当可执行文件运行出结果

几个问题

  • 新旧API之间的差别
  • 如何去重
  • 如何排序
  • reduce卡死
    reduce过程的百分比与对应的处理如下:
    1. 0~33%是shuffle的过程,数据从mapper已到了reducer
    2. 33~67%是sort的过程,这个过程只会在mapper完成后才会执行
    3. 67~100%才是reducer程序执行的过程。如果reduce卡在了67%,那么说明reducer一个也没有执行。可能是输入数据太大,超过了限制,也可能是reducer有死循环的bug
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348

推荐阅读更多精彩内容