hadoop学习笔记（一）

一、HDFS简介

1.1Hadoop2介绍

hadoop1是由HDFS和MapReduce组成，hadoop2由HDFS、YARN、MapReduce和其他的计算框架组成。

（1）核心

HDFS——用于海量数据存储；MapReduce——分布式计算；YARN——资源管理系统。

（2）改进

YARN——运行更多种类框架；

NameNode HA——同时启动2个NameNode。其中一个处于工作（Active）状态，另一个处于随时待命（Standby）状态；

HDFS federation——由多个Namenode和一组Datanode组成，每一个Datanode会为多个块池（block pool）存储块。

Hadoop RPC序列化扩展性——将数据类型模块从RPC中独立出来，成为一个独立的可插拔模块

1.2HDFS概述

HDFS是一个分布式文件系统，具有高容错、高可靠、高可扩展性、高吞吐率的特点。它可以部署在廉价的通用硬件上，适合需要处理海量数据集的应用程序。

（1）主要特性

支持超大文件——几百M、GB甚至TB级的数据文件

检测和快速应对硬件故障——HDFS的检测和冗余机制很好克服了大量通用硬件平台上的硬件故障问题

流式数据访问——HDFS更关注数据访问的高吞吐量

简化一致性模型——一次写入、多次读取的访问模式

（2）HDFS不适合以下场景

低延迟数据访问；大量的小文件；多用户写入文件、修改文件。

（3）HDFS体系结构

由NameNode和DataNode构成。其中：

①NameNode上保存着HDFS的名字空间，任何对文件系统元数据产生修改的操作都作用于NameNode；

②DataNode将HDFS数据以文件的形式存储在本地文件系统中。

（4）数据块

数据块是HDFS的文件存储处理单元，在Hadoop 2中默认大小为128MB，可根据业务情况进行配置。

优点：HDFS可以保存比存储节点单一磁盘大的文件；简化了存储子系统、存储管理，并消除分布式管理文件元数据的复杂性；方便容错，有利于数据复制。

1.3HDFS读写流程

（1）读流程

①客户端向远程NameNode发送RPC请求；

②NameNode视情况返回文件部分或全部的block列表，对于每个block，Namenode都会返回有该block拷贝的DataNode地址；

③客户端开发库Client会选取离客户端最接近的DataNode来读取block。如果客户端本身就是DataNode，那么将从本地直接获取数据；

④读取完当前block的数据后，关闭与当前的DataNode连接，并为读取下一个block寻找最佳的DataNode；

⑤ 当读完列表的block后，且文件读取还没有结束，客户端开发库会继续向Namenode获取下一批的block列表；

⑥读取完一个block都会进行校验，如果读取datanode时出现错误，客户端会通知Namenode，然后再从下一个拥有该block拷贝的datanode继续读取。

（2）写流程

①使用HDFS提供的客户端开发库Client，向远程的Namenode发起RPC请求；

②Namenode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；

③当客户端开始写入文件的时候，开发库会将文件切分成多个packets，并在内部以数据队列"data queue"的形式管理这些packets，并向Namenode申请新的blocks，获取用来存储replicas的合适的datanodes列表，列表的大小根据在Namenode中对replication的设置而定；

④开始以pipeline（管道）的形式将packet写入所有的replicas中。开发库把packet以流的方式写入第一个datanode，该datanode把该packet存储之后，再将其传递给在此pipeline中的下一个datanode，直到最后一个datanode，这种写数据的方式呈流水线的形式；

⑤最后一个datanode成功存储之后会返回一个ack packet，在pipeline里传递至客户端，在客户端的开发库内部维护着"ack queue"，成功收到datanode返回的ack packet后会从"ack queue"移除相应的packet；

⑥如果传输过程中，有某个datanode出现了故障，那么当前的pipeline会被关闭，出现故障的datanode会从当前的pipeline中移除，剩余的block会继续剩下的datanode中继续以pipeline的形式传输，同时Namenode会分配一个新的datanode，保持replicas设定的数量。

（3）创建子路径流程：通过namenode进行创建、新加记录。

（4）删除数据流程：客户端与namenode交互，namenode指定datanode删除相应的block。

二、YARN原理介绍

2.1 YARN产生背景

Hadoop 1.X缺陷：

①扩展性差：JobTracker同时兼备了资源管理和作业控制两个功能，严重制约了整个集群的扩展性；

②可靠性差：JobTracker存在单点故障，JobTracker出现问题将导致整个集群不可用；

③资源利用率低：基于槽位资源分布模式，无法有效利用各种资源；

④无法支持多种计算框架：Hadoop 1支持内存计算、流式计算、迭代式计算等多种计算框架并存的情况。

多种计算框架优点：资源利用率高；运维成本低；数据共享。

2.2 YARN基本架构

YARN是一种Hadoop资源管理器。它是一个通用的资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

（一）应用场景

长应用程序：不出意外，永不终止运行的应用程序，通常是一些服务，比如Storm Service（主要包括Nimbus和Supervisor两类服务），HBase Service（包括Hmaster和RegionServer两类服务）等；

短应用程序：一定时间内（可能是秒级、分钟级或小时级，尽管天级别或者更长时间的也存在，但非常少）可运行完成并正常退出的应用程序。

（二）结构图

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成。YARN总体上仍然是Master/Slave结构。ResourceManager为Master，NodeManager为Slave。ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时，需要提供一个用以跟踪和管理这个程序的ApplicationMaster，它负责向ResourceManager申请资源，并要求NodeManger启动可以占用一定资源的任务。由于不同的ApplicationMaster被分布到不同的节点上，因此它们之间不会相互影响。

①ResourceManager

作为一个全局的资源管理器，负责整个系统的资源管理和分配，主要由调度器和应用程序管理器两个组件构成。

调度器：将系统中的资源分配给各个正在运行的应用程序，可插拔组件，用户可根据需要设计新的调度器。

应用程序管理器：负责管理整个系统中所有的应用程序，包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。

②ApplicationMaster

用户提交的每个应用程序均包含1个ApplicationMaster，主要功能包括与ResourceManager调度器协商以获取资源，将得到的任务进一步分配给内部的任务。负责与NodeManager通信以启动/停止任务、监控所有任务运行状态并在任务运行失败时重新为任务申请资源以重启任务等。

③NodeManager

作为每个节点上的资源和任务管理器，定时向ResourceManager汇报本节点上的资源使用情况和各个Container的运行状态，还接收并处理来自ApplicationMaster的Container启动/停止等各种请求。

④Container

它是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当ApplicationMaster向ResourceManager申请资源时，返回的资源便是用Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。

（三）流程图

①用户向YARN中提交应用程序，其中包括ApplicationMaster程序，启动ApplicationMaster的命令，用户程序等；

②ResourceManger为该程序分配第一个Container，并与对应的NodeManger通讯，要求它在这个Container中启动应用程序的ApplicationMaste；

③ApplicationMaste首先向ResourceMange注册，这样用户可以直接通过ResourceMange查看应用程序的运行状态，然后将为各个任务申请资源，并监控它的运行状态，直到运行结束，重复4-7的步骤；

④ApplicationMaste采用轮询的方式通过RPC协议向NodeManger申请和领取资源；

⑤一旦ApplicationMaste申请到资源后，便与对应的NodeManger通讯，要求它启动任务；

⑥NodeManger为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务；

⑦各个任务通过某个RPC协议向ApplicationMaste汇报自己的状态和进度，以让ApplicationMaste随时掌握各个任务的运行状态，从而可以在任务失败的时候重新启动任务；

⑧应用程序运行完成后，ApplicationMaste向ResourceManger注销并关闭自己。

三、MapReduce原理介绍

3.1 MapReduce介绍

MapReduce是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法，是Hadoop面向大数据并行处理的计算模型、框架和平台。

MapReduce执行流：

3.2MapReduce2运行原理

基于YARN的Mapreduce2工作流程：

（一）具体流程为：

1.客户端向集群提交作业；

2.Job从ResourceManager获取新的作业应用程序ID；

3.客户端检查作业的输出情况，计算输入分片，并将作业jar包、配置、分片信息等作业资源复制到HDFS；

4.Job向ResourceManager提交作业；

5.ResourceManager接收到作业后，将作业请求传递给调度器，调度器根据作业信息为ResourceManager分配一个container，然后ResourceManager在NodeManager的管理下，在container中启动一个ApplicationMaster进程；

6.ApplicationMaster对作业进行初始化，并保持对作业的跟踪，判断作业是否完成；

7.ApplicationMaster接受来自于HDFS的分片信息，确定Map的数量，一个分片信息对应一个Map，而Reduce数量则可以在客户端中设置；

8.ApplicationMaster为本次作业的Map和Reduce以轮询的方式向ResourceManager申请container；

9.ApplicationMaster获取到container后，与NodeManager进行通讯启动container；

10.任务开始前将任务需要的资源（jar包、配置和分布式缓存文件等）本地化；

11.container启动Map、Reduce任务。

（二）MapReduce2进度状态更新：Map、Reduce任务向ApplicationMaster发送进度状况。

3.3 shuffle及排序

Mapreduce的map端输出作为输入传递给reduce端，并按键排序的过程称为shuffle。

shuffle流程图：

Map阶段：

1.每个map存在一个环形内存缓冲区（可以人为设置，默认为100M），若达到阈值（缓冲区大小的80%），后台内容溢出至磁盘。写过程以轮询方式将缓冲区内容写入特定路径。

其中：

partition——map端写入磁盘之前，线程首先根据reduce划分相应分区。每个分区中后台线程按照键排序。

combiner——相当于本地的reduce，可减少磁盘I/O或网络I/O。

2.map端可能会有很多的溢出文件，其任务完成前生成已经分区并排序的文件。默认map输出不进行压缩，不过可以设置数据压缩。

Reduce阶段：

Reduce通过http方式获得map端输出数据。若reduce接受的数据量相当小，则复制至reduce的缓冲区（可设置）中，否则复制至磁盘，并进行所有map输出数据的合并排序。最后对排好序的数据进行处理。

最后编辑于：2017.12.04 04:36:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,639评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,277评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,221评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,474评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,570评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,816评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,957评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,718评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,176评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,511评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,646评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,322评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,934评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,755评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,987评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,358评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,514评论 2赞 348