1.什么是Hadooop
Hadoop是Apache爸爸基金会开发的分布式系统基础架构
用来解决大量数据的存储与运算
2.三大发行版本
Apache Hadoop
Cloudera Hadoop
Hortonworks Hadoop
3.Hadoop的优势
高可靠, 高扩展, 高效, 高容错
4.组件(2.x)
MapReduce 计算模块
Yarn 资源调度管理器 (1.x 版本中, 资源调度与MapReduce模块深度耦合)
HDFS 分布式文件存储
Common Utils 工具
5.Hadoop架构概述
1> HDFS
>> NameNode (NN) 存储文件元数据, 比如 文件名, 文件目录结构, 文件属性, 块列表和块所在的DataNode等;
>> DataNode(DN) 在存储文件块数据, 块数据校验等
>> Secondary NameNode (2NN) 监控HDFS运行状态的后台程序,每隔一段时间获取HDFS元数据快照
2> Yarn
>> Resource Manager (RM)
>>> 处理客户端请求
>>> 监控NodeManager
>>> 启动, 监控Application Manager
>>> 资源分配和调度
>> NodeManager (NM)
>>> 管理单个节点上的资源
>>> 处理来自RM的命令
>>> 处理来自AppMaster的命令
>> Application Master
>>> 数据切割
>>> 为应用程序申请资源并分配给内部任务
>>> 任务监控与容错