Hadoop包含三个模块:
1、Hadoop Common:
支持其他模块的工具模块
2、Hadoop Distributed File System (HDFS):
分布式文件系统, 提供对应用程序数据的高吞吐量访问.
NameNode //名称节点 --NN 放置目录
DateNode //数据节点 --DN 放置数据
SecondaryNameNode //辅助名称节点 --2NN 放置备份目录
3、Hadoop YARN:
作业调度与集群资源管理的框架
4、Hadoop MapReduce:
基于yarn系统的对大数据集进行并行处理技术.
ResourceManager //资源管理器 --RM
NodeManager //节点管理器 --NM
配置Hadoop
1. Standalone/local
独立/本地模式 (默认模式)
查看文件系统的方式: hadoop fs -ls
没有启动任何java进程
用于测试和开发模式
2. Pseudodistributed mode
伪分布模式
配置过程:
a. core-site.xml
'''
<configuration>
<property>
<!-- 默认的文件系统 -->
<name> fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
'''
b. hdfs-site.xml
'''
<?xml version="1.0"?>
<configuration>
<property>
<!-- 副本数 -->
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
'''
c. mapred-site.xml
'''
<configuration>
<property>
<!-- -->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuraion>
'''
d. yarn.site.xml
'''
<configuration>
<property>
<!-- 资源管理器 -->
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<!-- 节点管理器 -->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
'''
* e. 配置SSH
安全登录
1) 安装ssh
$>sudo apt-get install ssh
2)生成秘钥对
$>ssh-keygen -t rsa -p '' -f ~/.ssh/id_rsa
$>cd ~/.ssh //查看生成的公私秘钥
3)导入公钥数据到授权库
$>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
4) 登录localhost
$>ssh localhost //不需要密码
5)格式化hdfs文件系统
$>hadoop namenode -format
6)启动所有进程
$>start-all.sh
7)查看进程
$>jps //共有五个进程 RM NM NN DN 2NN
8)查看文件系统
$>hadoop fs -ls
9)创建文件系统
$>hadoop fs -mkdir -p /user/ubuntu/data
$>hadoop fs -ls -R /
3. Fully distributed mode
完全分布式