编译hadoop的文章:www.cnblogs.com/hanganglin/p/4349919.html
分布式系统
hadoop解决三个问题
海量数据的存储(HDFS)
特点:1.分布式的集群结构
2.查询,搜索,存储(对外与客户端打交道,对内跟存储节点打交道)
3.备份(解决服务器挂掉数据丢失的风险)
4.提供统一的Api
2.海量数据的计算(MapReduce)思想:分而治之
1.Map(映射)计算
2.Reduce(聚合)统计计算
3.管理框架内部的启动,衔接
3.集群资源的管理(YARN)
1.提供更好的管理集群资源,(分布式的管理)
2.ResourceManger(统一对外服务的节点)
3.NodeManger(每个节点当中的管理者)
Hadoop配置
目录
/etc 放置一些配置文件
/sbin 启动的文件目录
环境配置
/hadoop-2.6.4/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.7.0_79
/hadoop-2.6.4/etc/hadoop/core-site.xml
/hadoop-2.6.4/etc/hadoop/hdfs-site.xml
/hadoop-2.6.4/etc/hadoop/mapred-site.xml.template
将上述文件复制一个在更改mapred-site.xml
/hadoop-2.6.4/etc/hadoop/yarn-site.xml
环境变量的配置
export HADOOP_HOME=/usr/local/hadoop-2.6.4
:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
集群的启动
格式化namenode(对namenode进行初始化)
hadoop namenode -format
/usr/local/hadoop-2.6.4/temp/dfs/name(默认创建的目录)
启动集群(hdfs) hadoop-daemon.sh start namenode
hadoop-daemon.sh stop namenode
hadoop-daemon.sh start datanode
hadoop-daemon.sh stop datanode
hadoop-daemon.sh start secondarynamenode
hadoop-daemon.sh stop secondarynamenode
可以在浏览器中查看hdfs启动的状态 192.168.255.32:50070
配置可以一键的启动和关闭
修改文件/usr/local/hadoop-2.6.4/etc/hadoop/slaves
添加主机名
启动(dfs)start-dfs.sh
关闭(dfs)stop-dfs.sh
启动集群yarn
(启动yarn集群)start-yarn.sh
(停止yarn集群)stop-yarn.sh
可以在浏览器中查看yarn启动的状态 192.168.255.32:8088