提前准备:
1、配置网络(包括主机名、虚拟机名)。修改的文件有/etc/hosts 、/etc/sysconfig/network-scripts/ifcg-eth0
2、设置SSH免密码登陆。
虚拟机上执行 :# ssh 主机ip
输入主机密码
# ssh-keygen -t rsa /*生成密钥*/
# ssh-copy-id 主机ip
ssh 主机ip /*测试虚拟机免密码登陆主机*/
3、主机安装jdk(先下载所需要的jdk)
(1)先检查是否安装jdk
rpm -qa|grep jdk
(2) 查看jdk版本
java -version
(3)删除所有安装的jdk
yum -y remove jdk {jdk-openss..}
(4)解压,安装
tar -zxvf {jdk.1.7.0...*.tar.gz} -C 安装路径
(5)修改配置文件。/etc/profile
最后加入
(5)查看是否安装成功
java -version
4、创建存放所需软件的文件夹,如opt下创建softwares、data
mkdir /opt/sosftwares
mkdir /opt/data
伪分布式安装hadoop:
requirements:-------->所有都在hadoop-1.7.1-src-->BUILDING.txt文件里
(1) 点击这里下载hadoop版本/**下载到/opt/softwares目录,我选择hadoop-2.7.1版本;另外,一般官网提供已经编译好的hadoop(适合32位系统的),而我要的是64位的,所以下载源码自己编译安装**/
(2)除此以外还需要以下依赖,用yum 安装这些依赖:
yum install autoconf automake libtool cmake ncurses-devel lzo-devel zlib-devel openssl-devel
(3)下载这些必备软件:
下面正式安装****
1、解压各种 # tar -zxvf hadoop-2.7.1-src.tar.gz -C /opt/softwares
# tar -zxvf findbugs-1.3.9.tar.gz -C /opt/softwares
# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/softwares
# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/softwares
2、安装maven,findbugs
#cd /opt/softwares/apache-maven-3.0.5
查看maven安装路径:# pwd
修改环境变量:#vim /etc/profile
export MAVEN_HOME=/opt/softwares/apache-maven-3.0.5
export PATH=$MAVEN_HOME/bin
使配置生效:source /etc/profile
查看是否安装成功: mvn -v
同理,安装findbugs....(查看findbugs安装成功? findbugs -version)
/etc/profile环境配置
3、安装protobuf
# cd protobuf-2.5.0
# ./configure
# make install
4、编译hadoop-src源码
#cd hadoop-2.7.1-src
编译# mvn package -Pdist,native -DskipTests -Dtar
5、安装hadoop,配置文件修改环境变量 。
#cd hadoop-2.7.1
# vim /etc/hadoop/hadoop-env.sh ,打开加入 export JAVA_HOME=/usr/java/latest,如下:
启动hadoop # bin/hadoop
6、修改etc/hadoop/core-site.xml文件
# vim etc/hadoop/core-site.xml
hadoop1.x版本端口号9000;2.x版本也可以是8020
其中,/data/tmp目录是自己创建的,需要手动创建:mkdir data; mkdir tmp
7、修改etc/hadoop/hdfs-site.xml文件
注意:因为是伪分布式安装,所以副本数为1,如果集群安装,副本就有3份!!
接下来,如果想本地执行MapReduce,则按照8---10步骤;
如果想在YARN(主要资源调度)上执行MapReduce,则按照8(1)-----10(1)步骤;
8、格式化hdfs
# cd hadoop-2.7.1
# bin/hadoop /***查看hdfs帮助文档,学习hadoop命令操作**/
格式化 #bin/hdfs namenode -format
9、启动HDFS,即有NameNode和DataNode
# sbin/start-dfs.sh
10、查看进程是否启动成功
# jps /******/
8(1)、配置文件 etc/hadoop/mapred-site.xml
# cd hadoop-2.7.1
# vim etc/hadoop/mapred-site.xml
9(1)、配置文件etc/hadoop/yarn-site.xml
10(1)、# sbin/start-yarn.sh
查看资源管理监控 http://localhost:8088/ /**同样,localhost替换成主机名***/
11、通过日志监控界面查看信息
http://localhost:50070/ /***localhost是默认值,可以设置为自己的主机名***/
安装至此完成!!
wordcount数据测试:
1、# cd /opt/data
# touch words
# vim words
words为input文件
2、将文件上传到hdfs中
# bin/hadoop fs -help
# bin/hadoop fs -put /opt/data/words /words
已上传成功
3、wordcount (首先对数据进行分片处理,然后生成Job)
# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /words /out
4、查看输出结果
# bin/hadoop fs -ls /
# bin/hadoop fs -ls /out
# bin/hadoop fs -cat /out/part-r-00000
very nice!!终于可以了.....好想哭!!刚刚简书把我保存的笔记链接访问不到了,吓死宝宝了!!