首先 先看一篇已经非常完备的阿里云搭建hadoop集群的文章,我也是参考这篇文章来的。
https://yq.aliyun.com/articles/61009
我们前期在阿里云的机器一共六台 ,一台 hadoop namenode,四台hadoop DataNode,还有一台 kafka 集群。五台机器的硬件配置为单机 4 vCPU,16G,10T,
一台kafka 机器为4 v Cpu,16G,500G.安装的hadoop 版本 为 2.8.1版本,java 版本为 jdk1.8,为了以后搭建spark ,scala 采用的是2.11版本,spark 版本为 2.01。
得知 丁香园 使用 物理云主机 15个节点 一台大概 32核 196G/256G 内存, 6*12T 磁盘。还有就是使用kebunete管理上前台
主要内容就是
1.全部 都安装 java scala hadoop 并配置 root 用户下的环境变量 /etc/profile
通过 java -version / jps / hadoop version 测试变量是否生效,注意使用 source /etc/profile
2.所有节点都配置主机名,并把所有的私有ip 及对应的主机名配置到各个节点的/etc/hosts 文件中
3.各个节点都创建 hadoop 用户 ,并设置密码,并在 hadoop 对应的 ~/.bashrc文件中设置 java scala hadoop 的环境变量,source ~/.bashrc 使之生效
4.格式化硬盘 并挂载到 服务器上, 这个可以使用脚本 自动化 格式和挂载,
5.配置 从hadoop Master到 hadoop DataNode的 ssh 免登陆 服务.ssh-copy-id
6.根据实际硬件和网络情况 配置 hadoop的四个 site.xml文件和两个 env.sh文件,并把
hadoop目录的权限 授予 hadoop 用户,否则 无法在 hadoop的根目录上无法创建 /logs目录,无法正常启动hadoop,并把在NameNode的配置文件 传递到 DataNode的配置文件目录中,基于方便未来集群管理 ,简化复杂个性化配置, java scala hadoop的 根目录 各个节点的配置路径一定要相同。
scp -r /usr/local/hadoop/etc/hadoop/*.sh 192.168.255.154:/usr/local/hadoop/etc/hadoop/
scp -r /usr/local/hadoop/etc/hadoop/*-site.xml 192.168.255.154:/usr/local/hadoop/etc/hadoop/
chown -R hadoop:hadoop /usr/local/hadoop
7.格式化 NameNode ,一定要格式化两次,不然还是会失败的,必须出现交互提问 yes 、no,./hdfs namenode -format
8.关闭几个端口的防火墙,8020 9000 50070 50075 10888 8088这些端口,hdfs 相关端口
9.启动hadoop 并测试hadoop 各项功能是否正常访问 和运行。
10.通过其他服务器的logstash 使用webhdfs output 测试写入到该机器hdfs是否可行。
webhdfs
user:必须填写启动hdfs的用户名
必须在logstash所在的服务器上的/etc/hosts配置hdfs集群节点路由列表
logstash 配置文件中的output webhdfs 的path 一定要定位到文件而不是目录
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
也可以使用postman 工具 来测试连接,查看webhdfs是否启动成功
http://www.linuxidc.com/Linux/2014-06/102792.htm
http://blog.csdn.net/dong_18383219470/article/details/70190313
11.使用 hadoop 的distcp 测试 集群内部 和集群间的分布式copy是否成功
在搭建中出现的一些问题
1.创建 hadoop 用户 不完全成功,注意密码 不要 简单否则 ssh使用hadoop 容易被黑
useradd hadoop && echo hadoop@psword | passwd --stdin hadoop
echo "hadoop ALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers
- ssh 都配置完成后 仍然无法免密码登录
注意 ~/.ssh目录和 authorized_keys的权限问题 及登录的用户 一定要匹配
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
rm -rf id_rsa.pub
chmod 600 authorized_keys
chmod 700 ~/.ssh
http://blog.csdn.net/hai520ny/article/details/48136641
- 格式化硬盘的脚本出现问题,造成 挂载失败
这个考验的是脚本的书写能力,尽量现在一台机器上验证成功后再在其他机器上尝试,幸好的是 还可以重复操作
`
格式化磁盘
1.查看
fdisk -l
2.磁盘分区
fdisk /dev/vdb
(根据提示,依次输入“n”,“p”“1”,两次回车,“wq”,分区就开始了,很快就会完成。)
3.格式化分区
mkfs.ext3 /dev/vdb1
4.添加分区信息
echo '/dev/vdb1 /data1 ext3 defaults 0 0' >> /etc/fstab
(其中 /mnt 可以改成自定义的目录,我们一般用 /data1)
5.挂载分区
Mkdir /data1
mount -a
`
#!/bin/sh
disks=("/dev/vdb" "/dev/vdc" "/dev/vdd" "/dev/vde" "/dev/vdf")
counts=1
for disk in ${disks[*]}
do
echo "begin fenqu disk :"+ $disk
echo "n
p
1
wq"| fdisk $disk &
echo "fenqu finish,format disk ing"
mkfs.ext3 ${disk}1
echo "format disk complete mkdir ing"+${counts}
sudo -i mkdir /data${counts}
echo "register in fstab"
echo "${disk}1 /data${counts} ext3 defaults 0 0">> /etc/fstab
echo "gua zai disk"
mount -a
echo "all complete"
4.root 用户 jps 命令 有效,hadoop 用户 jps 无效 无法 使用hadoop 命令
需要在hadoop登录时 把 java scala hadoop的配置信息 配置到 该用户的 ~/.bashrc中 并source一下才会生效
export JAVA_HOME=/usr/local/java
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
5.启动hadoop 发现 没有NameNode ,
说明 NameNode格式化没有成功,需要再次格式化
6.发现50070可以访问,8088无法访问,
防火墙问题
7.logstash 使用webhdfs 无法写入 ,connect refused socket time out
主要是 logstash 要连接各个DataNode节点的50075端口,关闭 防火墙 50075端口
8.logstash 使用 webhdfs 还是无法写入,报 sever error exception=>"WebHDFS::ServerError",
logstash所在的机器 的/etc/hosts文件 必须配置所有 hadoop namenode 和datanode 节点的 公有 ip 主机名 和 私有ip 主机名,加入 在同一个 机房 可以内网访问,可以先 配置 私有ip 主机名 再 配置 公有 ip 主机名,一定要注意顺序 ,hosts 读取时有先后顺序,读到 最上一行的主机名 后,就会忽略掉 下一行同样主机名配置的ip
# 内网
192.168.245.131 linkhadoop-node1
192.168.245.132 linkhadoop-node2
192.168.245.133 linkhadoop-node3
192.168.245.134 linkhadoop-node4
# 外网
47.93.5.153 linkhadoop-master
47.94.27.224 linkhadoop-node4
47.95.19.172 linkhadoop-node3
47.94.24.132 linkhadoop-node2
47.95.13.4 linkhadoop-node1
9.hadoop 运行 自带的wordcount 卡在 map 0% 上
主要是hadoop 的site 配置文件中配置的内存使用情况导致的,要适当增大,太小则没有足够的内存 运行hadoop项目
10.使用distcp 从源集群A 到目标集群B 总是失败
两个 集群 中 所有节点 中的每个节点必须可以ping 通 ,且 在任一一个节点都要配置 本节点的host 的私有ip 主机名 还要配置 另一个集群的公有ip 和主机名在自己的hosts文件中,如果两个集群都在 同一个机房,则都可以配置私有ip即可。尤其要注意 在
distcp 使用 hftp 协议时,一定要在目标集群B 集群上操作 才会成功,如果 使用 hdfs 协议,原则上 在两个集群上都可以生效成功
hadoop distcp hftp://link-test-s06:50070/zeppelin-web-0.7.2.war hdfs://linkhadoop-master:9000/input/
hadoop distcp hdfs://link-test-s06:9000/zeppelin-web-0.7.2.war hdfs://linkhadoop-master:9000/input/
Hadoop dictcp hftp://52.80.67.242:50070/testdata/app.txt hdfs://linkhadoop-master:9000/input/
hadoop distcp hftp://link-test-s06:50070/zeppelin-web-0.7.2.war hdfs://linkhadoop-master:9000/input/ze.war
可以参考
http://blog.csdn.net/stark_summer/article/details/45869945 http://xmaster.iteye.com/blog/1929025 //www.greatytc.com/p/cbace52602aa //www.greatytc.com/p/c642fc4dc25b http://blog.csdn.net/sunnyyoona/article/details/54668028 http://blog.csdn.net/stark_summer/article/details/45869945 http://www.it165.net/admin/html/201501/4693.html https://www.cloudera.com/documentation/enterprise/5-4-x/topics/cdh_admin_distcp_data_cluster_migrate.html http://blog.csdn.net/weipanp/article/details/42713149 http://taoo.iteye.com/blog/1662998 http://blog.csdn.net/bigdatahappy/article/details/42457023 http://blog.csdn.net/yonghutwo/article/details/39937185 https://community.hortonworks.com/questions/40835/distcp-job-fails-with-eof-exception.html
11.另外 阿里云的yum安装走内网 ,非常方便,但是 阿里云 就是一个空壳子 ,需要安装很多东西 ,比如 netcat telnet snappy python
yum install -y nc
sudo -i yum install snappy snappy-devel
sudo -i yum install telnet
使用nc 来检验 网络通信 端口是否连接
nc -l 9000
telnet linkhadoop-master 9000
telnet linkhadoop-node4 9000
telnet 端退出 :ctrl+] quit
12.配置主机名没有生效
首先 hostname 命令查看 主机名
然后在 /etc/hosts 配置 本机的私有ip 主机名 本机的公有ip 主机名
之后再 在 vi /etc/sysconfig/network 配置 HOSTNAME=主机名
然后使用 hostname 新主机名
退出后 重新登录 即可使用到新主机名
13.启动hadoop 可以启动到 各个DataNode ,但是NameNode无法连接到DataNode
这个主要是 NameNode的hosts 造成的,在使用nc 测试 ,发现 NameNode 只监听了本机的50075端口,没有监听到 其他DataNode的50075端口访问。造成的,主要原因是在 NameNode的 /etc/hosts 中 配置了 127.0.0.1 NameNode的 主机名,一定不要把NameNode主机名配置给127.0.0.1否则 就会出现这种情况。
HADOOP :WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: xxx/xxx
WARN org.apache.hadoop.hdfs.server.datanode.DataNode:Problem connecting to server: hadoop-master/172.17.25.5:9000
netstat -na | grep 9000
netstat -na | grep 50075
netstat -na | grep 8020
参考 :http://blog.csdn.net/zhang0558/article/details/53149580 http://blog.csdn.net/renfengjun/article/details/25320043 http://blog.163.com/ly_89/blog/static/186902299201265101913507/ http://www.cnblogs.com/tankaixiong/p/4177832.html 当然还有就是多次 format 后 造成datanode的clusterID 和 namenode的clusterID 不匹配,
14.相关软件工具 使用wget 安装还是非常愉快的事情
wget http://124.205.69.130/files/6130000005CB2796/download.oracle.com/otn-pub/java/jdk/8u144-b01/090f390dda5b47b9b721c7dfaa008135/jdk-8u144-linux-x64.tar.gz
Wget http://124.202.164.16/files/301900000A7B7725/archive.apache.org/dist/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz
Wget **http://www-us.apache.org/dist/hadoop/common/hadoop-3.0.0-beta1/hadoop-3.0.0-beta1.tar.gz**
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz
wget [https://downloads.lightbend.com/scala/2.11.11/scala-2.11.11.tgz](https://downloads.lightbend.com/scala/2.11.11/scala-2.11.11.tgz)
wget [https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.11.0.1/kafka_2.11-0.11.0.1.tgz](https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.11.0.1/kafka_2.11-0.11.0.1.tgz)
(https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz)
使用
echo “export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin” >>/etc/profile
source /etc/profile
发现 java 和hadoop 并没有生效,主要元婴是 在这条命令前一定要 先source /etc/profile ,否则 JAVA_HOME HADOOP_HOME 并没有成为环境变量 被识别,这条命令就无法识别他们。
还有 hadoop 有许多默认的端口号,如果不在配置文件中配置更改 ,则一直使用默认端口,尤其是要注意的是 core-stie.xml 中的fs.defaultFS 属性,一般我们配置为9000,但是有一些其他的工具 例如logstash Rpc 等连接还是会寻找8020端口 webhdfs连接hadoop
所以8020端口还是要打开 ,在配置文件中配置
<property>
<name>fs.defaultFS</name>
<value>hdfs://link-test-s06:9000</value>
</property>
<property>
<name>ipc.8020.backoff.enable</name>
<value>true</value>
</property>
https://blog.cloudera.com/blog/2009/08/hadoop-default-ports-quick-reference/
配置高可用
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html
hadoop的常见问题和 权限问题
http://longmans1985.blog.163.com/blog/static/706054752011819104133455/
http://blog.csdn.net/xujinyang/article/details/6874037
http://dongxicheng.org/mapreduce/run-hadoop-job-problems/
http://www.cnblogs.com/people/p/3174756.html
http://www.cnblogs.com/xing901022/p/4805586.html
有一个问题 就是我们搭建的 hadoop 集群有时候是不配置公网ip 的,为此 我们又特别需要 一些hadoop的监控 信息 ,比如 通过 50070 19888 8088 端口 访问 hdfs 文件系统, task 和服务信息 及 job 执行日志信息,我们需要 借用 有公网的机器 使用NGINX 配置反向代理,这样就可以在没有公网的基础上进行 访问了,以后还想访问哪些端口 ,接着配置就可以了。不过大家要注意的就是 端口 安全组策略一定要把这个端口的出方向和入方向都要配置好,单单只配出方向是无法正常访问的