Hadoop--HDFS 搭建

1. 环境

1.0 准备

配置详情如下:

主机名 IP 安装组件
ceph-1 192.168.16.4 master(NameNode, SecondaryNameNode) & slave(DataNode)
ceph-2 192.168.16.5 slave(DataNode)
ceph-3 192.168.16.6 slave(DataNode)

注意:
由于之前这三台部署了ceph,所以主机名就叫这个了。。。我们ignore他们的名字就好。

1.1 主机名配置

修改每台主机的主机名,执行命令

[root@xxxx ~]# hostnamectl set-hostname [hostname]

这里hostname就是ceph-1, ceph-2, ceph-3
注:执行后其实已经生效,此终端左侧xxxx还没有显示主机名,新开一个终端即可看到

1.2 java

下载jdk包
之后,vim /etc/profile

JAVA_HOME=/home/java/jdk1.8.0_131
JRE_HOME=$JAVA_HOME/jre
PATH=$PATH:$JAVA_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME
export JRE_HOME
export PATH
export CLASSPATH

source /etc/profile 使其生效
没完,建立软连接

ln -s /home/java/jdk1.8.0_131/bin/java /usr/bin/java

1.3 无密登录

在节点ceph-1执行

[root@ceph-1 ~]# ssh-keygen -t rsa

一路回车即可
之后,执行

[root@ceph-1 ~]# ssh-copy-id root@ceph-2
[root@ceph-1 ~]# ssh-copy-id root@ceph-3

2. HDFS配置

#下载
wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz
#解压
tar zxvf hadoop-2.9.1.tar.gz -C /opt/

配置环境变量,修改配置文件vim /etc/profile,添加

export HADOOP_HOME=/opt/hadoop-2.9.1
export PATH=$PATH:$HADOOP_HOME/bin

source /etc/profile 使其生效

2.1 修改hdfs配置文件(在master上)

进入目录:/opt/hadoop-2.9.1/etc/hadoop/

2.1.1 core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop-2.9.1/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ceph-1:9000</value>
    </property>
</configuration>

参数说明:

  • fs.default.name指定NameNode的IP地址和端口号
  • hadoop.tmp.dir指定hadoop数据存储的临时文件夹

2.1.2 hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>/opt/hadoop-2.9.1/hdfs/name</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/opt/hadoop-2.9.1/hdfs/data</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>ceph-1:9001</value>
        <description>secondarynamenode的web地址</description>
    </property>
    <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
       <description>提供web访问hdfs的权限</description>
    </property>
</configuration>

参数说明:

  • dfs.replication指定HDFS的备份数为3
  • dfs.name.dir指定namenode节点的文件存储目录
  • dfs.data.dir指定datanode节点的文件存储目录

2.1.3 mapred-site.xml

#复制template文件
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobtracker.address</name>
        <value>master:9010</value>
    </property>
</configuration>

说明:

  • 貌似配置这个jobtracker没什么实际作用

2.1.4 yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>ceph-1</value>
    </property>
</configuration>

注意:

  • slave节点要配置yarn.resourcemanager.hostname属性,否则NodeManager启动不起来,会报找不到service的bug

2.1.5 slaves

#将slave的hostname写入
ceph-1
ceph-2
ceph-3

2.2 修改hdfs配置文件(在slave上)

只需要将刚才修改好的配置文件复制到slave节点即可

scp -r /opt/hadoop-2.9.1/ ceph-2:/opt/
scp -r /opt/hadoop-2.9.1/ ceph-3:/opt/

slave节点不需要slaves文件,但留着也无碍
另外,slave上也需要修改/etc/profile文件

export HADOOP_HOME=/opt/hadoop-2.9.1
export PATH=$PATH:$HADOOP_HOME/bin

别忘了,使其生效

source /etc/profile

3. HDFS启动

#格式化namenode
hadoop namenode -format
#启动hdfs
sbin/start-dfs.sh
#启动yarn
sbin/start-yarn.sh 

通过jps可查看进程
在master节点运行

[root@ceph-1 hadoop-2.9.1]# jps
2640956 Jps
2613197 NodeManager
2612859 SecondaryNameNode
2612442 NameNode
2613098 ResourceManager
2612632 DataNode

在slave节点运行

[root@ceph-2 logs]# jps
2566087 Jps
2534869 DataNode
2562436 NodeManager

说明:

  • NodeManager是运行在单个节点上的代理,它管理Hadoop集群中单个计算节点,功能包括与ResourceManager保持通信,管理Container的生命周期、监控每个Container的资源使用(内存、CPU等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务等
  • ResourceManager: 用于对外提供yarn服务,资源分配等,还负责托管用户提交的mapreduce作业,负载均衡等
#停止hdfs
sbin/stop-dfs.sh
sbin/stop-yarn.sh 

查看集群状态

[root@ceph-1 hadoop-2.9.1]# hdfs dfsadmin -report
Configured Capacity: 42140381184 (39.25 GB)
Present Capacity: 31786508288 (29.60 GB)
DFS Remaining: 31786479616 (29.60 GB)
DFS Used: 28672 (28 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0
Pending deletion blocks: 0

-------------------------------------------------
Live datanodes (1):

Name: 127.0.0.1:50010 (ceph-1)
Hostname: ceph-1
Decommission Status : Normal
Configured Capacity: 42140381184 (39.25 GB)
DFS Used: 28672 (28 KB)
Non DFS Used: 8404475904 (7.83 GB)
DFS Remaining: 31786479616 (29.60 GB)
DFS Used%: 0.00%
DFS Remaining%: 75.43%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Thu Jun 28 17:58:01 CST 2018
Last Block Report: Thu Jun 28 16:48:03 CST 2018

通过浏览器查看集群状态

http://ceph-1:50070                   #dfs.namenode.http-address

注意坑点

  1. Error: JAVA_HOME is not set and could not be found
    修改hadoop-env.sh
export JAVA_HOME={JAVA_HOME}
将上面的改成下面
export JAVA_HOME=/opt/jdk1.8.0_171
  1. slave的datanode连接不上namenode
    修改master的/etc/hosts
#将下面这行去掉
127.0.0.1   localhost
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容

  • 一、系统参数配置优化 1、系统内核参数优化配置 修改文件/etc/sysctl.conf,添加如下配置,然后执行s...
    张伟科阅读 3,745评论 0 14
  • 终极算法 关注微信号每天收听我们的消息终极算法为您推送精品阅读 前言 Hadoop 在大数据技术体系中的地位至关...
    Yespon阅读 129,817评论 12 168
  • 之前的有点忘记了,这里在云笔记拿出来再玩玩.看不懂的可以留言 大家可以尝试下Ambari来配置Hadoop的相关环...
    HT_Jonson阅读 2,951评论 0 50
  • 学习hadoop平台搭建也有一段时间了,期间也遇到很多问题,为了解决这些问题查了很多资料,浪费不少时间,今天写下这...
    zxcasongs阅读 1,219评论 0 4
  • 经过一系列的前期环境准备,现在可以开始Hadoop的安装了,在这里去apache官网下载2.7.3的版本http:...
    欢醉阅读 1,663评论 8 28