阿里腾讯云 hadoop+spark集群搭建(1)

阿里腾讯云 hadoop+spark集群搭建(1)

linux版本: centos7

hadoop版本: 3.1.1

手上有三台学生机,完全没动过的:一台是阿里云服务器,两台是腾讯云。

用阿里云做namenode,腾讯云做datanode。

目标是搭好hdfs和yarn,后面搭spark和hive。


  1. 更新和下载软件包。安装jdk 版本为1.8.0

    $ sudo yum -y update
    $ sudo yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel.x86_64 net-tools rsync mlocate wget vim gcc zlib-dev openssl-devel sqlite-devel bzip2-devel python-devel 
    

    这里通过yum安装的jdk路径默认是在 /usr/lib

    查找方法为:

    $ whereis java  
    (返回java: /usr/bin/java /usr/lib/java /etc/java....)
    $ ll /usr/bin/java  
    (返回/usr/bin/java -> /etc/alternatives/java,是软链接)
    $ ll /etc/alternatives/java 
    (返回/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64/jre/bin/java)
    

    由于系统中可能有多版本的jdk,/etc/alternatives/java软链接用于指定真正使用的jdk版本。

    /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64就是安装的位置。

  2. 设置安全规则(针对namenode)

    上阿里云加入安全组规则,由于是作学习用,直接加入规则

    端口范围: 1/65530  授权对象:0.0.0.0/0 
    
  3. 关闭防火墙

    $ sudo systemctl stop firewalld.service 
    $ sudo systemctl disable firewalld.service
    
  4. 修改hosts文件,这里要注意!

    阿里云namenode,其hosts如下:

    111.**.**.*8   slave1  (这里写的是腾讯云服务器的外网IP)
    134.**.**.*16  slave2  (这里写的是腾讯云服务器的外网IP)
    192.**.*.*12   master  (这里写的是阿里云服务器的内网IP)
    

    腾讯云的两台datanode,其hosts如下:

    39.**.2**.*2 master    (这里写的是阿里云服务器的外网IP)
    172.**.*.9 slave1      (这里写的是腾讯云服务器的外网IP)
    172.**.*.7 slave2       (这里写的是腾讯云服务器的外网IP)
    
  5. 建立新用户并赋予其权限

    $ adduser hadoop
    $ passwd hadoop
    (输入hadoop用户的密码)
    $ su hadoop
    

    此时从root身份切换到hadoop。

  6. 设置ssh免密登陆

    每台机器生成公私钥,namenode把自己的公钥拷到两个datanode中。datanode把自己的公钥拷到namenode中,并将可靠的公钥信息写入/.ssh/authorized_keys文件中。

  7. 下载hadoop并解压缩,并建立所需文件夹

    $ curl -O https://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
    $ mkdir hadoop
    $ tar -zxvf hadoop-3.1.1.tar.gz -C ~/hadoop/
    $ cd hadoop/hadoop-3.1.1
    <!--在Hadoop目录下建立tmp、dfs文件夹,并在dfs文件夹下建立data和name-->
    <!--tmp用于存放缓存,dfs设置为hdfs信息的存放路径-->
    $ mkdir tmp & mkdir dfs
    $ cd dfs
    $ mkdir data & mkdir name
    
  8. 配置文件与环境变量

    配置core-site.xml、hdfs-site.xml、yarn-site.xml、workers、hadoop-env.sh。

  • core-site.xml

    <configuration>
       <property>
           <name>fs.defaultFS</name>
           <value>hdfs://master:9000/</value>
       </property>
       <property>
            <name>hadoop.tmp.dir</name>
           <value>/home/hadoop/hadoop/hadoop-3.1.1/tmp/</value>
       </property>
    </configuration>
    
  • hdfs-site.xml

    <configuration>
       <property>
           <name>dfs.namenode.name.dir</name>
           <value>/home/hadoop/hadoop/hadoop-3.1.1/dfs/name</value>
       </property>
       <property>
           <name>dfs.datanode.data.dir</name>
           <value>/home/hadoop/hadoop/hadoop-3.1.1/dfs/data</value>
       </property>
       <property>
           <name>dfs.http.address</name>
           <value>0.0.0.0:50070</value>
       </property>
       <property>
           <name>dfs.namenode.secondary.http-address</name>
           <value>master:9001</value>
       </property>
       <property>
       <name>dfs.webhdfs.enabled</name>
       <value>true</value>
       </property>
    </configuration>
    
  • yarn-site.xml

    <configuration>
        <property>
            <name>yarn.resourcemanager.hostname</name>
           <value>master</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
           <value>master:8088</value>
       </property>
       <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
       </property>
    </configuration>
    
  • hadoop-env.sh

    在第54行处加入JAVA_HOME变量。

    # The java implementation to use. By default, this environment
    # variable is REQUIRED on ALL platforms except OS X!
    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64/jre
    
  • workers

    slave1
    
    slave2
    

接下来,在/etc/profile.d下新建两个脚本 jdk-1.8.shhadoop-3.1.1.sh

  • jdk-1.8.sh

    # !/bin/sh
    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64
    export JRE_HOME=${JAVA_HOME}/jre
    export PATH=${JRE_HOME}/bin:$PATH
    (因为java是在$JAVA_HOME/jre/bin之中的,所以PATH中不是$JAVA_HOME而是$JRE_HOME)
    
  • hadoop-3.1.1.sh

    #!/bin/sh
    export HADOOP_HOME="/home/hadoop/hadoop/hadoop-3.1.1"
    export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
    
$ source /etc/profile 

这样每次服务器启动,都会自动运行这两个脚本,设置好相关的环境变量。

  1. 格式化hdfs并开启(在namenode上)

    $ hdfs namenode -format
    $ start-all.sh
    <!-- 启动... -->
    

    成功的话,namenode中执行jps命令会显示4个进程:

    $ jps
    11270 SecondaryNameNode
    26747 Jps
    11052 NameNode
    11487 ResourceManager
    

    datanode中执行jps命令会显示3个进程:

    $ jps
    18468 DataNode
    23029 Jps
    18605 NodeManager
    

    访问namenode公网的8088端口,Active Nodes 显示为2。

    访问namenode公网的50070端口,

    完成。


如果namenode或者datanode在启动时碰到问题,就使用对应的机器进入到其hadoop目录下的logs文件夹中查看日志信息,再根据日志信息去解决问题。

注意一个问题:

如果你执行了多次hdfs namenode -format,会出现datanode无法成功启动的情况,此时50070页面Live Nodes为0,8088页面为2。

原因是该命令清空了hadoop目录下dfs/data下的数据,但是对于datanode却没有,导致版本对不上号,解决办法是:删除datanode中dfs/data下的数据,重新启动。不要随意执行namenode的format命令。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容

  • 一、系统参数配置优化 1、系统内核参数优化配置 修改文件/etc/sysctl.conf,添加如下配置,然后执行s...
    张伟科阅读 3,727评论 0 14
  • 1 目的将hadoop 2.7.1 安装到 166、167、168 三台机器上2 提供环境练习环境192.168....
    灼灼2015阅读 3,391评论 4 40
  • 看到题目有没有一种高大上的感觉?毛线,当前是个人、是个公司都在说自己搞大数据,每天没有几个PB的数据入库,每天没有...
    丁小晶的晶小丁阅读 4,459评论 0 50
  • 25 持久的革命 19世纪 我们所谓的传统中断是法国大革命时期的特色,它必然改变艺术家生活 和工作的整个处境。19...
    季玫阅读 474评论 0 0
  • 行善的人,心安气顺,宛若人天;虽然行善,但心生嫉妒,宛若修罗;无惭无愧,无羞无耻,便是畜牲;贪心炽盛,毫无厌足,便...
    深林小兮阅读 388评论 0 0