在Ubuntu下安装和搭建Hadoop环境(伪分布式环境)

最近在学习Hadoop,原本是在win10系统下装个虚拟机,在虚拟机上装的是CentOS操作系统,在该虚拟机上搭建好Hadoop环境之后,在学习WordCount的案例时,发现系统太慢了,还老是卡机,最后果断放弃使用虚拟机,转而使用Ubuntu操作系统(我的笔记本装了双系统:win10和Ubuntu16.04.5)。

备注:
1)、Hadoop版本选择
Hadoop目前有三个版本,分别为:apache hadoop、CDH(Cloudera Distributed Hadoop)、HDP(Hortonworks Data platform)。其中apache hadoop在使用过程中会存在JAR包冲突的问题,一般适合学习使用;CDH具有容易升级、不存在jar包冲突的问题,商业中使用该版本的比较多,学习中也优先选择;HDP存在升级和删除节点困难,一般也是用于商业。因此,我选择的是CDH版本。
2)、在搭建hadoop的环境过程中,主要参考了这篇博文Ubuntu16.04 下 hadoop的安装与配置(伪分布式环境)官方文档
3)、Hadoop cdh的下载地址:点击这里 ,我选择的是hadoop-2.6.0-cdh5.7.0

一、准备

根据hadoop官方文档的要求,配置hadoop的前置要求是安装Java JDK和SSH,因此首先安装jdk和ssh,为安装hadoop做准备。
图片.png
1.1 创建hadoop用户
$sudouseradd -m hadoop -s /bin/bash #创建hadoop用户,并使用/bin/bash作为shell
$ sudopasswd hadoop                  #为hadoop用户设置密码,之后需要连续输入两次密码
$ sudoadduser hadoopsudo            #为hadoop用户增加管理员权限
$ su- hadoop                          #切换当前用户为用户hadoop
$ sudoapt-get update                  #更新hadoop用户的apt,方便后面的安装
1.2 安装SSH,设置SSH无密码登录
$ sudo apt-get install openssh-server   #安装SSH server
$ ssh localhost                         #登陆SSH,第一次登陆输入yes
$ exit                                  #退出登录的ssh localhost
$ cd ~/.ssh/                            #如果没法进入该目录,执行一次ssh localhost
$ ssh-keygen -t rsa

输入完$ ssh-keygen -t rsa 语句后,需要连续敲击三次回车,
image

其中,第一次回车是让KEY存于默认位置,以方便后续的命令输入。第二次和第三次是确定passphrase,相关性不大。两次回车输入完毕以后,如果出现类似于下图所示的输出,即成功:
image
$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost     #此时已不需密码即可登录localhost,并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案
图片.png

二、安装jdk1.8

首先在Oracle官网下载linux版本的jdk1.8,然后进行安装和配置。

 mkdir ~/app       #创建app文件夹
$ sudo tar -zxvf  jdk-8u181-linux-x64.tar.gz  -C /app    #/ 到压缩包所在的目录将JDK解压到/app目录下
$ vim  ~/.bashrc       #给JDK配置环境变量

在./bashrc文件末尾添加如下代码:

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_181     #将路径换为自己jdk的路径
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

修改完文件后,输入代码:

$ source ~/.bashrc    #使新配置的环境变量生效
$ java -version       #检测是否安装成功,查看java版本

出现如下信息,即为安装成功。


图片.png

到此,Hadoop的前置要求已经完成,下面开始进行hadoop的安装和配置。

三、安装hadoop2.6.0-cdh5.7.0

首先下载hadoop的压缩包, 下载地址:点击这里 ,选择自己需要的版本,这里我选择的是::hadoop-2.6.0-cdh5.7.0.tar.gz 。
下面进行安装:

$ sudo tar -zxvf  hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app   #解压到~/app目录下

给hadoop配置环境变量,将下面代码添加到~/.brashrc文件末尾:

export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同样,执行source ~/.brashrc使设置生效,并查看hadoop是否安装成功。
图片.png

四、hadoop伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /hadoop-2.6.0-cdh5.7.0/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。
1.修改hadoop-env.sh文件
首先将jdk1.8的路径添(export JAVA_HOME=/home/hadoop/app/jdk1.8.0_181 )加到hadoop-env.sh文件

hadoop@Dell:~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop$ vim hadoop-env.sh
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_181 
图片.png

2.修改core-site.xml文件:

<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/home/hadoop/app/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
</configuration>

图片.png

2.修改hdfs-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/home/hadoop/app/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/home/hadoop/app/hadoop/tmp/dfs/data</value>
        </property>
</configuration>
图片.png

Hadoop 的运行方式是由配置文件决定的(运行 Hadoop 时会读取配置文件),因此如果需要从伪分布式模式切换回非分布式模式,需要删除 core-site.xml 中的配置项。此外,伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行(可参考官方教程),不过若没有配置 hadoop.tmp.dir 参数,则默认使用的临时目录为 /tmp/hadoo-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行 format 才行。所以我们进行了设置,同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否则在接下来的步骤中可能会出错。
3.验证
3.1 配置完之后,执行NameNode的格式化
(该代码只在第一次配置完之后执行一次,每次执行都会重新格式化一次)

$ bin/hdfs namenode -format

3.2 启动namenode和datanode进程,并查看启动结果

$ sbin/start-dfs.sh
$ jps

启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode” 和“SecondaryNameNode”

图片.png
3.3 也可以通过浏览器访问: http://localhost:50070/ 来验证hadoop是否启动成功。
图片.png

至此,hadoop的安装就基本上完成了!需要使用YARN的话,还需要单独配置mapred-site.xml和yarn-site.xml文件。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容