Hadoop-Scala-Spark环境安装

image

ZERO

    持续更新 请关注:https://zorkelvll.cn/blogs/zorkelvll/articles/2018/11/02/1541172452468

背景

  本文主要是介绍大数据基础设施软件Hadoop-Scala-Spark的安装过程,以macOS、linux等系统环境为例进行实践!

一、背景

在最新的项目开发过程中,需要大量的对基础数据的转换实现中间字段或者中间表,使用SQL去进行数据的计算和处理,往往需要耗费大量的精力去写SQL并且实现起来很不方便,没有R、Python、Matlab、Scala等实现起来方便,基于这样的一个工作过程中遇到的痛点背景,有同学建议使用spark进行数据的etl处理直接生成结果表,先不论能否实现最终的目标但不尝试根本就不会知道是否可以实现,因此先把一个基础的环境搭建起来,至于怎么用怎么样设计好一套流程和环境实现“一劳永逸”(软件领域没有什么是一劳永逸的)那就慢慢来吧!

二、实践-环境安装(macOS)

1、版本:

jdk:1.8.0_161

hadoop:3.0.0

2、安装hadoop

(1)配置ssh:ssh-keygen -t rsa   =>  一直enter  =>  cat ~/.ssh/id\_rsa.pub >> ~/.ssh/authorized\_keys =>  确认mac已关闭防火墙和开启远程登录(系统偏好设置下:安全与隐私=>防火墙 关闭 ;共享 => 远程登录 打钩)

(2)brew下载安装hadoop:brew install hadoop   =>   可以查看到/usr/local/Cellar/hadoop/3.0.0已经安装的hadoop位置

(3)配置hadoop-env.sh : vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/hadoop-env.sh  =>  将

# export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true -Dsun.security.krb5.debug=true -Dsun.security.spnego.debug"

后添加

export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="
export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_161.jdk/Contents/Home"

(4)配置core-site.xml【hdfs地址和端口】:vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/core-site.xml => 添加配置

<configuration>
   <property>
      <name>hadoop.tmp.dir</name>
      <value>/usr/local/Cellar/hadoop/hdfs/tmp</value>
     <description>A base for other temporary directories.</description>
   </property>
   <property>
     <name>fs.default.name</name>
     <value>hdfs://localhost:8020</value>
   </property>
</configuration>

并且建立文件夹 mkdir /usr/local/Cellar/hadoop/hdfs & mkdir /usr/local/Cellar/hadoop/hdfs/tmp

(5)配置mapred-site.xml【mapreduce和jobtracker的地址和端口】:

先备份:cp /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/mapred-site.xml mapred-site-bak.xml

再编辑:vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/mapred-site.xml => 添加配置

<configuration>
      <property>
        <name>mapred.job.tracker</name>
        <value>localhost:8021</value>
      </property>
</configuration>

(6)配置hdfs-site.xml【修改hdfs备份数】:vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/hdfs-site.xml  =>  添加配置
<configuration>
   <property>
     <name>dfs.replication</name>
     <value>1</value>
    </property>
</configuration>

(7)格式化hdfs文件系统格式:hdfs namenode -format

(8)启动及关闭hadoop服务:

/usr/local/Cellar/hadoop/3.0.0/libexec/start-dfs.sh => 守护进程:namenodes、datanodes、secondary namenodes,浏览器中访问http://localhost:9870 ,注意端口号是9870而不是50070

/usr/local/Cellar/hadoop/3.0.0/libexec/start-yarn.sh => yarn服务进程:resourcemanager、nodemanagers,浏览器中访问http://localhost:8088http://localhost:8042

/usr/local/Cellar/hadoop/3.0.0/libexec/stop-yarn.sh

/usr/local/Cellar/hadoop/3.0.0/libexec/stop-dfs.sh

3、安装scala

brew下载安装scala:brew install scala   =>   可以查看到/usr/local/Cellar/scala/2.12.5存在或scala -version查看版本 

4、安装spark

spark官网下载,下载的时候注意查看其需要依赖的hadoop版本是否满足,下载后mac下直接用解压软件解压并将解压后的文件mv至/usr/local下也即/usr/local/spark-2.3.0-bin-hadoop2.7

cd /usr/local/spark-2.3.0-bin-hadoop2.7/bin & spark-shell

5、系统环境变量~/.bash_profile,便于在任何目录下执行一些命令

vim ~/.bash_profile,添加

export HADOOP_HOME=/usr/local/Cellar/hadoop/3.0.0/libexec
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

export SCALA_HOME=/usr/local/Cellar/scala/2.12.5
export PATH=$PATH:$SCALA_HOME/bin

export SPARK_HOME=/usr/local/spark-2.3.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

注意:brew方式安装的hadoop3.0.0,需要配置的hadoop路径是libexec下的,否则start-dfs.sh命令会报错“error:cannot execute hdfs-config”

6、日常启动关闭命令:

start-dfs.sh
start-yarn.sh
spark-shell
stop-yarn.sh
stop-dfs.sh

以上是hadoop-scala-spark在mac下的安装过程,为昨天在mac下首次实践,一次性成功 => 希望能够对各位同学有所帮助,和得到各位同学的后续关注,如果疑问或者遇到的坑,欢迎在文章下面留言!!

spark开启之路https://spark.apache.org/docs/latest/quick-start.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • 安装前必备的环境: mac操作系统:本人是10.12.6 JDK:1.8.0 软件包管理工具:brew 1、配置s...
    cana_win阅读 12,257评论 0 3
  • 一、系统参数配置优化 1、系统内核参数优化配置 修改文件/etc/sysctl.conf,添加如下配置,然后执行s...
    张伟科阅读 3,748评论 0 14
  • 摘要:大数据门槛较高,仅仅环境的搭建可能就要耗费我们大量的精力,本文总结了作者是如何搭建大数据环境的(单机版和集群...
    杨赟快跑阅读 15,027评论 3 65
  • 一、给div加border来实现 .triangle{ width: 0; height: 0; borde...
    书童drj阅读 185评论 0 0
  • 上一节 侧妃难安08-揪出家贼 小蝶被发卖后,屋里屋外明显太平多了,一连几天过得波澜不惊,李奕宁也照旧没有在东西两...
    墨趣儿阅读 473评论 6 11