一、Spark的安装和配置
这个之前得把Scala环境配置好,但是和配置jdk类似,所以就不专门说了。同时Spark是运行在Hadoop框架下的,所以一定得保证Hadoop框架配置成功。
敲黑板:spark和scala的版本问题,这个得根据你的spark来看,比如我2.2.0,官网推荐的是scala-2.11.*,用其他版本可能会出很多问题。所以我下面的scala-2.12.3是错误的操作
1.首先先去官网下载spark,这里我是spark-2.2.0版本
2.之后我们将tar包解压,并配置相关文件
2.1修改conf文件夹下的spark-env.sh.template,重命名为spark-env.sh打开进入,在末尾添加如下语句,倒数后三行并不是必须的
2.2修改conf文件夹下的slaves.template,重命名为slaves
打开,末尾添加从节点名称(这里有个错误,得把localhost删去,否则主节点也有worker)
2.3修改conf文件夹下的spark-defaults.conf.template 重命名为spark-defaults.conf
打开,末尾修改如下
2.4把文件发送到两个从节点下
2.5启动dfs,到hdfs 系统上创建/historyServerforSpark目录
2.5启动spark。因为权限问题,所以我更改了owner,并顺手把文件夹扔进了用户下
进入文件夹的sbin目录,执行 ./start.all.sh,再执行./start-history-server.sh启动historyServerforSpark
2.6 jps查看进程
主节点如下启动Master和HistoryServer
从节点如下启动了Worker
大功告成!
3. 最后我们通过Web访问,spark的端口号是8080
二、搭建Intellij开发环境
首先先去官网把IDEA给下载下来
然后解压,重命名,移动文件一气呵成
在解压目录下执行sudo bin/idea.sh ,然后我们就可以进入安装流程了
中间有个scala plungin我们也可以现在安装好,只不过有点慢...
接下来应该就是start IDEA了,我们Create 一个Project
其中这个就是设置我们JDK的路径
然后给Project命名,还有路径
Finished后,我们在src目录下创建我们的Main函数的java文件
然后就可以开始使用IDEA编程,强大的自动补全功能。
安装scala插件后,还可以安装python的插件等等... ...
至此结束,有任何问题都欢迎指出 ╭(╯^╰)╮