修改conf目录下的相关配置
1、slaves.template
将slaves.template 重命名为slaves ,将worknode节点一行一个写入slaves
2、spark-env.sh.template
将spark-env.sh.template重命名为spark.env.sh
增加内容如下:
export JAVA_HOME=/usr/local/jdk
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=10.10.1.2
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop #on yarn的配置数据,该项目正确配置后,可以--master yarn 启动
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
3、相关环境变量
SPARK_HOME
$SPARK_HOME/bin $SPARK_HOME/sbin
4、yarn-site.xml
增加配置:
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
或者
修改配置 优先考虑 mapred-site.xml:mapreduce.map.memory.mb
mapreduce.reduce.memory.mb
yarn.scheduler.minimum-allocation-mb
5、启动spark
start-all.sh /start-master.sh /start-slaves.sh
spark-shell --master=yarn
spark-shell --master=spark://master:7077
spark-shell --master=local
6、任务查看
如果任务以 standalone模式提交,使用http://master:8080进行查看
如果任务以yarn模式提交, 则使用http://master:8088进行查看
7、相关警告
7.1运行spark-shell --master=yarn时, 出现WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading..
如果出现该优化警告,可以如下:
将spark jars目录下的jar包,通过hdfs拷贝到hdfs上的一个目录,比如hdfs://master:9000/jars
然后,编辑spark-defaults.conf
增加 spark.yarn.jars hdfs://hadoop004:9000/jars
重启spark,不会再报错
7,2运行 spark-shell --master=yarn时,出现 WARN util.NativeCodeLoader: Unable to load native-hadoop libraryforyour platform...usingbuiltin-java classeswhereapplicable
vim /etc/profile,增加
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export PATH=$PATH:$LD_LIBRARY_PATH