修改conf目录下的相关配置

1、slaves.template

将slaves.template 重命名为slaves ，将worknode节点一行一个写入slaves

2、spark-env.sh.template

将spark-env.sh.template重命名为spark.env.sh

增加内容如下：

export JAVA_HOME=/usr/local/jdk

export SPARK_HOME=/usr/local/spark

export SPARK_MASTER_IP=10.10.1.2

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop #on yarn的配置数据，该项目正确配置后，可以--master yarn 启动

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

3、相关环境变量

SPARK_HOME

$SPARK_HOME/bin $SPARK_HOME/sbin

4、yarn-site.xml

增加配置：

<name>yarn.nodemanager.pmem-check-enabled</name>

<value>false</value>

</property>

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

或者

修改配置优先考虑 mapred-site.xml：mapreduce.map.memory.mb

mapreduce.reduce.memory.mb

yarn.scheduler.minimum-allocation-mb

5、启动spark

start-all.sh /start-master.sh /start-slaves.sh

spark-shell --master=yarn

spark-shell --master=spark://master:7077

spark-shell --master=local

6、任务查看

如果任务以 standalone模式提交，使用http://master:8080进行查看

如果任务以yarn模式提交，则使用http://master:8088进行查看

7、相关警告

7.1运行spark-shell --master=yarn时，出现WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading..

如果出现该优化警告，可以如下：

将spark jars目录下的jar包，通过hdfs拷贝到hdfs上的一个目录，比如hdfs://master:9000/jars

然后，编辑spark-defaults.conf

增加 spark.yarn.jars hdfs://hadoop004:9000/jars

重启spark，不会再报错

7,2运行 spark-shell --master=yarn时，出现 WARN util.NativeCodeLoader: Unable to load native-hadoop libraryforyour platform...usingbuiltin-java classeswhereapplicable

vim /etc/profile，增加

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

export PATH=$PATH:$LD_LIBRARY_PATH

spark 2.x 集群方式 on yarn