spark 2.x 集群方式 on yarn

修改conf目录下的相关配置

1、slaves.template 

将slaves.template 重命名为slaves ,将worknode节点一行一个写入slaves

2、spark-env.sh.template

将spark-env.sh.template重命名为spark.env.sh

增加内容如下:

export JAVA_HOME=/usr/local/jdk

export SPARK_HOME=/usr/local/spark

export SPARK_MASTER_IP=10.10.1.2

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop  #on yarn的配置数据,该项目正确配置后,可以--master yarn 启动

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

3、相关环境变量

SPARK_HOME

$SPARK_HOME/bin $SPARK_HOME/sbin


4、yarn-site.xml

增加配置:

<property>

        <name>yarn.nodemanager.pmem-check-enabled</name>

        <value>false</value>

</property>

<property>

        <name>yarn.nodemanager.vmem-check-enabled</name>

        <value>false</value>

</property>

或者

修改配置 优先考虑 mapred-site.xml:mapreduce.map.memory.mb

                                      mapreduce.reduce.memory.mb

                                     yarn.scheduler.minimum-allocation-mb

5、启动spark

start-all.sh /start-master.sh /start-slaves.sh

spark-shell --master=yarn

spark-shell --master=spark://master:7077

spark-shell --master=local


6、任务查看

如果任务以 standalone模式提交,使用http://master:8080进行查看

如果任务以yarn模式提交, 则使用http://master:8088进行查看

7、相关警告

7.1运行spark-shell --master=yarn时, 出现WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading..

如果出现该优化警告,可以如下:

将spark jars目录下的jar包,通过hdfs拷贝到hdfs上的一个目录,比如hdfs://master:9000/jars

然后,编辑spark-defaults.conf

增加 spark.yarn.jars hdfs://hadoop004:9000/jars

重启spark,不会再报错

7,2运行 spark-shell --master=yarn时,出现 WARN util.NativeCodeLoader: Unable to load native-hadoop libraryforyour platform...usingbuiltin-java classeswhereapplicable

vim /etc/profile,增加

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

export  PATH=$PATH:$LD_LIBRARY_PATH

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容