测试如何使用spark-submit来执行编写的wordcount代码。
1、先简单编写测试文本。
2、将文本提交到hdfs上。
指令为:hadoop fs -put 本地路径文件 hdfs文件路径文件
ps:我的hdfs文件路径为:/datas/wordcount
3、编写wordcount代码
4、使用maven的package打包,生成jar包,根据日志找到jar包路径
5、将jar包上传到linux指定目录
6、spark-submit提交指令
此处要注意换行和传入参数。最后一行的传入参数为文件输入路径。参考代码,为文章开头文本的保存路径。
7、输出结果