准备工作(默认你已经安装好jdk,scala,maven,IDEA工具)
1.下载winutils.exe 文件
winutils.exe是在Windows系统上需要的hadoop调试环境工具,里面包含一些在Windows系统下调试hadoop、spark所需
要的基本的工具类,另外在使用eclipse调试hadoop程序是,也需要winutils.exe 。
下载地址:https://github.com/steveloughran/winutils
下载后的winutils.exe放到HADOOP_HOME/bin目录下。
2.增加HADOOP_HOME环境变量
在系统变量path里增加%HADOOP_HOME%\bin
3.下载spark源码
git clone https://github.com/apache/spark.git -b master
进入spark源码根目录,指定Hadoop和yarn的版本,编译:
mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -DskipTests clean package
4.将编译后的spark导入IDEA
用git bash
以管理员身份运行build/spark-build-info
用以生成spark-version-info.properties
文件
build/spark-build-info D:\bigdata\opensource\spark\core\target\extra-resources\ 2.4.0
将生成的spark-version-info.properties
文件复制到spark-core_2.11-2.4.0-SNAPSHOT.jar
的根目录下。(复制之前先检查根
目录下是否存在spark-version-info.properties
,不存在再复制)
在conf目录下复制log4j.properties.template
,重命名为log4j.properties
将spark\assembly\target\scala-2.11\jars
目录下的所有jar包添加到classpath
中。
运行JavaLogQuery
示例代码:
之后就可以愉快的设置断点debug啦。