本文环境: Scala 2.11.8 、Maven 3.3.9 、 Spark 2.3.0
1.下载源码
原因:
1.spark对应不同的hadoop版本有不同的支持
2.方便后期对源码的更改,并进行编译
需要注意
spark文件夹中的pom文件需要修改maven的路径
pom 文件修改, 默认的是Apache的源,建议改成cdh的源,避免很多坑
特别注意 :需要有目录创建的权限!!!
最后是打包编译的命令:
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
- --name之后的custom-spark是编译好后生成的那个tgz文件的文件名,可以自定义
- Phadoop要根据自己已经安装好了的hadoop版本写
- 如果要运行R语言请加上-Psparkr,否则请省略以提高编译速度
- 如果要使用mesos请加上-Pmesos,否则请省略以提高编译速度
结果
至此,就可以开心的开始玩耍了!
日常吐槽: 今天从早上9点整到差不多4点,不停排错,最后发现原因只是因为没有创建目录的权限! 心累 - - ,以后出问题一定要仔细查看日志!!!!!