安装scala环境
下载地址 http://www.scala-lang.org/
1.windows下面直接下一步即可
2.linux环境
进入官网下载,配置环境变量即可
安装eclipes版本的spark开发环境
1.下载eclipse for scala
http://scala-ide.org/download/prev-stable.html
或者 安装scala插件
安装eclipse-scala-plugin插件,下载地址http://scala-ide.org/download/prev-stable.html
解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可。
或者 在eclipsemarket中选择自动下载
或者 在Eclipse中,依次选择“Help” –> “Install New Software…”,在打开的卡里填入
http://download.scala-ide.org/sdk/lithium/e38/scala211/stable/site/,并按回车键,可看到以下内容,选择前两项进行安装即可。
注: 如果使用了其它版本eclipse,则在以下主页
http://scala-ide.org/download/current.html
找到eclipse版本对应的scala插件。
遇到的问题
Description Resource Path Location Type
More than one scala library found in the build path (/home/hadoop/eclipse/plugins/org.scala-lang.scala-library_2.11.8.v20160304-115712-1706a37eb8.jar, /home/hadoop/spark-1.4.0-bin-hadoop2.6/lib/spark-assembly-1.4.0-hadoop2.6.0.jar).At least one has an incompatible version. Please update the project build path so it contains only one compatible scala library. testsala Unknown Scala Classpath Problem
在eclipse project--》propoties--》scala版本修改
windows下开发环境搭建
1、环境
IntelliJ 15.0.2 hadoop2.7 spark1.4.0 scala 2.11.4 JDK1.7
IntelliJ 安装好后 ,安装scala插件
依次选择“Configure”–> “Plugins”–> “Browse repositories”,输入scala,然后安装即可。由于网速问题或者其他问题,安装会不成功。这时候下载scala-intellij-bin-2.2.0.zip放到plugins文件夹下即可
2、windows下搭建开发环境
在intellij IDEA中创建scala project,并依次选择“File”–> “project structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入,比如导入spark-assembly_2.10-0.9.0-incubating-hadoop2.2.0.jar(只需导入该jar包,其他不需要),如果IDE没有识别scala 库,则需要以同样方式将scala库导入。之后开发scala程序即可:
3、编写Scala版本的wordcount
object Spark {
def main(args :Array[String]): Unit ={ if(args.length==0){
System.err.println("参数错误 !!!")
System.exit(1)
}
//创建一个scala版本的
SparkContext val conf =new SparkConf().setAppName("wordCount")
val sc=new SparkContext(conf)
val input =sc.textFile(args(0))
val words =input.flatMap(line => line.split(" "))
val counts=words.map(word => (word,1)).reduceByKey{case(x,y) => x + y }
counts.saveAsTextFile(args(1))
}
}
配置运行参数
运行结果如图
打成Jar包
依次选择“File”–> “Project Structure” –> “Artifact”,选择“+”–> “Jar” –> “From Modules with dependencies”,选择main函数,并在弹出框中选择输出jar位置,并选择“OK”。
最后依次选择“Build”–> “Build Artifact”编译生成jar包
jar包在spark集群上运行
./bin/spark-submit --class "SimpleApp" --master local[4] myApp/study-scala.jar