安装InteliJ软件
新建工程,如下图
配置build.sbt
name := "ScalaHelloWorld"
version := "1.0"
scalaVersion := "2.12.2"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.4.0"
这里的scala版本需要与系统安装的一致,否则后面sbt编译会报错。
lib依赖配置了,sbt会自动下载需要的包。
准备数据
例如如下简单的文本
hello word count hello
新建scala object
package com.hello
import org.apache.spark.{SparkConf, SparkContext}
object wordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
.setMaster("local")
.setAppName("wordCount")
val sc = new SparkContext(conf)
val data = sc.textFile("./example.txt")
val result = data.flatMap(_.split(" "))
.map((_,1))
.reduceByKey(_+_)
.collect()
result.foreach(println)
}
}
运行
结果如下
这就是spark word count的最简单的入门环境了。