通过创建SparkConf对象来配置应用,然后基于这个SparkConf创建一个SparkContext对象。驱动器程序通过SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。一旦有了SparkContext, 就可以用它来创建RDD。
创建SparkContext的基本方法(在Scala中初始化Spark):
val conf =new SparkConf().setMaster("local").setAppName("My App")
val sc =new SparkContext(conf)
只需传递两个参数:
集群URL:告诉Spark如何连接到集群上。例子中使用local可以让Spark运行在单机单线程上而无需连接到集群。
应用名:例子中使用My App。当连接到一个集群时,这个值可以帮助我们在集群管理器的用户界面中找到应用。
(内容来源:《Spark快速大数据分析》)