通过spark-shell --master local[2] 读取本地数据文件做一个wordcount
这个命令可以在任何一个节点上运行,local表示在本地执行,2表示启动两个线程。
spark-shell --master local[*] 表示使用当前机器上所有可用的资源去运行程序。
本地执行和集群无关。
使用本地去执行程序,方便测试程序的逻辑。
注意,这里的master不是集群当中的master,而是本地。
Spark session 是在spark2.0之后出现的。
首先在/root/目录下建立一个words.txt 文件,当中存放了一些单词。
sc.textFile()加载数据文件