1.启动hadoop与spark。
2.独立集群管理器
(1)spark-submit(jar)
向独立集群管理器提交应用,需要把spark://master:7077作为主节点参数递给spark-submit。下面我们可以运行Spark安装好以后自带的样例程序SparkPi,它的功能是计算得到pi的值(3.1415926)。
在Shell中输入如下命令:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 examples/jars/spark-examples_2.11-2.0.2.jar 100 2>&1 | grep "Pi is roughly"
python同样可以操作。
(2) spark-shell
也可以用spark-shell连接到独立集群管理器上。用hdfs上的电影集文件做测试。
在Shell中输入如下命令启动进入spark-shell:
cd /usr/local/spark/
bin/spark-shell --master spark://master:7077
可以在spark-shell中输入如下代码进行测试:
3.hadoop yarn
(1) spark-submit(jar)
向Hadoop YARN集群管理器提交应用,需要把yarn-cluster作为主节点参数递给spark-submit。
请登录Linux系统,打开一个终端,在Shell中输入如下命令:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster examples/jars/spark-examples_2.11-2.0.2.jar
(2)spark-shell
bin/spark-shell --master yarn
scala代码同上。