首先要安装Scala
先下载scala-2.11.8.tgz ,安装的方法就比较老套路了:
先是解压tar -zxvf scala-2.11.8.tgz
然后移动sudo mv -r scala-2.11.8/ /usr/
改名sudo mv /usr/scala-2.11.8 /usr/scala
配置环境变量sudo vim /etc/profile
加入以下内容:
export SCALA_HOME=/usr/scala
export PATH=$PATH:$SCALA_HOME/bin
让配置生效source /etc/profile
终端输入scala
就可以进入scala了
安装Spark
用同样的套路安装Spark
先是解压tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
然后移动sudo mv -r spark-2.2.0-bin-hadoop2.7/ /usr/
改名sudo mv /usr/spark-2.2.0-bin-hadoop2.7 /usr/spark
配置环境变量sudo vim /etc/profile
加入以下内容:
export SPARK_HOME=/usr/spark
export PATH=$PATH:$SPARK_HOME/bin
让配置生效source /etc/profile
这里需要修改spark/conf/下的spark-env.sh.template文件
先重命名mv conf/spark-env.sh.template conf /spark-env.sh
修改vim /usr/spark/conf /spark-env.sh
加入以下内容:
export JAVA_HOME=/usr/java/jdk
export SCALA_HOME=/usr/scala
export HADOOP_HOME=/usr/hadoop
export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=4g
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
变量说明
- JAVA_HOME:Java安装目录
- SCALA_HOME:Scala安装目录
- HADOOP_HOME:hadoop安装目录
- HADOOP_CONF_DIR:hadoop集群的配置文件的目录
- SPARK_MASTER_IP:spark集群的Master节点的ip地址
- SPARK_WORKER_MEMORY:每个worker节点能够最大分配给exectors的内存大小
- SPARK_WORKER_CORES:每个worker节点所占有的CPU核数目
- SPARK_WORKER_INSTANCES:每台机器上开启的worker节点的数目
修改slaves文件
vim /usr/spark/conf/slaves
加入从机的IP地址,也可以是从机名。
然后就可以启动Spark了:
先启动HDFSstart-dfs.sh
然后启动Spark,从Spark的目录下启动Spark,
cd /usr/spark/sbin/
./start-all.sh
主机和其他从机输入jps有如下显示说明启动成功了:
那么问题来了,我学过Python但没学过scala怎么使用Spark?我们知道Spark是支持Python语言的,在spark/bin/下也可以看到有pyspark,我试着运行一下
运行失败,没找到python命令,好吧,那么我就安装Python:
先去Python官网下载Python的二进制源码,下好了先解压
tar -zxvf Python-3.6.5rc1.tgz
然后我按照老套路安装
./Python-3.6.5rc1/configure --prefix=/usr/python
(/usr/python是指要把安装python的目的地址)
然后就。。。暴露了。。。居然没有安装C编译器,作为计算机专业的我感觉很丢脸,好吧,继续安装GCC。作为Linux小白的我人为缺什么就安装什么,所以我输入了如下命令
sudo apt-get install gcc
可以看到由于网速体验极差,所以我放弃安装GCC了。。。然后从网上下载了GCC源码来编译也是各种问题,最后抱着试一试的心理来执行这么一段命令
sudo apt-get install g++
然而网速还是很慢,这时候突然灵机一动,想到这样一个命令
sudo apt-get update
然后再执行sudo apt-get install g++
命令,果然安装成功了
好了,现在可以继续安装Python了
./Python-3.6.5rc1/configure --prefix=/usr/python
make
make install
然后一路顺通无阻安装成功!!!
输入命令python3
可以进入python shell,顺便求了一下1+1等于多少
然后美滋滋的执行pyspark
命令,然后还是有问题。。。
有问题还是找百度,经过十几分钟的苦苦在寻找终于找到解决办法:
编辑/etc/profile
在里边添加export PYSPARK_PYTHON=python3
使配置生效source /etc/profile
再启动pyspark
就没问题了
希望这些能帮助到您
参考:
https://blog.csdn.net/weixin_36394852/article/details/76030317
https://www.cnblogs.com/kimyeee/p/7250560.html
https://github.com/pyenv/pyenv/wiki/Common-build-problems
https://stackoverflow.com/questions/30279783/apache-spark-how-to-use-pyspark-with-python-3