(三)搭建spark: Ubuntu下Spark单机版(Standalone)安装
硬件:ubuntu 18.04
VM 15 Pro
BEFORE 所有安装,经高人指点,
建议在Home下面新建一个专门放置环境变量的文件夹,这里命名dev。
解压后copy-dev文件夹下
第一步安装JDK
安装前先检查有没有java
如果显示没安装,
http://www.oracle.com/technetwork/java/javase/downloads/index.html
这里下载的是:jdk-8u233-linux-x64.tar.gz
# 解压文件
sudo tar -zxvf jdk-8u233-linux-x64.tar.gz
#更改环境变量
sudo gedit ~/.bashrc
# 在弹出的窗口最下面两行加入下面两行
# 注意 /usr/dev/jdk1.8.0_144改成你dev文件夹下相应的路径
export JAVA_HOME= /usr/dev/jdk1.8.0_144
export PATH=$PATH:${JAVA_HOME}/bin
# 生效文件
source ~/.bashrc
# 查看系统环境变量
echo $PATH
# 测试是否成功、
java -version
第二步:安装 Scala
官网下载 https://www.scala-lang.org/download/2.11.11.html
我的版本是 scala-2.11.11.tgz
# 解压Scala
sudo tar -zxcf scala-2.11.11.tgz
# 添加环境变量
sudo gedit ~/.bashrc
# 弹出框最后加以下两行
# 注意 /usr/dev改成你dev文件夹下相应的路径
export SCALA_HOME= /usr/dev/scala-2.11.11
export PATH=$PATH:${SCALA_HOME}/bin
# 生效文件
source ~/.bashrc
# 查看系统环境变量
echo $PATH
# 测试是否成功、
scala -version
第三步:安装Spark
去官网下载 http://spark.apache.org/downloads.html
我下载的是spark-2.4.4, pre-built-hadoop-2.7
# 解压Spark
sudo tar -zxcf spark-2.4.4-bin-hadoop2.7.tgz
# 添加环境变量
sudo gedit ~/.bashrc
# 弹出框最后加以下两行
# 注意 /usr/dev改成你dev文件夹下相应的路径
export SPARK_HOME=/usr/dev/spark-2.4.4-bin-hadoop2.7
export PATH=$PATH:${SPARK_HOME}/bin
# 生效文件
source ~/.bashrc
# 查看系统环境变量
echo $PATH
# 测试是否成功、
spark-shell
成功啦
第四步:安装pyspark
spark是配有pyspark的内嵌python 2.7的版本。 但是ubuntu18是配有python3.6的版本。目的是切换成3.6的版本。
请参考以下链接
https://blog.csdn.net/weixin_30648963/article/details/98983297