搭建spark集群

tidb1.0开始支持spark，有个组件tiSpark，不过目前只支持spark2.1版本。所以为了启用tiSpark，还需搭建spark集群。
在官网下载地址http://spark.apache.org/downloads.html上，我找到了with hadoop的版本。如下图：

图1.png

下载地址：https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz

目前手中有4台资源
决定选用其中三台搭建spark集群，一台master，两台slave
链接如下：

域名	IP	主从关系
tidb1	192.168.122.16	Master
tidb2	192.168.122.18	Slave
tidb3	192.168.122.19	Slave

顺便说一下，centos7的hostname设定和之前版本已经不一样了。现在只需输入以下命令指定

hostnamectl set-hostname name

name就是你需要指定的hostname

将压缩包下载后，分别上传至三台server的/usr/local目录下，并解压

cd  /usr/local
tar zxvf spark-2.1.1-bin-hadoop2.7.tgz

准备

在搭建集群环境之前，首先要做的事情是让这三台机器可以互相免密登陆

编辑/etc/hosts

编辑三台server的/etc/hosts
编辑后内容如下：

#127.0.0.1   localhost tidb1 localhost4 localhost4.localdomain4
#::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
#216.176.179.218 mirrorlist.centos.org
192.168.122.16 tidb1
192.168.122.18 tidb2
192.168.122.19 tidb3

注意：第一行一定要注释，我在安装过程中，spark启动后，日志文件报错，就是因为它没有去找我下面指定的ip和域名，而是老是去连接127.0.0.1

然后让它们生效

source /etc/hosts

安装ssh和rsync

可以通过下面命令查看是否已经安装：

rpm -qa|grep openssh
rpm -qa|grep rsync

如果没有安装ssh和rsync，可以通过下面命令进行安装：

yum install ssh 
yum install rsync 
service sshd restart

配置Master无密码登录所有Salve

tidb1节点的配置操作

以下是在tidb1节点的配置操作。

1）在tidb1节点上生成密码对，在tidb1节点上执行以下命令：

ssh-keygen -t rsa -P ''

生成的密钥对：id_rsa和id_rsa.pub，默认存储在"/root/.ssh"目录下。

2）接着在tidb1节点上做如下配置，把id_rsa.pub追加到授权的key里面去

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证
RSAAuthentication yes 
# 启用公钥私钥配对认证方式
PubkeyAuthentication yes 
# 公钥文件路径（和上面生成的文件同）
AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效。

service sshd restart

5）验证无密码登录本机是否成功

ssh tidb1

6）接下来的就是把公钥复制到所有的Slave机器上。使用下面的命令进行复制公钥：

scp /root/.ssh/id_rsa.pub root@tidb2:/root/
scp /root/.ssh/id_rsa.pub root@tidb3:/root/

tidb2节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb2的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证
RSAAuthentication yes 
# 启用公钥私钥配对认证方式
PubkeyAuthentication yes 
# 公钥文件路径（和上面生成的文件同）
AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb2

ssh tidb2

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

tidb3节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb3的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证
RSAAuthentication yes 
# 启用公钥私钥配对认证方式
PubkeyAuthentication yes 
# 公钥文件路径（和上面生成的文件同）
AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb3

ssh tidb3

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

配置所有Slave无密码登录Master

tidb2节点的配置操作

1）创建tidb2自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令

ssh-keygen -t rsa -P ''
cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb2节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作

1）将tidb2的公钥追加到tidb1的授权文件"authorized_keys"中去

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）删除tidb2复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb2到tidb1无密码登录

ssh tidb1

tidb3节点的配置操作

1）创建tidb3自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令：

ssh-keygen -t rsa -P ''
cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb3节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作。

1）将tidb3的公钥追加到tidb1的授权文件"authorized_keys"中去

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

2）删除tidb3复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb3到tidb1无密码登录。

ssh tidb1

spark集群搭建

进入到Spark安装目录

cd /usr/local/spark-2.1.1-bin-hadoop2.7

进入conf目录并重命名并修改spark-env.sh.template文件

cd conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

在该配置文件中添加如下配置

export JAVA_HOME=/usr/local/jdk18121
export SPARK_MASTER_IP=tidb1
export SPARK_MASTER_PORT=7077

保存退出
重命名并修改slaves.template文件

mv slaves.template slaves
vi slaves

在该文件中添加子节点所在的位置（Worker节点）

tidb2
tidb3

保存退出

配置环境变量：

vim /etc/profile

#set spark env
export SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile

将配置好的Spark拷贝到其他节点上

cd /usr/local
scp -r spark-2.1.1-bin-hadoop2.7 root@tidb2:$PWD
scp -r spark-2.1.1-bin-hadoop2.7 root@tidb3:$PWD

Spark集群配置完毕，目前是1个Master，2个Worker，在tidb1上启动Spark集群

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh

启动后，控制台显示如下

图2.png

在浏览器中访问tidb1:8080端口，可见启动后情况，如下图

图3.png

关闭集群可用如下命令

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/stop-all.sh

总结

简单介绍一下Spark集群的工作模式
首先启动一个Master（我这里是tidb1）,然后Master和各个Worker（我这里是tidb2和tidb3）进行通信，其中真正干活的是Worker下的Executor。
我们还需要有一个客户端，这个客户端叫做Driver。它首先和Master建立通信，然后Master负责资源分配，接着让Worker启动Executor,最后让Executor和Driver进行通信。
效果图如下：

图4.png

最后编辑于：2017.12.11 05:12:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

搭建spark集群

准备

编辑/etc/hosts

安装ssh和rsync

配置Master无密码登录所有Salve

tidb1节点的配置操作

tidb2节点的配置操作

tidb3节点的配置操作

配置所有Slave无密码登录Master

tidb2节点的配置操作

tidb1节点的配置操作

tidb3节点的配置操作

tidb1节点的配置操作。

spark集群搭建

总结

推荐阅读更多精彩内容