Spark初体验(步骤超详细)

一乡二里共三夫子不识四书五经六义竟敢教七八九子十分大胆！
十室九贫凑得八两七钱六分五毫四厘尚且三心二意一等下流

spark

前言

这里，不谈spark原理，作用，使用场景等，只是一个spark与java打通的一个过程。看似简单，整整花了哥两天的时间，版本号的坑，服务器的坑等等，头胀的能飘起来_{！按照我下面说的环境和步骤去做，保证你99%能一次跑过，因为我是一边写此篇一边在新的虚拟机配置。一切都ok}

环境

名称	版本号
Linux	CentOS Linux release 7.0.1406 (Core)
jdk	1.8.0_121 OpenJDK 64-Bit Server VM (build 25.121-b13, mixed mode)
scala	Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
spark	spark-1.6.2-bin-hadoop2.6

环境部署(超详细)

最好把当前Linux的镜像库文件更换掉，这里我用的是163的传送门讲解得很详细

卸掉默认的jdk版本

[root@localhost ~]# rpm -qa|grep jdk
java-1.7.0-openjdk-headless-1.7.0.51-2.4.5.5.el7.x86_64
java-1.7.0-openjdk-1.7.0.51-2.4.5.5.el7.x86_64

得到目前jdk的版本，然后删除

yum -y remove java java-1.7.0-openjdk-headless-1.7.0.51-2.4.5.5.el7.x86_64

然后安装下载好的jdk，用到的软件都放在了文末，或者自己去下载或者去各自的官网下载

tar -xvzf jdk-8u121-linux-x64.tar.gz

解压好之后，创建个软连接，方便以后更改版本

ln -sf /usr/local/software/jdk1.8.0_121/ /usr/local/jdk

按照此方法分别对scala和spark操作，配置后结果如下

.
├── bin
├── etc
├── games
├── include
├── jdk -> /usr/local/software/jdk1.8.0_121
├── lib
├── lib64
├── libexec
├── sbin
├── scala -> /usr/local/software/scala-2.10.4
├── share
├── software
├── spark -> /usr/local/software/spark-1.6.2-bin-hadoop2.6
└── src

然后将其分别添加到系统的全局变量

vi /etc/profile

在文件的最末端添加下面代码，注意格式

export JAVA_HOME=/usr/local/jdk
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

最后一定要执行下面命令，作用就是即时生效

source /etc/profile

然后就可以查看版本号了

java -version
scala -version

到此，spark的环境就部署好了，我这边代码依赖管理用的是maven，还需要配置下maven环境，
这里我直接用的yum安装了

yum install maven

等待安装完毕，在改一下maven的中央仓库镜像地址，否咋，spark需要的几个jar包会下载到你怕为止.
这里maven的地址可以通过mvn -version去查看

Maven home: /usr/share/maven
Java version: 1.8.0_121, vendor: Oracle Corporation
Java home: /usr/local/software/jdk1.8.0_121/jre
Default locale: en_US, platform encoding: UTF-8
OS name: "linux", version: "3.10.0-123.el7.x86_64", arch: "amd64", family: "unix"

都给你列出来了233333
然后修改mirrors

 vi /usr/share/maven/conf/settings.xml

找到节点<mirrors/>
添加阿里云的镜像地址

<mirror>
  <id>alimaven</id>
  <name>aliyun maven</name>
  <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
  <mirrorOf>central</mirrorOf>
</mirror>

保存一下，ok

启动spark服务

在启动之前，还需要做些处理
在spark的conf中，修改下配置文件

cp spark-env.sh.template spark-env.sh
vi spark-env.sh.template

再开头添加环境

export JAVA_HOME=/usr/local/jdk
export SCALA_HOME=/usr/local/scala

我也不知道这里为什么也要配置。。。
回到spark根目录

sbin/start-master.sh

在主机网页输入地址http://yourip:8080/ 访问,如果访问不到，说明虚拟机的防火墙打开了，这里要关掉

service firewalld stop

再次刷新页面，ok，如下

spark服务

这里还要继续启动worker

bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077

再刷新下页面，ok，如下

worker

编写Java代码

这里说一下，spark支持java、scala和python，无论用什么都只是对业务的封装，当然了原配是scala，我这里使用的java去实现一个计数程序，（目前网上有关spark的教程的第一个demo都是计数程序，我简称spark为“hello wordcount”）,我用maven来管理依赖关系，这个版本号一定要 注意！注意！注意！
本地的要和虚拟机里配置的要一毛一样！！！
代码很简单，怎么计数自己去实现

public class WorldCount {
    private static final Pattern SPACE = Pattern.compile(" ");

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("vector's first spark app");
        JavaSparkContext sc = new JavaSparkContext(conf);
        //C:\Users\bd2\Downloads
        JavaRDD<String> lines = sc.textFile("/opt/blsmy.txt").cache();;
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

            public Iterable<String> call(String s) throws Exception {
                return Arrays.asList(SPACE.split(s));
            }

            private static final long serialVersionUID = 1L;
        });

        JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

            private static final long serialVersionUID = 1L;

            public Tuple2<String, Integer> call(String s) {
                return new Tuple2<String, Integer>(s, 1);
            }
        });

        JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {

            private static final long serialVersionUID = 1L;

            public Integer call(Integer i1, Integer i2) {
                return i1 + i2;
            }
        });

        List<Tuple2<String, Integer>> output = counts.collect();
        for (Tuple2<?, ?> tuple : output) {
            System.out.println(tuple._1() + ": " + tuple._2());
        }

        sc.close();
    }
}

注意这里没有.setMaster(),这个参数在虚拟机执行的时候通过手动配置
再来就是依赖配置文件pom，我已经亲测，可以直接拿过去用

<properties>
        <scala.version>2.10.4</scala.version>
        <spark.version>1.6.2</spark.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>
        <dependency>
            <groupId>com.googlecode.json-simple</groupId>
            <artifactId>json-simple</artifactId>
            <version>1.1.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-launcher_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.4</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.specs</groupId>
            <artifactId>specs</artifactId>
            <version>1.2.5</version>
            <scope>test</scope>
        </dependency>

        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>

    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.3</version>
                <configuration>
                    <appendAssemblyId>false</appendAssemblyId>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>WorldCount</mainClass><!--man方法入口-->
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>assembly</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

打jar包的时候，我建议将src和pom上传到虚拟机，在虚拟机里打包，因为打成jar包后大概有上百兆大小，我是在虚拟机打包的,如下

[root@localhost co]# ll
total 8
-rw-r--r--. 1 root root 3401 Apr 14 13:47 pom.xml
-rw-r--r--. 1 root root 2610 Apr 14 16:35 sparkjar.zip
drwxr-xr-x. 4 root root   28 Apr 14 09:00 src
[root@localhost co]# mvn package

第一次打包的时候可能会用到十几分钟的时间，因为需要用到的包太多了。打包成功之后，记住对应jar包地址

提交任务给spark

我这里下载了英文版的《巴黎圣母院》作为解析文本，并放在了/opt/目录下

bin/spark-submit --master spark://localhost.localdomain:7077 --class WorldCount /usr/local/co/target/spark.jar-1.0-SNAPSHOT.jar

没有特殊情况的话，结果会输出在屏幕上，部分如下

Djali!: 2
faintly: 7
bellow: 1
prejudice: 1
singing: 15
Pierre.��: 1
incalculable: 1
defensive,: 1
slices: 1
niggardly: 1
Watch: 2
silence,: 14
water.��: 1
inhumanly: 1
17/04/14 16:59:35 INFO SparkUI: Stopped Spark web UI at http://192.168.22.129:4040

到此一个spark与java程序彻底打通了。。。

后续，我会使用spark对公司项目进行改造，将数据处理交给spark去做。我会一一记录分享出来

总结

环境部署的要正确，版本号要统一
spark启动的顺序
sbin/start-master.sh # 启动服务
bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077 # 启动worker
bin/spark-submit --master spark://localhost.localdomain:7077 --class WorldCount /usr/local/code/target/spark.jar-1.0-SNAPSHOT.jar # 提交任务

名称	地址
用到的软件	http://pan.baidu.com/s/1skN5NS5 密码：ufhk
Java计数程序	http://download.csdn.net/download/qqhjqs/9814285
《巴黎圣母院》	链接：http://pan.baidu.com/s/1qXZJedI 密码：vljg

码字不易，看客给个茶钱~

最后编辑于：2017.12.06 16:50:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342

Spark初体验(步骤超详细)

前言

环境

环境部署(超详细)

启动spark服务

编写Java代码

提交任务给spark

总结

推荐阅读更多精彩内容