在Rstudio中使用Spark处理超大规模的数据集

最近对Rstudio的最新版本做了一个探索，发现在Rstudio的菜单中有连接Spark的入口，刚好自己手里有一份大小超过5GB,记录数达到2.8亿的超大数据集，对于单机版本的R来说无能为力，于是想尝试一下用Rstudio里面的Spark入口来安装和使用Saprk分析这个超大数据集。这样可以把Spark和自己熟悉的R语言结合起来，在Spark里面把数据汇总以后，可以直接传给R，在R里面使用更加复杂的模型和可视化工具对数据进行进一步分析。在这个过程中有很多东西自己也不是很熟悉，于是将这个过程记录下来，顺便也分享给大家。

1、准备R和Rstudio

（1）下载最新版的Rstudio，当前版本为1.1.383
，如果已经安装Rstudio且其版本低于1.1，请将其升至最新版。
可通过如下网址下载，下载后直接安装即可：

https://www.rstudio.com/products/rstudio/download/#download

（2）如果你还没有安装R，请下载并安装R，可通过R官方网站进行下载。

https://www.r-project.org/

（3）如果你没有R的基础，可以观看@松鼠在网易云课堂上发布的免费R入门课程：

https://study.163.com/instructor/3188405.htm

2、利用Rstudio自动安装Spark

在Rstudio中使用Spark十分简单，无需我们手动下载和配置spark环境，Rstudio会自动为我们安装Spark环境，你所需要做的就是点点菜单即可。

但在Rstudio中安装和使用Spark之前，我们需要先在自己的电脑上安装Java环境，因为Spark运行在Java 虚拟机，也就是JVM之上。

下面介绍安装步骤：

（1）安装并配置Java 8环境：

① 下载Java JDK（选择适合自己操作系统的版本）：

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

② 安装JDK，直接双击上一步下载的Java JDK进行安装即可；

③ 配置Java环境变量，这里演示Windows10上的操作，其它版本的操作系统可通过百度搜索相关操作演示。

安装完成后，找到Java的安装路径，我安装的是Windows64位版本，并且安装到了C盘，也就是按照默认路径安装，此时Java路径为C:\Program Files\Java\;
然后设置JAVA_HOME，设置JAVA_HOME是为了让其它依赖Java的程序能够找到Java的安装位置。在Windows10上，按Windows键，输入path，点击编辑系统环境变量，点击环境变量，在系统变量部分，添加如下图所示的JAVA_HOME.
接着找到系统变量里面的Path，点击编辑。将jdk路径和jre路径添加进去，如下图所示：

④ 验证Java环境变量时候配置成功
打开命令行cmd或者 Power shell（按Windows键，输入cmd或者Power shell即可），输入java和javac查看是否有返回结果，如果没有报错，那么Java已经安装和配置成功了。

（2）在Rstudio中自动安装Spark

在Rstudio的左上方，点击Connections，点击New Connection,你将看到Spark图标。

点击Spark图标，将会询问是否安装或者更新sparklyr包，选择yes进行安装，sparklyr包是用来在R里面操作Spark的一个包。

sparklyr包需要依赖很多其它的R包，如果安装速度太慢，可以将R包的下载镜像切换到国内。（在Rstudio中点击Tools,选择Options,点击Packages,出现如下图所示的图片，切换镜像即可。）

安装好sparklyr包之后，再次点击New Connection，点击Spark.

上一步操作后，将会出现如下图所示的界面，提示我们选择Spark和Hadoop的版本，一般情况下，我们按照默认的进行安装即可，其它版本则可能会出现问题。（我之前在测试时，选择2.2的Spark，运行会出错）。点击install之后，Rstudio将会自动给我们下载spark以及其依赖的环境。

下载完成之后，将会自动连接Spark，并运行Spark UI.

3、通过Rstudio连接Spark，读入大数据集并进行分析

（1）读入数据集并进行分析

我这里使用一个文件大小为5.25GB，记录数达到2.8亿行的大数据集进行测试。（如果单独使用R进行处理，则R将会直接爆掉）

这里使用sparklyr包将本机里面的csv文件读入Spark.

testing <- spark_read_csv(sc,        # 与spark的连接
                         'testing',  # 在spark中数据集的名称
                          path = 'D:/Data/future/data/ForecastDataforTesting.csv')

（2）使用Spark UI观察Spark任务调度与运行情况

（3）对数据集进行简单分析：

> dbGetQuery(sc,"select * from testing limit 5")
  xid yid date_id hour realization wind
1 335 357       8   25           3 14.7
2 335 358       8   25           3 15.1
3 335 359       8   25           3 15.5
4 335 360       8   25           3 15.7
5 335 361       8   25           3 15.7
> dbGetQuery(sc,"select count(distinct(xid)) from testing")
  count(DISTINCT xid)
1                 548
> dbGetQuery(sc,"select count(distinct(yid)) from testing")
  count(DISTINCT yid)
1                 421
> 548*421
[1] 230708
> dbGetQuery(sc,"select count(*) from (select distinct xid,yid from testing)")
  count(1)
1   230708
> dbGetQuery(sc,"select count(distinct(hour)) from testing")
  count(DISTINCT hour)
1                   25
> dbGetQuery(sc,"select count(distinct(date_id)) from testing")
  count(DISTINCT date_id)
1                       5
> 25*5*10
[1] 1250
> 25*5*10*548*421
[1] 288385000

最后编辑于：2017.11.18 16:55:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

在Rstudio中使用Spark处理超大规模的数据集

1、准备R和Rstudio

2、利用Rstudio自动安装Spark

3、通过Rstudio连接Spark，读入大数据集并进行分析

推荐阅读更多精彩内容