最近对Rstudio的最新版本做了一个探索,发现在Rstudio的菜单中有连接Spark的入口,刚好自己手里有一份大小超过5GB,记录数达到2.8亿的超大数据集
,对于单机版本的R来说无能为力,于是想尝试一下用Rstudio
里面的Spark
入口来安装和使用Saprk
分析这个超大数据集。这样可以把Spark
和自己熟悉的R语言
结合起来,在Spark
里面把数据汇总以后,可以直接传给R
,在R
里面使用更加复杂的模型和可视化工具对数据进行进一步分析。在这个过程中有很多东西自己也不是很熟悉,于是将这个过程记录下来,顺便也分享给大家。
1、准备R和Rstudio
(1)下载最新版的Rstudio,当前版本为1.1.383
,如果已经安装Rstudio且其版本低于1.1,请将其升至最新版。
可通过如下网址下载,下载后直接安装即可:
(2) 如果你还没有安装R,请下载并安装R,可通过R官方网站进行下载。
(3) 如果你没有R的基础,可以观看@松鼠在网易云课堂上发布的免费R入门课程:
2、利用Rstudio自动安装Spark
在Rstudio中使用Spark十分简单,无需我们手动下载和配置spark环境,Rstudio会自动为我们安装Spark环境,你所需要做的就是点点菜单即可。
但在Rstudio中安装和使用Spark之前,我们需要先在自己的电脑上安装Java环境,因为Spark运行在Java 虚拟机,也就是JVM之上。
下面介绍安装步骤:
(1)安装并配置Java 8环境:
① 下载Java JDK(选择适合自己操作系统的版本):
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
② 安装JDK,直接双击上一步下载的Java JDK进行安装即可;
③ 配置Java环境变量,这里演示Windows10上的操作,其它版本的操作系统可通过百度搜索相关操作演示。
安装完成后,找到Java的安装路径,我安装的是Windows64位版本,并且安装到了C盘,也就是按照默认路径安装,此时Java路径为
C:\Program Files\Java\
;-
然后设置
JAVA_HOME
,设置JAVA_HOME
是为了让其它依赖Java的程序能够找到Java的安装位置。在Windows10上,按Windows
键,输入path
,点击编辑系统环境变量
,点击环境变量
,在系统变量
部分,添加如下图所示的JAVA_HOME
.
-
接着找到
系统变量
里面的Path
,点击编辑
。将jdk路径
和jre路径
添加进去,如下图所示:
④ 验证Java环境变量时候配置成功 打开命令行
cmd
或者Power shell
(按Windows
键,输入cmd
或者Power shell
即可),输入java
和javac
查看是否有返回结果,如果没有报错,那么Java已经安装和配置成功了。
(2) 在Rstudio中自动安装Spark
- 在Rstudio的左上方,点击
Connections
,点击New Connection
,你将看到Spark
图标。
- 点击
Spark
图标,将会询问是否安装或者更新sparklyr
包,选择yes
进行安装,sparklyr
包是用来在R里面操作Spark的一个包。
-
sparklyr
包需要依赖很多其它的R包,如果安装速度太慢,可以将R包的下载镜像切换到国内。(在Rstudio中点击Tools
,选择Options
,点击Packages
,出现如下图所示的图片,切换镜像即可。)
- 安装好
sparklyr
包之后,再次点击New Connection
,点击Spark
.
- 上一步操作后,将会出现如下图所示的界面,提示我们选择
Spark
和Hadoop
的版本,一般情况下,我们按照默认的进行安装即可,其它版本则可能会出现问题。(我之前在测试时,选择2.2的Spark
,运行会出错)。点击install
之后,Rstudio将会自动给我们下载spark
以及其依赖的环境。
-
下载完成之后,将会自动连接Spark,并运行Spark UI.
3、通过Rstudio连接Spark,读入大数据集并进行分析
(1)读入数据集并进行分析
我这里使用一个文件大小为5.25GB
,记录数达到2.8亿
行的大数据集进行测试。(如果单独使用R进行处理,则R将会直接爆掉)
这里使用sparklyr
包将本机里面的csv
文件读入Spark
.
testing <- spark_read_csv(sc, # 与spark的连接
'testing', # 在spark中数据集的名称
path = 'D:/Data/future/data/ForecastDataforTesting.csv')
(2)使用Spark UI观察Spark任务调度与运行情况
(3) 对数据集进行简单分析:
> dbGetQuery(sc,"select * from testing limit 5")
xid yid date_id hour realization wind
1 335 357 8 25 3 14.7
2 335 358 8 25 3 15.1
3 335 359 8 25 3 15.5
4 335 360 8 25 3 15.7
5 335 361 8 25 3 15.7
> dbGetQuery(sc,"select count(distinct(xid)) from testing")
count(DISTINCT xid)
1 548
> dbGetQuery(sc,"select count(distinct(yid)) from testing")
count(DISTINCT yid)
1 421
> 548*421
[1] 230708
> dbGetQuery(sc,"select count(*) from (select distinct xid,yid from testing)")
count(1)
1 230708
> dbGetQuery(sc,"select count(distinct(hour)) from testing")
count(DISTINCT hour)
1 25
> dbGetQuery(sc,"select count(distinct(date_id)) from testing")
count(DISTINCT date_id)
1 5
> 25*5*10
[1] 1250
> 25*5*10*548*421
[1] 288385000