在Rstudio中使用Spark处理超大规模的数据集

最近对Rstudio的最新版本做了一个探索,发现在Rstudio的菜单中有连接Spark的入口,刚好自己手里有一份大小超过5GB,记录数达到2.8亿的超大数据集,对于单机版本的R来说无能为力,于是想尝试一下用Rstudio里面的Spark入口来安装和使用Saprk分析这个超大数据集。这样可以把Spark和自己熟悉的R语言结合起来,在Spark里面把数据汇总以后,可以直接传给R,在R里面使用更加复杂的模型和可视化工具对数据进行进一步分析。在这个过程中有很多东西自己也不是很熟悉,于是将这个过程记录下来,顺便也分享给大家。

1、准备R和Rstudio

(1)下载最新版的Rstudio,当前版本为1.1.383
,如果已经安装Rstudio且其版本低于1.1,请将其升至最新版。
可通过如下网址下载,下载后直接安装即可:

https://www.rstudio.com/products/rstudio/download/#download

(2) 如果你还没有安装R,请下载并安装R,可通过R官方网站进行下载。

https://www.r-project.org/

(3) 如果你没有R的基础,可以观看@松鼠在网易云课堂上发布的免费R入门课程:

https://study.163.com/instructor/3188405.htm

2、利用Rstudio自动安装Spark

在Rstudio中使用Spark十分简单,无需我们手动下载和配置spark环境,Rstudio会自动为我们安装Spark环境,你所需要做的就是点点菜单即可。

但在Rstudio中安装和使用Spark之前,我们需要先在自己的电脑上安装Java环境,因为Spark运行在Java 虚拟机,也就是JVM之上。

下面介绍安装步骤:

(1)安装并配置Java 8环境:

① 下载Java JDK(选择适合自己操作系统的版本):

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

② 安装JDK,直接双击上一步下载的Java JDK进行安装即可;

③ 配置Java环境变量,这里演示Windows10上的操作,其它版本的操作系统可通过百度搜索相关操作演示。

  • 安装完成后,找到Java的安装路径,我安装的是Windows64位版本,并且安装到了C盘,也就是按照默认路径安装,此时Java路径为C:\Program Files\Java\;

  • 然后设置JAVA_HOME,设置JAVA_HOME是为了让其它依赖Java的程序能够找到Java的安装位置。在Windows10上,按Windows键,输入path,点击编辑系统环境变量,点击环境变量,在系统变量部分,添加如下图所示的JAVA_HOME.

  • 接着找到系统变量里面的Path,点击编辑。将jdk路径jre路径添加进去,如下图所示:


    ④ 验证Java环境变量时候配置成功

  • 打开命令行cmd或者 Power shell(按Windows键,输入cmd或者Power shell即可),输入javajavac查看是否有返回结果,如果没有报错,那么Java已经安装和配置成功了。

(2) 在Rstudio中自动安装Spark

  • 在Rstudio的左上方,点击Connections,点击New Connection,你将看到Spark图标。
  • 点击Spark图标,将会询问是否安装或者更新sparklyr包,选择yes进行安装,sparklyr包是用来在R里面操作Spark的一个包。
  • sparklyr包需要依赖很多其它的R包,如果安装速度太慢,可以将R包的下载镜像切换到国内。(在Rstudio中点击Tools,选择Options,点击Packages,出现如下图所示的图片,切换镜像即可。)
  • 安装好sparklyr包之后,再次点击New Connection,点击Spark.
  • 上一步操作后,将会出现如下图所示的界面,提示我们选择SparkHadoop的版本,一般情况下,我们按照默认的进行安装即可,其它版本则可能会出现问题。(我之前在测试时,选择2.2的Spark,运行会出错)。点击install之后,Rstudio将会自动给我们下载spark以及其依赖的环境。
  • 下载完成之后,将会自动连接Spark,并运行Spark UI.


3、通过Rstudio连接Spark,读入大数据集并进行分析

(1)读入数据集并进行分析

我这里使用一个文件大小为5.25GB,记录数达到2.8亿行的大数据集进行测试。(如果单独使用R进行处理,则R将会直接爆掉)

这里使用sparklyr包将本机里面的csv文件读入Spark.

testing <- spark_read_csv(sc,        # 与spark的连接
                         'testing',  # 在spark中数据集的名称
                          path = 'D:/Data/future/data/ForecastDataforTesting.csv')

(2)使用Spark UI观察Spark任务调度与运行情况


(3) 对数据集进行简单分析:

> dbGetQuery(sc,"select * from testing limit 5")
  xid yid date_id hour realization wind
1 335 357       8   25           3 14.7
2 335 358       8   25           3 15.1
3 335 359       8   25           3 15.5
4 335 360       8   25           3 15.7
5 335 361       8   25           3 15.7
> dbGetQuery(sc,"select count(distinct(xid)) from testing")
  count(DISTINCT xid)
1                 548
> dbGetQuery(sc,"select count(distinct(yid)) from testing")
  count(DISTINCT yid)
1                 421
> 548*421
[1] 230708
> dbGetQuery(sc,"select count(*) from (select distinct xid,yid from testing)")
  count(1)
1   230708
> dbGetQuery(sc,"select count(distinct(hour)) from testing")
  count(DISTINCT hour)
1                   25
> dbGetQuery(sc,"select count(distinct(date_id)) from testing")
  count(DISTINCT date_id)
1                       5
> 25*5*10
[1] 1250
> 25*5*10*548*421
[1] 288385000
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,348评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,122评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,936评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,427评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,467评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,785评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,931评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,696评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,141评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,483评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,625评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,291评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,892评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,492评论 2 348

推荐阅读更多精彩内容