从STATA过渡到R的经验

1. 下决心

如果只能学一个统计软件,必须是R。最重要的原因是R已经被整合进数据科学的生产链条当中,其他任何统计软件都无法相比,鼓捣数据的早晚要融入这个生态,越早动手越好,有点后悔两年前第一次学的时候没坚持下来。有这一条就足够了,其他必要性不多解释,刚删了以前那篇啰里啰唆的文章。

2. 先学、并尽快上手tidyverse,还要完整地学

这条实在太重要了,其实应该放到最前面。以前拉拉杂杂看了很多资料,都没有从STATA用户的角度讲该如何高效率地学习R,我自己也是走了很多弯路,第一次学习甚至放弃了。其实STATA用户从tidyverse入手会非常有优势,如果当时就知道这一点,那一次或许就已经学会了。

2.1 tidyverse是什么?

对于STATA用户来说,R语言难学的地方在于自带的版本(BASE)语法逻辑与STATA非常不一样,想要延续STATA语法的思考方式,使用BASE基本上无法完成任何一个工作,学习成本非常高。

BASE语法的问题是有点过时, 面对多个数据库的操作非常啰嗦,所以Hadley Wickham就在R的基础上开发出tidyverse包,语法更为现代,并且覆盖了统计软件的全部基本功能。从BASE过渡到tidyverse,经常会感叹为什么以前不知道这个包。

很好奇陈强为什么不在自己的教材里提这一点。

2.2 学习路径

熟悉学习tidyverse之前,仍然不能跳过学习R的基本语法,不然很多东西没法搞懂。具体来说,STATA用户从零学R,可以按下面这个步骤:

  • R语言实战(R in Action), RIA
    先看这本书的前两个单元。这本书的优点是详细讲解了R(BASE)的操作方式和逻辑,是继续学习的基础。缺点是介绍特定功能时会跨越不同的包,增加了新手学习的难度。
  • R for Data Science, R4DS by Hadley Wickham
    这是讲tidyverse的教材,就我看过的所有教材来讲(不限于R或者统计,上百本总有了),这本也有资格称得上是最好的。有统计和STATA的基础,这本学起来非常快。

这次学R是边干边学,直接用R干活,在此过程中强烈感觉到tidyverse的语法理解起来更容易,于是RIA看到第七章,也就是第二单元结束,决定先停下,转攻R4DS。从第二单元开始,STATA、RIA和统计的基础开始发挥作用,学习就变得非常快了。

如果把R当作一门课来讲,RIA前两个单元中我会只讲数据处理,绘图、甚至基础统计部份会暂时略去,讲完数据处理就立刻转到R4DS,作图部分留给R4DS里面的ggplot2。中高统计部分是否按照RIA来讲还没想成熟。

(2021.8月补充:虽然差不多所有有关数据的操作,tidyverse都提供了更现代的语法,但是R的原始语法还是有必要掌握,“R语言与深度学习”里用得还是非常多。)

3. 使用R的帮助文档

以前写过,第一次读帮助文档的时候,先花点时间搞清楚帮助文档的结构,包括都有哪些部分、哪个部分是什么功能、每个部分在文档的什么位置出现, 等等。阅读时要注意R命令的函数思维方式,问自己结果变量、自变量、参数分别是什么。

4. 对于碎片化技巧的学习,看视频优于阅读

不同于tidyverse这种具有很大格局的包,R里面还有满足特定功能碎片化的包,这种很适合用视频学。举个例子:我做的一个活儿需要把数据表导出成为html格式,表里面还包含多列类似Excel的迷你图,在油管上找到了一个视频,一个晚上就做出来了,顺便还学会了Rstudio里如何写snippets。

6. 收集中……


关于R曾经受过两次误导。

第一次是十年前看到Angrist说他不愿意用R,因为R的统计包不如STATA多,经常需要自己编程, 而就连写STATA的程序都会经常犯错误,用R可能会花更多时间在抓bug上面。当时想,既然Angrist都觉得STATA够用,自己就没必要学了吧。

第二次是去年,想在R里面找到类似_n_N的工具,看到Nick说R的用户很难理解这两个工具,语气有点酸,也让我产生R很笨重的印象。幸亏当时没全信,感觉像_n_N这么好用的东西就算基础R里没有,也会有人做个包,事实上dplyr里面有相对应的工具。


(2021/5/23更新)

把另一个活又重干了一遍,学过tidyverse,终于敢说自己会R了,正式进入中级水平。前几个活在基本上啥也不会的状态,只靠懂数据结构和不停查google,居然敲出几千行代码,而且还能运行出结果。有点佩服自己了。


(2021/6/30更新)
R语言里面关于机器学习的书,2018年之前写的不要买。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容