R语言是什么?是一种计算机语言,它在计算机语言的世界里,属于一个有着独门秘籍的小门派,专攻“数据”—探索、展示和理解数据。引用《R语言实战》书中引用的一句话:
它太神奇了,满载珍宝,可以让那些聪明狡猾和粗野胆大的人得到充分满足;但并不适合胆小者。 —Q,“Q Who?”,《星际迷航:下一代》
作者说这句话的意图是揭示R语言的一个特点:难学。但是立马鼓励大家:“但你完全没必要这样想。”接着他又扔了一个“胡萝卜”:其中三个关键词:
在合适的指导下,你就可以用最优雅、 最简洁、 最高效的方式来完成工作。
好吧,换句中国人耳熟能详的话,就是:道路是曲折的,前景是光明的!
加入大数据社群不久,拜读了群主的推荐文章,看到了学友们的学习心得和经验,其中,杨颖的《你是伸手党吗?》,印象深刻。之前自己在简书和个人公号也写过一篇文章:《自己找答案--让自己强大的方式》,知道“伸手党”其实是一种心理依赖,强大的人也是从小白一点点摸索着变强大的。因此,自己想好,不到万不得已,先自己想办法解决困难。
第一章先熟悉R环境。这一章具体地介绍了R语言的优势:免费、全面、先进、交互式、轻松支持多种数据源、平台型、可以被整合、运行平台多、GUI工具。优点多得令人咋舌,其中有几点没太理解,留待在以后的实践中体会。顺利下载和按照R和R Studio,按第一章要求安装和载入了“VCD”的包,一切顺利。
第二章“创建数据集”。这章涉及的概念增加不少。
学计算机语言,必须多敲代码。在练习书中的例子时,有时候练习的例子不是完全连贯的,为了实现书中的一个练习,需要补充条件才行。比如,练习2.4数据集的标注时,需要对变量操作数据框中的“gender”然而敲完代码一运行,报错说:
错误: 意外的',' in "patientdata[,gener]<-(male,"
猜了一会儿,可能是因为没有gender这列数据吧,因此,先补充这列数据看。但怎么补充呢?依稀记得在书上看到过有个地方是可以增加列的,但是只找到向量的增加代码。只能借助于网络,在百度搜了一下,搜到了一个答案,敲进去,可以了。
这样的过程几乎写几行代码就会出现,也许解决问题的方法还很笨拙,也许这个过程对于熟练的高手来说根本不会出现,但是,对于一个新手来说,应该很正常。虽然还是依葫芦画瓢,解决了一个小问题,也建立了一点点信心。
在“数据的输入”那一节,作者介绍了很多种数据源的输入,但是比较粗略,看来真想要学还是要自己慢慢摸索。现在工作中最常用的就是excel的数据分析,因此试了下xlsx导入。因为导入xlsx,还需要导入xlsxjars和rJava包,导入时总报错,在网上查了半天,有人说是R版本退回到3.3.0,有人说不能用Rstudio操作,只能用R。按照各种方法折腾了半天,不断地迎来看不懂的“Error…………”,再复制错误信息到网上查,试了大概一个小时,终于,敲下命令后,没有再出现令我头大的“Error”了。
跌跌绊绊地看完和敲完了第二章,其实对R语言的各命令代码还是那么似曾相识,对如何能应用R语言解决实际问题,还是一头雾水,但是只有不断地应用,才能巩固和加深理解。因此,我已经迫不及待地想要开始下一阶段R语言之旅。