Python和R都是免费的开源软件,这类软件有一个对小白新手非常友好的特点,那就是……哪里不会查哪里,随用随学……所以,别的理论不说现在要开始进行数据分析啦~
相信自己,没那么难
对多数HR来说,开始写代码是一件感觉上难于上青天的事情——写代码这么值钱的事情,我一点基础都没有真的能行么?
可能各位HR宝宝们把写代码这件事想得复杂了,毕竟我们写代码只是为了做数据分析,并不是为了开发什么软件呀!什么理论、方法、原理,我们都当作黑箱来看待就可以了,就像我们在使用Excel的时候从来不去考虑计算机的运行原理,使用手机的时候不去考虑触屏技术的实现原理一样。不管是使用Python还是使用R,正确的心态是将他们当作一个和Excel一样的工具就可以了,什么原理、逻辑、理论,统统忽略就好了~
之前的教程都是主要针对Python讲的,后续的教程还会同时讲一些R语言,在我看来,同时学习Python和R语言其实没有多么大的冲突,因为都是开源软件,两者之间最基本的原理是一致的。
包 OR 库
在正式开始Anaconda环境下的数据分析之前,很有必要介绍一下包或者说库的概念。
不管是使用Python还是使用R语言,作为开源软件,都提供了非常丰富的软件包或者库便于使用,我们可以简单粗暴地理解为包就是别人写好的一些代码,我们直接使用就可以了。
这里大力推荐大家使用Anaconda的原因之一就是因为Anaconda在安装的时候就已经把很多常用的软件包安装好了,我们就无需再去安装这个程序包了,直接调用就可以了。至于Anaconda中安装了什么包、我们需要的包是不是已经安装好了的问题,大家可以在Anaconda的Evenrionments中进行查看和管理。
R——读取剪切板数据
读取剪切板数据这个功能在R语言中的使用相对来说比较容易,Python也可以实现这个功能,相比之下比较复杂。
首先,为了方便理解,给到大家一个在Excel中存储的示例数据:
从剪切板直接读取数据相对来说比较简单,不会受到数据存储格式(txt\xls\csc都无所谓啦)的限制,因此,先对剪切板的数据读取进行介绍。
首先是R语言,从剪切板读取方式非常简单粗暴:
Step1:在Anconda中启动R studio(首次启动的话需要先安装的哦)
Step2:复制数据,嗯对没错,就是选中+ctrl+c
Step3:在R studio中输入如下的代码
data<-read.table("clipboard",header=T)
data
Step4:点击run或ctrl+enter执行代码
没错,别怀疑自己了,就是两行代码,你已经完成了数据分析的第一步了!接下来对这两行代码做一个详细的解读:
【<-】:这个是R语言中的赋值符号,在R语言中,赋值符号如果用【=】其实是一样的,但是建议用【<-】,有的时候用【=】会遇到莫名其妙的报错,改成【<-】就没有问题了
【read.table】:R语言的基本函数,用于读取矩形表格数据,具体的使用语法请参考这里(https://www.jianshu.com/p/90e1d430c9ef)
【“clipboard”】:剪切板,【read.table】函数的语法中,第一个参数是file文件名,需要用双引号【“”】括起来,clipboard在这个地方指定了读取文件的文件名为系统的剪切板
【header=T】:第一行为表头
Python——读取剪切板数据
Python也可以实现读取剪切板的数据的功能,但是相对于R语言,Python读取剪切板的难度相对要大一些。
因为个人习惯原因,R语言的演示采用了R studio作为IDE工具,接下来的Python演示将使用Jupyter(其实Jupyter也可以调用R,新建的时候可以选择)
为便于理解,数据还是刚才的数据,先看一下完整的代码操作:
基本的操作和使用R语言读取是类似的:
Step1:在Anconda中启动Jupyter notepad
Step2:复制数据
Step3:输入如下的代码
import pandas as pd
data=pd.read_clipboard()
data
Step4:点击run或shift+enter执行代码
和R语言相比,Python在实现这个功能的时候多了一行代码,用了三行,但三行代码也还是一个相对来说比较简单的操作啦~接下来给大家进行一下详细的讲解:
【import pandas as pd】:导入程序包pandas,简称为pd。pandas是为了解决数据分析任务而创建的一种程序包,在Python进行数据分析处理的过程中是一个非常常用的程序包,提供了大量能使我们快速便捷地处理数据的函数和方法
【pd.read_clipboard()】:pandas包中读取剪切板的函数,没有太复杂的用法
总结
在从剪切板中读取数据这件事上,Python和R语言几乎不分伯仲,非要说的话R凭借可以少写一行代码略胜一筹。
这里有一个需要大家记住的区别点,Python的pandas库中读取数据的函数都是read+下划线【_】组成的,R语言中是以read+点【.】组成的