这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据?
- 你想和不熟悉R的人分享你的代码,以及你想避免解释如何在文件开头改变文件的路径等问题。
- URL中的数据一直更新,你想实时处理最新的数据。
- 你希望你的代码在另一台机器以及另一个目录下工作。
- 你想在博客中发布一个完整的可重复的分析实验,你不想在文中出现”请到www.xxxx.com,下载数据并加载到R中”。
不管你的原因是什么,都是很棒的想法。下面是一些从URL中获取数据的一些代码,希望能帮到一些人。
说明!!!
这里仅仅处理表格形式的数据,并不是从网络中爬取数据。这是最简单的一种情况:在URL中储存着一个txt或csv文件,你希望直接读取数据,而不是先下载到本地,然后再读进R中。
使用data.table::fread()
我喜欢data.table包。几乎每个项目中,我都会使用它。它是R中data.frame对象的扩展,但是在性能上有很大的提升。其中一个改进点就是fread()函数。它类似于base包中的read.csv()和read.table()函数。fread()在很多地方做了改善,但是这里我们仅仅使用它来读取URL中的数据。使用fread()在本地读取数据的格式如下:
library(data.table)
mydat <- fread('C://Some/File/Path.csv')
从网络源中读取数据和这没有什么区别。在help文件(?fread)中作者提供的样例为:
library(data.table)
mydat <- fread('http://www.stats.ox.ac.uk/pub/datasets/csb/ch11b.dat')
head(mydat)
V1 V2 V3 V4 V5
1: 1 307 930 36.58 0
2: 2 307 940 36.73 0
3: 3 307 950 36.93 0
4: 4 307 1000 37.15 0
5: 5 307 1010 37.23 0
6: 6 307 1020 37.24 0
如果你在浏览器中访问上面的链接,会弹出下载的窗口。如果你访问上级地址http://www.stats.ox.ac.uk/pub/datasets/csb,你会发现很多的数据下载链接。通过fread()我们可以直接读取数据到R中,而不用点击下载链接进行下载。
使用RStudio
在RStudio中,通过点击Tools -> Import Dataset -> From Web URL,然后填写URL地址。
使用RCurl::getURL()
library(RCurl)
myfile <- getURL('https://sakai.unc.edu/access/content/group/3d1eb92e-7848-4f55-90c3-7c72a54e7e43/public/data/bycatch.csv', ssl.verifyhost=FALSE, ssl.verifypeer=FALSE)
getURL()抓取指定URL中的内容,并不返回data.frame对象。它仅仅把URL中的内容储存到字符串中。
class(myfile)
[1] "character"
所以,我们怎么获取data.frame对象呢?我们可以使用textConnection()函数打开字符串中的链接,就像打开本地硬盘中的文件一样。接着使用read.csv()函数(你也可以使用read.table()或fread()函数)读取字符串对象并创建data.frame对象。
mydat <- read.csv(textConnection(myfile), header=T)
head(mydat)
Season Area Gear.Type Time Tows Bycatch
1 1989-90 North Bottom Day 48 0
2 1989-90 North Bottom Night 6 0
3 1989-90 North Mid-Water Night 1 0
4 1989-90 South Bottom Day 139 0
5 1989-90 South Mid-Water Day 6 0
6 1989-90 South Bottom Night 6 0
现在,URL中的数据已成功转换为R中data.frame对象。