R数据科学（八）reader包数据导入

library(tidyverse)

读取文件：
read_csv() 读取逗号分隔文件、 read_csv2() 读取分号分隔文件、 read_tsv() 读取制表符分隔文件、 read_delim() 可以读取使用任意分隔符的文件。
read_fwf() 读取固定宽度的文件。既可以使用 fwf_widths() 函数按照宽度来设定域，也可
以使用 fwf_positions() 函数按照位置来设定域。
read_csv() 函数的第一个参数是最重要的，该参数是要读取的文件的路径：

有时文件开头会有好几行元数据。你可以使用 skip = n 来跳过前 n 行；或者使用
comment = "#" 来丢弃所有以 # 开头的行

数据没有列名称。可以使用 col_names = FALSE 来通知 read_csv() 不要将第一行作为列
标题，而是将各列依次标注为 X1 至 Xn：

"\n" 是非常便捷的快捷方式，用于添加新行。

na。它设定使用哪个值（或哪些值）来表示文件中的缺失值

# heights <- read_csv("data/heights.csv")
read_csv("a,b,c
1,2,3
4,5,6")

read_csv("The first line of metadata
The second line of metadata
x,y,z
1,2,3", skip = 2)

read_csv("# A comment I want to skip
x,y,z100
1,2,3", comment = "#")

read_csv("1,2,3\n4,5,6", col_names = FALSE)

read_csv("1,2,3\n4,5,6", col_names = c("x", "y", "z"))

read_csv("a,b,c\n1,2,.", na = ".")

read_csv函数与read.csv函数相比的优势是：
1.速度较快（约快 10 倍）
2.它们可以生成 tibble，并且不会将字符向量转换为因子，不使用行名称，也不会随意
改动列名称。
3.更易于重复使用。

8.2.2　练习
(1) 如果一个文件中的域是由“|”分隔的，那么应该使用哪个函数来读取这个文件？
(2) 除了 file、 skip 和 comment，还有哪些参数是 read_csv() 和 read_tsv() 这两个函数共有的？
(3) read_fwf() 函数中最重要的参数是什么？
(4) 有时 CSV 文件中的字符串会包含逗号。为了防止引发问题，需要用引号（如 " 或 '）
将逗号围起来。按照惯例， read_csv() 默认引号为 "，如果想要改变默认值，就要转而
使用 read_delim() 函数。要想将以下文本读入一个数据框，需要设定哪些参数？
"x,y\n1,'a,b'"
(5) 找出以下每个行内 CSV 文件中的错误。如果运行代码，会发生什么情况？
read_csv("a,b\n1,2,3\n4,5,6")
read_csv("a,b,c\n1,2\n1,2,3,4")
read_csv("a,b\n"1")
read_csv("a,b\n1,2\na,b")
read_csv("a;b\n1;3")

# (1)
# read_delim() 
# (2)
?read_csv
?read_tsv
# 参数col_names,col_types,locale,na,quoted_na,quote,等参数都一样
# (3)
?read_fwf
# 最重要的是分割符参数col_positions，告诉列从哪开始和结束
# (4)
x <- "x,y\n1,'a,b'"
read_delim(x, ",", quote = "'")
# read_csv也支持该参数
read_csv(x, quote = "'")

read_csv("a,b\n1,2,3\n4,5,6") # 列名只有两个，其中的元素被舍弃
read_csv("a,b,c\n1,2\n1,2,3,4") # 元素少了一个，用NA补全
read_csv("a,b\n\"1")
read_csv("a,b\n1,2\na,b")
read_csv("a;b\n1;3")

8.3　解析向量

parse_*() 函数族函数接受一个字符向量，并返回一个特定向量，如逻辑、整数或日期向量
也即指明输入的是何种类型的数据
na 参数设定了哪些字符串应该当作缺失值来处理

str(parse_logical(c("TRUE", "FALSE", "NA")))
str(parse_integer(c("1", "2", "3")))
str(parse_date(c("2010-01-01", "1979-10-14")))
parse_integer(c("1", "231", ".", "456"), na = ".")

parse_logical() 和 parse_integer() 函数分别解析逻辑值和整数。
parse_double() 是严格的数值型解析函数， parse_number() 则是灵活的数值型解析函数。
parse_character() 函数
parse_factor() 函数可以创建因子， R 使用这种数据结构来表示分类变量，该变量具有
固定数目的已知值。
parse_datetime()、 parse_date() 和 parse_time() 函数可以解析不同类型的日期和时间。

8.3.1　数值

parse_number() 可以忽略数值前后的非数值型字符。这个函数特别适合处理货币和百分比，也可以提取嵌在文本中的数值：

parse_number('$100')
parse_number('1,233,400')
# 也可以设置分组符号
parse_number(
"123.456.789",
locale = locale(grouping_mark = ".")
)

8.3.2　字符串

计算机将字符从编码为十六进制数存储在计算机中，这个示例中的编码方式称为 ASCII。 ASCII 可以非常好地表示英文字符

UTF-8为目前通用的字符编码方法，

# 十六进制数
charToRaw("Hadley")

x1 <- "El Ni\xf1o was particularly bad this year"
x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd"

# parse_character(x1)
# parse_character(x2) #编码方式不对，乱码
# encoding设置编码方式
parse_character(x2,locale = locale(encoding = "Shift-JIS"))
# guess_encoding函数可以猜测编码方式
guess_encoding(charToRaw(x2))

8.3.3　因子

R 使用因子表示取值范围是已知集合的分类变量

fruit <- c("apple", "banana")
parse_factor(c("apple", "banana", "bananana"))
parse_factor(c("apple", "banana", "bananana"), levels = fruit)

8.3.4　日期、日期时间与时间

parse_datetime() 期待的是符合 ISO 8601 标准的日期时间。 ISO 8601 是一种国际标准，
其中日期的各个部分按从大到小的顺序排列，即年、月、日、小时、分钟、秒

parse_datetime("2010-10-01T2010")

parse_date() 期待的是四位数的年份、一个 - 或 /、月、一个 - 或 /，然后是日

parse_date("2010-10-01")

parse_time() 期待的是小时、 :、分钟、可选的 : 和秒，以及一个可选的 a.m./p.m. 标识符

library(hms)
parse_time("01:10 am")
#> 01:10:00
parse_time("20:10:01")
#> 20:10:01
# 创建解析函数进行尝试解析
parse_date("01/02/15", "%m/%d/%y")
#> [1] "2015-01-02"
parse_date("01/02/15", "%d/%m/%y")
#> [1] "2015-02-01"
parse_date("01/02/15", "%y/%m/%d")
#> [1] "2001-02-15"

8.3.5　练习
(1) locale() 函数中最重要的参数是什么？
date and time formats: date_names, date_format, and time_format
time zone: tz
numbers: decimal_mark, grouping_mark
encoding: encoding

(2) 如果将 decimal_mark 和 grouping_mark 设为同一个字符，会发生什么情况？如果将 decimal_mark 设为 ,， grouping_mark 的默认值会发生什么变化？如果将 grouping_mark 设为 .，decimal_mark 的默认值会发生什么变化？
decimal_mark and grouping_mark must be different

(3) 我们没有讨论过 locale() 函数的 date_format 和 time_format 选项，它们的作用是什
么？构建一个示例，说明它们在何种情况下是有用的？

# 设置默认的时间和日期格式
locale()
parse_date("1 janvier 2015", "%d %B %Y", locale = locale("fr"))
#> [1] "2015-01-01"
parse_date("14 oct. 1979", "%d %b %Y", locale = locale("fr"))
#> [1] "1979-10-14"

(4) 如果你不是居住在美国，创建一个新的地区对象，并封装你最常读取的文件类型的相关
设置。

parse_date("02/01/2006") # 报错不能识别该格式
au_locale <- locale(date_format = "%d/%m/%Y") #设置新格式
parse_date("02/01/2006", locale = au_locale)

(5) read_csv() 和 read_csv2() 之间的区别是什么？
(6) 欧洲最常用的编码方式是什么？亚洲最常用的编码方式是什么？可以使用 google 找出
答案。Chinese: GB 2312, GBK, GB 18030
(7) 生成正确形式的字符串来解析以下日期和时间。

d1 <- "January 1, 2010"
parse_date(d1,'%B %d, %Y')
d2 <- "2015-Mar-07"
parse_date(d2,"%Y-%b-%d")
d3 <- "06-Jun-2017"
parse_date(d3, "%d-%b-%Y")
d4 <- c("August 19 (2015)", "July 1 (2015)")
parse_date(d4,"%B %d (%Y)")
d5 <- "12/30/14" # 2014年12月30日
parse_date(d5,"%m/%d/%y")
t1 <- "1705"
parse_time(t1, "%H%M")
t2 <- "11:15:10.12 PM"

8.4　解析文件

readr 如何自动猜出文件每列的数据类型。
如何修改默认设置。
策略一：根据前面的行猜测

guess_parser("2010-10-01") # 猜测
str(parse_guess("2010-10-01")) # 解析


challenge <- read_csv(readr_example("challenge.csv")) # 不能读入
problems(challenge) #整数后面有拖尾字符
# 增加猜测行数
challenge2 <- read_csv(
readr_example("challenge.csv"),
guess_max = 1001
)
# 将所有行按字符串读入
challenge2 <- read_csv(readr_example("challenge.csv"),
col_types = cols(.default = col_character())
)
# 然后用type_convert函数自动解析各列
type_convert(challenge2)

8.5　写入文件

write_csv() 和 write_tsv()
如果想要将 CSV 文件导为 Excel 文件，可以使用 write_excel_csv() 函数
这几个函数中最重要的参数是 x（要保存的数据框）和 path（保存文件的位置）。还可以使
用 na 参数设定如何写入缺失值，如果想要追加到现有的文件，需要设置 append 参数

haven 可以读取 SPSS、 Stata 和 SAS 文件；
• readxl 可以读取 Excel 文件（.xls 和 .xlsx 均可）；
• 配合专用的数据库后端程序（如 RMySQL、 RSQLite、 RPostgreSQL 等）， DBI 可以对相
应数据库进行 SQL 查询，并返回一个数据框。

阅读推荐：
生信技能树公益视频合辑：学习顺序是linux，r，软件安装，geo，小技巧，ngs组学！
B站链接：https://m.bilibili.com/space/338686099
YouTube链接：https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程师入门最佳指南：https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA

最后编辑于：2018.11.17 10:18:35

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,830评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,992评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,875评论 0赞 331
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,837评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,734评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,091评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,550评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,217评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,368评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,298评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,350评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,027评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,623评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,706评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,940评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,349评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,936评论 2赞 341

R数据科学（八）reader包数据导入

8.3 解析向量

8.3.1 数值

8.3.2 字符串

8.3.3 因子

8.3.4 日期、 日期时间与时间

8.4 解析文件

8.5 写入文件

推荐阅读更多精彩内容