R数据科学chapter7

library(tidyverse)

#多数其他 R 包使用的是标准数据框

#使用 as_tibble() 函数来完成将数据框转换为 tibble:

as_tibble(iris)

#可以通过 tibble() 函数使用一个向量来创建新 tibble。

#tibble() 会自动重复长度为 1 的输入,并可以使用刚刚创建的新变量

tibble(

  x = 1:5,

  y = 1,

  z=x^2+ y )

#如果你已经非常熟悉 data.frame() 函数,

#那么请注意 tibble() 函数的功能要少得多:

#它不能改变输入的类型(例如,不能将字符串转换为因子)、变量的名称,也不能创建行名称。

#可以在 tibble 中使用在 R 中无效的变量名称(即不符合语法的名称)作为列名称。

#例如, 列名称可以不以字母开头,也可以包含特殊字符(如空格)。

#要想引用这样的变量,需要 使用反引号 ` 将它们括起来:

tb <- tibble(

  `:)` = "smile",

  ` ` = "space",

  `2000` = "number"

)

tb

#如果要在 ggplot2 和 dplyr 等其他 R 包中使用这些变量,也需要使用反引号。

#创建 tibble 的另一种方法是使用 tribble() 函数,

#tribble 是 transposed tibble(转置 tibble) 的缩写。

#tribble() 是定制化的,可以对数据按行进行编码:

#列标题由公式(以 ~ 开头) 定义,数据条目以逗号分隔,这样就可以用易读的方式对少量数据进行布局:

#我通常会加一条注释(以 # 开头的行)来明确指出标题行的位置。

tribble(

  ~x, ~y, ~z,

  #--|--|----

  "a", 2, 3.6,

  "b", 1, 8.5

)

#对比tibble与data.frame

#tibble 和传统 data.frame 的使用方法主要有两处不同:打印和取子集。

#打印

#tibble 的打印方法进行了优化,只显示前 10 行结果,

#并且列也是适合屏幕的,这种方式非常适合大数据集。

#除了打印列名,tibble 还会打印出列的类型,这项非常棒的功能借鉴于 str() 函数。

tibble(

  a = lubridate::now() + runif(1e3) * 86400, b = lubridate::today() + runif(1e3) * 30, c = 1:1e3,

  d = runif(1e3),

  e = sample(letters, 1e3, replace = TRUE)

)

#有时需要比默认显 示更多的输出,这时就要设置几个选项。

#可以明确使用 print() 函数来打印数据框,并控制打印的行数(n)和显示的宽度 (width)。

#width = Inf 可以显示出所有列

nycflights13::flights %>%

  print(n = 10, width = Inf)

#还可以通过设置以下选项来控制默认的打印方式。

#• options(tibble.print_max = n, tibble.pring_min = m):如果多于 m 行,则只打印出 n 行。

#  options(tibble.print_min = Inf) 表示总是打印所有行。

#• options(tibble.width = Inf) 表示总是打印所有列,不考虑屏幕的宽度。

#最后一种方式是使用 RStudio 内置的数据查看器,以滚动方式查看整个数据集。

nycflights13::flights %>%

  View()

#取子集

#如果想要提取单个变量,那么就需 要一些新工具,如 $ 和 [[。

#[[ 可以按名称或位置提取变量;

#$ 只能按名称提取变量,但可以减少一些输入:

#runif()函数用于生成从0到1区间范围内的服从正态分布的随机数

#rnorm()函数产生一系列服从正态分布的随机数,随机数个数,均值和标准差都可以设定。

df <- tibble(

  x = runif(5),

  y = rnorm(5)

)

# 按名称提取

df$x

df[["x"]]

# 按位置提取

df[[1]]

#在管道中使用这些提取操作,需要使用特殊的占位符 .

df %>% .$x

df %>% .[["x"]]

#与 data.frame 相比,tibble 更严格:

#它不能进行部分匹配,如果想要访问的列不存在,它会生成一条警告信息。

#与旧代码进行交互

#有些比较旧的函数不支持 tibble。

#如果遇到这种函数,可以使用 as.data.frame() 函数将tibble 转换回 data.frame:

class(as.data.frame(tb))

#有些旧函数不支持 tibble 的主要原因在于 [ 的功能。

#对于 R 基础包中的数据框,[ 有时返回一个数据框, 有时返回一个向量。

#对于 tibble,[ 则总是返回另一个 tibble。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容