虽然对于R语言的使用者来说,For循环函数比较容易理解也比较容易写,但是对于其他阅读这一脚本的人来说,For循环的可阅读性较差,可能会需要一点时间才能理解。R语言基础包提供了apply族函数,可以以优雅的方式运行循环。同时tidyverse包中的purrr包也提供了应用更为简便易用的map族函数,这一组函数与apply的功能较为类似,但是相对更为简单和实用。
map族函数
map族函数输入的数据类型是向量,函数将向量中的每一个元素带入运算,返回的也是一个具有同样长度、同样变量名的向量,返回的向量类型由函数的后缀决定。具体如下面
map() # 返回一个列表(list)
map_lgl() # 返回一个逻辑型向量
map_int() # 返回一个整数型向量
map_dbl() # 返回双精度数值向量
map_chr() # 返回字符串向量
map族函数的简单应用与apply族函数比较类似。例如我们可以对一个数据框中的数据进行聚合。
library(tidyverse)
# 注意下面的数据包括了NA
df <- data.frame(a = c(1,2,3, NA), b = c(2,3,4,5), c = c(4,5,6,7))
# 注意,map族函数可以传递参数,这里输入了na.rm = T参数给median()函数
df %>% map_dbl(median, na.rm = T)
apply(df, MARGIN = 2,median, na.rm = T)
上述函数作者运行了,apply和map的结果是一样的。apply可以设定在行还是列运算。
自编函数中的简便书写形式
# 举一个简单的例子说明
# split()函数将数据集分成list存储的几个不同数据集
models <- mtcars %>% split(.$cyl) %>% map(function(df) lm(mpg ~ wt, data = df))
# 简易书写形式,用“."来代替了 %>% 传入的参数或者dataframe
models <- mtcars %>% split(.$cyl) %>% map(~lm(mpg ~ wt, data = .))
# 自编函数书写形式
coeff <- models %>% map(summary) %>% map_dbl(function(df) df$r.squared)
# 简易书写形式
coeff <- models %>% map(summary) %>% map_dbl(~.$r.squared)
对多个参数进行运算
对多个参数进行运算,本人在apply族函数中一直没有搞清楚该怎么用,但是map族函数则专门给出了一个函数解决这个问题。
pmap() # 这个是一般形式
map2() # 这个是2个输入参数的函数
下面我就不一步一步解释了,直接用一个相对较为复杂的函数应用来说明
mu <- list(5,10,-3)
sigma <- list(1,5,10)
n <- list(1,3,5)
# 在下面这一步可以为参数命名,这样rnorm函数会根据变量名把参数引入,
# 也可以不命名,这样rnorm函数会按照位置引入参数
args2 <- list(mean = mu, sd = sigma, n = n)
args2 %>% pmap(rnorm)
# 也可以将参数以tribble形式引入
args3 <- tribble(
~mean, ~ sd, ~n,
5, 1, 1,
10, 5, 3,
-3, 10, 5
)
args3 %>% pmap(rnorm)
walk函数
这个函数也是很有趣的函数,它在你特别只需要后续的例如保存,print等时比较有用。这也是一组函数,类似与map2和pmap,也有walk2和pwalk两个函数。举一个pwalk的例子,这个功能是我经常用到的,但是之前都是用for循环书写,这次发现了用walk函数书写也很有意思。
plots <- mtcars %>% split(.$cyl) %>%
map(~ ggplot(data = ., aes(x = mpg, y = wt)) + geom_point())
paths <- stringr::str_c(names(plots), ".pdf")
pwalk(list(paths, plots), ggsave, path = tempdir())
以上就是作者认为可能比较常用的map循环函数,尝试用一下也是很有意思的。