【R】R语言基础-1.数据结构

1. 数据结构

1.1 向量

  • 向量:有序的数字列表
  • 操作函数:==c()==
  • 向量支持四则运算

查看向量的长度

length()  

创建向量

  • 连续序列
A <- c(1:3) #关键字c,向量1-3,赋值给A
print(A)
>>>
1,2,3
  • 有步长序列
#seq(from=,to=,by=)
B <- seq(2,10,2)
print(B)
>>>
2  4  6  8 10
  • 重复值序列
#rep(value,frequency)
C <- rep(0,5)
>>>
0 0 0 0 0
x <- rep(c(1, 2, 3), 2)
print(x)
>>>
1 2 3 1 2 3
x <- rep(c(1, 2, 3), each = 2)
print(x)
>>>
1 1 2 2 3 3

向量的调用

a[index]              #调用单个,index位置所在的向量
a[c(index_1,index_2)] #调用多个
a[index_1:index_2]    #index_1~index_2
a[-index]             #调用除了index之外的向量

修改向量

插入数据

  • 默认在最后插入
#Append(vector, new_value)
A <- c(1,2,3)
print(A)
b <- append(A,4)
print(b)
>>> 1 2 3 4
  • 指定位置插入
#append(vector, new_value, after = index)
A <- c(1,2,3)
print(A)
b <- append(A,4,after=2)
print(b)

替换

#replace(data,from=,to=)
A <- c(1,2,3,4,5)
A <- replace(A,1,8)
print(A)
>>>
8 2 3 4 5

'''
replace(data)
'''

删除

  • 删除值
A <- c(1,2,3,4,5)
A <- A[-3]
print(A)
>>>
1 2 4 5
  • 删除区间
A <- c(1,2,3,4,5)
A <- A[-c(3:4)]
print(A)
>>>
1 2 5

向量的运算

  • 支持加减乘除
x <- c(1, 2, 3)
y <- c(4, 5, 6)
print(x + y)
#x+y^2+2
>>>
5 7 9
  • 整除:x%/%y
  • 取余:x%%y
  • 转置
t(x)

向量中的缺失数据/无意义数据

  • 分类
    • NA: 缺失数据
    • NaN:无意义数据,如sqrt(-2),0/0
    • Inf:正无穷大
    • -Inf:负无穷大
  • 判断缺失/无意义数据
vector <- c(1 / 0, 0 / 0, NA, -1 / 0)
>>>
Inf  NaN   NA -Inf

#判断是否存在缺失/无意义数据
is.na(vector) 
>>>
FALSE  TRUE  TRUE FALSE

#判断无意义数据
is.nan(vector)
>>>
FALSE  TRUE FALSE FALSE 
  • 转换成缺失值
is.na(v) <- c(2,4)   #把2,4位置上的value转换成NA
  • 寻找/定位缺失值--返回index
which(is.na(v))
  • 获取非缺失值的序列
vector[!is.na(vector)]  #感叹号:逻辑值取反

向量的拼接

  • 行拼接:rbind()
  • 列拼接:cbind()
  • 向量的拼接会强制将 numeric--->character
x <- c("a", "b", "c")
y <- c(1, 2, 3)
rbind(x, y)
>>>
  [,1] [,2] [,3]
x "a"  "b"  "c"
y "1"  "2"  "3"

***
cbind(x, y)
>>>
     x   y
[1,] "a" "1"
[2,] "b" "2"
[3,] "c" "3"

1.2 矩阵 matrix

矩阵的创建

matrix(range,nrow,ncol,byrow,dimnames=list(rnames,cnames))

matrix(vector, nrow, ncol)
#m1 <- matrix(1:15,nrow = 3,ncol = 5,byrow = T) # byrow:是否按行排列 T:按行排列
m1 <- matrix(1:15,3,5,T)
print(m1)
>>>
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
[2,]    6    7    8    9   10
[3,]   11   12   13   14   15

查看矩阵的维度

dim()
x <- matrix(1:15, 3, 5, T)
print(dim(x))
>>>
3 5

矩阵的调用

x <- matrix(1:15, 3, 5, T)
print(x)
>>>
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
[2,]    6    7    8    9   10
[3,]   11   12   13   14   15

******
#获取单个
x[3,2]
>>>12

#获取区域
x[1:3,2:4]
>>>
      [,1] [,2] [,3]
[1,]    2    3    4
[2,]    7    8    9
[3,]   12   13   14

#跨行列获取
x[c(1,3),c(2:4)] #,和: 都可以
>>>
      [,1] [,2] [,3]
[1,]    2    3    4
[2,]   12   13   14

矩阵的运算

  • 矩阵的乘法:x%*%y
  • 矩阵的加法:x+y
# matrix + correction

1.3 数组 Array

arr <- array(1:15,c(2,5,3))
print(arr)
>>>
'''
, , 1

     [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10

, , 2

     [,1] [,2] [,3] [,4] [,5]
[1,]   11   13   15    2    4
[2,]   12   14    1    3    5

, , 3

     [,1] [,2] [,3] [,4] [,5]
[1,]    6    8   10   12   14
[2,]    7    9   11   13   15
'''

1.4 列表 List

列表的创建

  • 数据类型可以不一致
lst <- list("Red", "Green", c(1, 15, 2), TRUE, 51.2)
print(lst)
>>>
[[1]]
[1] "Red"

[[2]]
[1] "Green"

[[3]]
[1]  1 15  2

[[4]]
[1] TRUE

[[5]]
[1] 51.2

命名 named

list(title='', col1_name= vector1 , col2_name = vector2)
f <- c('apple','orange','banana')
q <- c(1,2,6)
mytitle <- 'lunch'
list(title=mytitle,quantity=q,fruit=f)

增加 add

  • 新增list
lst[['new_col']] <- new_lst
# 原lst
f <- c('apple','orange','banana')
q <- c(1,2,6)
mytitle <- 'lunch'
lst <- list(title=mytitle,quantity=q,fruit=f)

# 新lst
d <- list('coke','lemonade')

# add
lst[['drinks']] <- d

删除 remove

lst[['col_name']] <- NULL
lst[['drinks']] <- NULL

1.5 数据框 DataFrame/Dataset

  • 列名不能为空
  • row名要是unique
  • 可以存储任意类型的数据
  • attach(df)detach(df) 在environment中导入和解绑数据框

创建 dataframe

  • 通过拼接函数生成df
data.frame(rbind(x, y))
>>>
  X1 X2 X3
x  a  b  c
y  1  2  3
***
data.frame(cbind(x, y))
>>>
  x y
1 a 1
2 b 2
3 c 3
  • 通过data.frame()生成
data.frame(col_1 = x, col_2 = y)
>>>
  col_1 col_2
1     a     1
2     b     2
3     c     3

查看/获取/筛选

查看df内的数据类型

str(df)

查看行/列名字

d1 <- data.frame(col_1 = x, col_2 = y)
names(d1)       #查看列名
rownames(d1)    #查看行名
>>>
"col_1" "col_2"
"1" "2" "3"

查看行列数

nrow() #行数
ncol() #列数

summarise(df, n()) # 获取行数/ records的条目数

获取头/尾数据

#默认查看前6行
head(iris)  #iris 自带数据框

#查看指定行数,10行
head(iris, 10)

#查看后几行
tail()

获取列数据

#dataset[nrow,ncol]
iris[,5]      #取第5列

iris$Species  #数据框$列名

剔除(丢弃)变量/ 列

df[!col_name]
df[!c(3:6)]

按条件筛选: which()

#取某列:  which(数据框$列名=="条件")
which(iris$Species == "versicolor")

#单条件筛选获取所有数据
iris[which(iris$Species == "versicolor"), ] #取所有Species是versicolor的数据

#多条件筛选: &(and); |(or)
iris[which(iris$Species == "versicolor" & iris$Sepal.Width > 3), ]
#获取某列值最大的数据 which.max(数据框$列)
which.max(iris$Species)

#获取某列值最小的数据 which.min(数据框$列)
which.min(iris$Species)

iris[which.max(iris$Sepal.Width), which(names(iris) == "Species")
#叶宽最大的Species
>>>
setosa

查看层次

#levels(数据框$列)
levels(iris$Species) 
>>>
"setosa"     "versicolor"  "virginica"

获取子字符串

  • substr(x, start, stop)
'''
df = data.frame(col_1=c('hahha','heheh','xixiixi'), col_2=(1:3))
>>>
col_1  col_2
hahha    1 
heheh    2 
xixiixi  3
'''
substr(df$col_1,1,3)
>>>
'hah' 'heh' 'xix'

排序

df[order(col1.col2),]

leadership[order(gender, age),]  # 年龄升序排序
leadership[order(gender, -age),] # 年龄降序排序

修改

==修改列名==

  • 方法1:
library(dplyr)

rename(df, col_name = 'new_name')
rename(df, c(oldname1="newname1", oldname2="newname2",...))
  • 方法2:
df <- data.frame(col_1 = x, col_2 = y)
names(df) <- c("new_1", "new_2") #修改
print(df)
>>>
  new_1 new_2
1     a     1
2     b     2
3     c     3

names(df[2]) = 'new_name'  # df第2列的名字重命名为new_name
names(df[6:9]) = c('n6','n7','n8','n9')

修改value

variable[condition] <- expression

leadership$age[leadership$age == 99] <- NA # 将99岁的年龄值重编码为缺失值
leadership$agecat[leadership$age > 75] <- "Elder" # 创建agecat变量/ 创建新列并赋值

leadership <- within(leadership,{ 
                                agecat <- NA 
                                agecat[age > 75] <- "Elder" 
                                agecat[age >= 55 & age <= 75] <- "Middle Aged" 
                                 agecat[age < 55] <- "Young" })
  • car包/ recode()函数:重编码数值型、字符型向量或因子
  • doBy包/ recodevar()函数
  • R自带/ cut():,可将一个数值型变量按值域切割为多个区间,并返回一个因子

行列转置

t() #vector/df/df$col

拼接

  • paste(dfcol_1, dfcol_2, sep='')
paste(df$col_1, df$col_2, sep=',')
>>> 
'hahha,1' 'heheh,2' 'xixiixi,3'

==替换==

  • gsub()
gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,fixed = FALSE, useBytes = FALSE)

# remove comma
gsub(',' , '', df)

DF 缺失值

判断缺失值

any(is.na(df))   #只要有NA就返回True

is.na(df)        # 所有位置上返回T/F
is.na(df[,6:10]) # 将数据框限定到第6列至第10列

寻找/定位缺失值

apply(is.na(df), 1, which)  #1----按行统计显示
apply(is.na(df), 2, which)  #2----按列统计显示

获取非缺失值

df[!is.na(df)]

==处理缺失值==

方法1:用0值填充
# m1:
df[is.na(df)] <- 0

# m2:
library(imputeTS)
df <- na_replace(df, 0)
方法2:用均值填充
mean_colname <- mean(df$colname, na.rm=T)  # na.rm==na.remove,是否在计算时移除缺失值
new_colname <- ifelse(is.na(df$colname), mean_colname, df$colname)
#用新的mean_colname,取代原df$colname

df$col[is.na(df$col)] <- mean(df$col, na.rm =T)
方法3:只要含缺失值,就移除当行
na.omit(df)
==方法4:用预测数据填充== ==?????== Link
# y = ax +b 
# death = a*case + b
# 因变量 ~ 自变量
lm(y ~ x, data = na.omit(df))  # df[-c(1:5),]
# lm(death ~ case, data = na.omit(df))  # death, case---col_name

数据合并/ 表连接 merge()

merge(dataframe1,dataframe2, by="col") #key = col
library(tidyverse) 

new_df= df_1 %>%
  left_join(df_2, by = "TheSameKey") %>%
  left_join(df_3, by = c("KeyIn_df_1" = "KeyIn_df_3"))  
# 纵向合并(列名相同)
rbind(df_1, df_2)c

# 横向扩展(行数相同)
cbind(df_1, df_2)

1.6 因子 Factor

  • 名义型、有序型变量、连续性变量

    • 名义型变量是没有顺序之分的类别变量。eg. 糖尿病类型Diabetes(Type1、Type2)
    • 有序型变量表示一种顺序关系,而非数量关系。eg. 病情Status(poor、improved、excellent)是顺序型变量
    • 连续型变量可以呈现为某个范围内的任意值,并同时表示了顺序和数量。eg. 年龄Age就是一个连续型变量,它能够表示像14.5或22.8这样的值以及其间的其他任意值。
  • 内部关联逻辑 为1=Excellent、2=Improved、3=Poor (高--->低)

    • 可指定排序顺序

      factor(status, order=TRUE, 
       levels=c("Poor", "Improved", "Excellent"))
      
      # 1=Poor、2=Improved、3=Excellent
      
  • 数值型变量可以用levels和labels参数来编码成因子

    # 男性被编码成1,女性被编码成2
    factor(sex, levels=c(1, 2), labels=c("Male", "Female"))
    

1.7 数据类型的判断及转换

判断数据类型

  • 查找数据属性
  • class和mode的区别 Link
class() #判断数据结构类型
mode()  #判断数据类型
'''
(1)当x是单个值,或者向量的时候,
        返回的结果和mode一致,如numeric,character
(2)其他情况(矩阵,数组,日期,因子),
        class返回(matrix,array,Date,factor)
        mode返回(x中元素的类型——在内存中的存储类型)
(3)当x是数据框的时候
        class返回dataframe
        mode返回list
 (4)当x是列表的时候
        class和mode都返回list
        
为何数据框和列表不再适用于第二条mode返回x中元素的类型了呢?
1.因为数据框其实是列表的一种特殊情况
2.list和dataframe中的数据类型可以不一致,所以没法返回一个类型代表多种元素类型
'''
  • 判断数据类型
is.numeric()        #是否数值型数据
is.character()      #是否字符型数据  
is.vector()         #是否向量数据
is.matrix()         #是否矩阵数据
is.data.frame()     #是否数据框数据
is.factor()         #是否因子数据
is.logical()        #是否逻辑型数据

转换数据类型

as.numeric()
as.character()
as.vector()
as.matrix()
as.data.frame()
as.factor()
as.logical()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容