1.命名新变量,按条件分类,查看尾部数据
为df中的cart_uv 重新编码并将新变量命名为recode,将小于5000的归为less,将大于等于5000小于15000的归为common,其他的归为many;查看尾部的10条数据
df$recode[df$cart_uv<5000]<-"less"
df$recode[df$cart_uv>=5000&df$cart_uv<15000]<-"common"
df$recode[df$cart_uv>=15000]<-"many"
tail(df,10)
2.转换格式,查看数据结构
class() #查看数据结构:vector、matrix、array、dataframe、list
mode() #查看数据元素类型:
typeof() #查看数据元素类型,基本等同于mode(),比mode()更为详细
将df中的date字段转换成日期类型,如:“2015-02-13”
df$date <- as.Date(df$date, "%Y%m%d")
3.按字段排序
将df按照date字段升序和item_id降序排序,另存在df1中;并查看前5条数据
df1<-df[order(df$date,-df$item_id),]
head(df1)
4.R语言的缺失值处理
sum(is.na(data)) #查看data里缺失值个数
sum(is.na(data$DINNER_PRICE) #查看data里维度DINNER_PRICE缺失值个数
data=data[!is.na(data$DINNER_PRICE),] #删除DINNER_PRICE缺失样本
data=na.omit(data) #去除有NA的行(方法1)
data[complete.cases(data),] #去除有NA的行(方法2)
data[complete.cases(data[,5:6]),] #只过滤第5列,第6列中含有NA的行
5.常用绘图命令总结
以下将以lattice包下的singer数据集为例进行说明,其共包含两个变量身高(height)和音域(voice.part)
绘制直方图
library(ggplot2)
ggplot(data=singer,aes(x=height))+
geom_hist()
绘制箱线图
ggplot(data=singer,aes(x=voice.part,y=height,fill=voice.part,color=voice.part))+
geom_boxplot(alpha=0.7)
#fill则是指以voice.part的值进行区别,color则是以voice.part的值进行赋值颜色。alpha表示透明度的设置,范围为0到
绘制散点图
ggplot(heightweight, aes(x=ageYear, y=heightIn)) +
geom_point(size=3,shape=21)
增加拟合的回归线
ggplot(heightweight, aes(x=ageYear, y=heightIn))+geom_point() + stat_smooth(method=lm)
**6.关于for循环 while循环 if循环
for
num <- 1:10
for(i in num){
if(i%%2 == 0){
print(i)
}
}
while循环
num <- 5
while(num>0){
print(num)
num <- num - 1
}
if判断
score <- 79
if(score>=80){
print("A")
}else if(score>=60){
print("B")
}else{
print("C")
}