Kaggle自行车预测练习-基础篇

知识要点：
lubridate包拆解时间 | POSIXlt
利用决策树分类，利用随机森林预测
利用对数进行fit，和exp函数还原

训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据，分析共享自行车与天气、时间等关系。数据集共11个变量，10000多行数据。
https://www.kaggle.com/c/bike-sharing-demand

首先看一下官方给出的数据，一共两个表格，都是2011-2012年的数据，区别是Test文件是每个月的日期都是全的，但是没有注册用户和随意用户。而Train文件是每个月只有1-20天，但有两类用户的数量。
求解：补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。

1.png

首先加载文件和包

library(lubridate)
library(randomForest)

library(readr)
setwd("E:")
data<-read_csv("train.csv")
head(data)

这里我就遇到坑了，用r语言缺省的read.csv死活读不出来正确的文件格式，换成xlsx更惨，所有时间都变成43045这样的怪数字。本来之前试过as.Date可以正确转换，但这次因为有时分秒，就只能用时间戳，但结果也不行。
最后是下载了"readr"包，用read_csv语句，顺利解读。
因为test比train日期完整，但缺少用户数，所以要把train和test合并。

test$registered=0
test$casual=0
test$count=0
data<-rbind(train,test)

摘取时间：可以用时间戳，这里的时间比较简单，就是小时数，所以也可以直接截字符串。

data$hour1<-substr(data$datetime,12,13)
table(data$hour1)

统计一下每个小时的使用总数，是这样（为什么介么整齐）：

6-hour1.png

接下来是运用箱线图，看一下使用者和时间，周几这些的关系。为什么用箱线图而不用hist直方图，因为箱线图有离散点表达，下面也因此运用对数求fit
从图中可以看出，在时间方面，注册用户和非注册用户的使用时间有很大不同。

5-hour-regestered.png

5-hour-casual.png

4-boxplot-day.png

接下来用相关系数cor检验用户，温度，体感温度，湿度，风速的关系。

相关系数：变量之间的线性关联度量，检验不同数据的相关程度。
取值范围[-1，1]，越接近0越不相关。

从运算结果可以看出，使用人群与风速呈负相关，比温度影响还大。

cor.png

接下来就是将时间等因素用决策树分类，然后用随机森林来预测。随机森林和决策树的算法。听起来很高大上，其实现在也很常用了，所以一定要学会。

决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设，计算速度较快，结果容易解释，而且稳健性强，不怕噪声数据和缺失数据。
决策树模型的基本计算步骤如下：先从n个自变量中挑选一个，寻找最佳分割点，将数据划分为两组。针对分组后数据，将上述步骤重复下去，直到满足某种条件。
在决策树建模中需要解决的重要问题有三个：
如何选择自变量
如何选择分割点
确定停止划分的条件

做出注册用户和小时的决策树，

train$hour1<-as.integer(train$hour1)
d<-rpart(registered~hour1,data=train)
rpart.plot(d)

3-raprt-hour1.png

然后就是根据决策树的结果手动分类，所以还满占代码的...

train$hour1<-as.integer(train$hour1)
data$dp_reg=0
data$dp_reg[data$hour1<7.5]=1
data$dp_reg[data$hour1>=22]=2
data$dp_reg[data$hour1>=9.5 & data$hour1<18]=3
data$dp_reg[data$hour1>=7.5 & data$hour1<8.5]=4
data$dp_reg[data$hour1>=8.5 & data$hour1<9.5]=5
data$dp_reg[data$hour1>=20 & data$hour1<22]=6
data$dp_reg[data$hour1>=18 & data$hour1<20]=7

同理，做出 （小时 | 温度） X （注册 | 随意用户） 等决策树，继续手动分类....

3-raprt-temp.png

年份月份，周末假日等手动分类

data$year_part=0
data$month<-month(data$datatime)
data$year_part[data$year=='2011']=1
data$year_part[data$year=='2011' & data$month>3]=2
data$year_part[data$year=='2011' & data$month>6]=3
data$year_part[data$year=='2011' & data$month>9]=4

data$day_type=""
data$day_type[data$holiday==0 & data$workingday==0]="weekend"
data$day_type[data$holiday==1]="holiday"
data$day_type[data$holiday==0 & data$workingday==1]="working day"
data$weekend=0
data$weekend[data$day=="Sunday"|data$day=="Saturday"]=1

接下来用随机森林语句预测

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
随机森林中的子树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，再在其中选取最优的特征。这样决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。

ntree指定随机森林所包含的决策树数目，默认为500，通常在性能允许的情况下越大越好；
mtry指定节点中用于二叉树的变量个数，默认情况下数据集变量个数的二次方根（分类模型）或三分之一（预测模型）。一般是需要进行人为的逐次挑选，确定最佳的m值—摘自datacruiser笔记。这里我主要学习，所以虽然有10000多数据集，但也只定了500。就这500我的小电脑也跑了半天。

#train<-data[as.integer(day(data$datetime))>20,]
train<-data

set.seed(421)
train$logreg<-log(train$registered+1)
train$logcas<-log(train$casual+1)

#fit1<-randomForest(logreg~hour1+workingday+day+holiday+day_type+
                   temp_reg+humidity+atemp+windspeed+season+weather
                   +dp_reg+weekend+year+year_part,
                   train,importance=TRUE,ntree=250)

fit1<-randomForest(logreg~hour1+workingday+holiday+temp_reg+atemp+humidity
                    +windspeed+season+weather+weekend+year+year_part
                    +dp_reg,train,importance=TRUE,ntree=500)

pred1<-predict(fit1,train)
train$logreg<-pred1

set.seed(421)
fit2<-randomForest(logcas~hour1+workingday+holiday+temp_cas+atemp+humidity
                   +windspeed+season+weather+weekend+year+year_part
                   +dp_cas,train,importance=TRUE,ntree=500)

pred2<-predict(fit2,train)
train$logcas<-pred2

这里不知道怎么回事，我的day和day_part加进去就报错，只有删掉这两个变量计算，还要研究修补。
然后用exp函数还原

train$registered<-exp(train$logreg)-1
train$casual<-exp(train$logcas)-1
train$count<-test$casual+train$registered

最后把20日后的日期截出来，写入新的csv文件上传。

train2<-train[as.integer(day(data$datetime))>=20,]
submit_final<-data.frame(datetime=train2$datetime,count=train2$count)
write.csv(submit_final,"submit_final.csv",row.names=F)

大功告成！
github的代码在此

原来的示例是炼数成金网站的kaggle课程第二节，基本按照视频的思路。因为课程没有源代码，所以要自己修补运行完整。总算把这个功课做完了。下面要修正的有：

好好理解三个知识点（lubridate包/POSIXlt，log线性，决策树和随机森林）；
用WOE和IV代替cor函数分析相关关系；
用其他图形展现的手段分析
随机树变量重新测试

完成了一个“浩大完整”的数据分析，还是很有成就感的！

最后编辑于：2017.12.08 05:38:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

Kaggle自行车预测练习-基础篇

推荐阅读更多精彩内容