阿里天池算法大赛-电力预测大赛总结

赛题给的数据是14多家企业24个月中每天的用电量数据,要求预测下一月中每天该地区的总用电量。

  • 首先这是一个回归问题。

常用的来求解回归问题的模型有:线性回归、决策树、K近邻、神经网络、支持向量机回归。

  • 一、线性回归模型既是自回归模型(AR),只用AR太简单拟合效果可不好,对其改进后有ARMA模型,再改进有ARIMA模型。
    0.纯随机性检测,如果数据间没有联系或规律那什么模型也没用。
    数据给的是时间序列形式, 因此我们先用时间序列模型ARIMA来计算拟合
    1,平稳性检验
    ADF检验(单位根检验)
    如果不平稳则对数据做处理1,对数变换,2,平滑法,3,差分,4,分解,stl分解。
    一般周期趋势用平滑法处理,长期趋势用差分处理。
    得到一个较稳定的序列,再继续使用arma模型来处理。
    2,定阶(定模型参数)
    arma(p,d,q),d在做差分时决定,p,q 分别用自相关分析和偏相关分析来决定。或者遍历可能的p,q值,通过BIC值来决定。BIC与残差和自变量个数有关,残差越小bic值越小,自变量越多bic值越大,因此BIC一定程度上防止过拟合。
  • 二、然后考虑使用决策树模型,
    • 决策树的生成算法,
      ID3:根据信息增益来选择特征来生成树
      C4.5:根据信息增益比来选择特征来生成树
      CART(分类与回归树):根据最小方差生成回归树,为最小二乘回归树
      根据Gini基尼系数(近似表示分类误差)生成决策树。
    • 常用的有GBDT,XGBoost,随机深林
      GBDT vs 随机深林: GBDT是一颗树是基于上一颗树的残差继续学习。而随机深林是多颗弱分类树来投票决定最后结果。随机深林是bagging的改进,GBDT类似于adaboosting思想。
      随机深林对异常值不敏感,GBDT对异常值非常敏感。因此本题样本中异常值较少,或者这些异常值是小样本数据需要着重考虑,所以应选择GBDT。
      GBDT vs XGBoost:XGBoost 是GBDT的高效实现,不仅可以是CART还可以是线性分类器。xgboost用的是loss函数的二阶泰勒展开,同时用到了一阶和二阶导数。xgboost在代价函数里加入了正则项控制模型复杂度,防止过拟合。xgboost借鉴随机深林的列抽样,降低过拟合,减少计算量。

1,特征选择(也是关联性分析):
1)相关性:特征与分类信息相关度越高越好,特征间相关度越低越好。(r= 协方差/各自的标准差)
2)距离:好的特征使属于同一类的样本距离尽可能小,不同样本间距离尽可能远。散点图。
3)信息增益:同ID3算法。

2,我们在所做的特征选择的优势:
1)通过统计分析,分析出了异常用电、节假日影响;最大用电企业,以及企业用电分布。
2)借鉴ARMA模型考虑数据间关系,将上月、上上月、及去年数据同时再作为特征是使用,虽然较早的数据没有这部分特征,但是不影响GBDT模型。
3)交叉验证;时间序列不同与分类问题的样本,交叉验证时不能随机选择,而是按时间段来选择。平台上没有交叉验证函数,我们自己构建交叉验证模型。

3,对数据聚类,分别处理。
使用kmeans 根据企业周用电规律,和月用电规律进行分类。最终分成两类(可以根据轮廓系数来确定k值)。

4,模型选择,差异性融合
对与用电量较大的企业,其用电数据平稳,适合使用ARIMA,其他企业的用电数据对节假日等时刻比较敏感,随意选择GBDT。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容