你用编程解决过什么有趣的事情?
和两名队友笑了四天四夜完成美赛建模。
整个比赛过程,我是负责编程部分的:
R语言的的dplr包做ETL(数据清洗、转化、加载)以及用K-means clustering 做数据填充;latex的排版语法,一个专门排版用的专业软件。
背景介绍
◊项目背景:根据缺失大量数据的系列表格(美国7806所高校),建立相关模型,进而搭建美国高校的评价体系,
帮助一个慈善机构决策,使得捐款金额100 (百万美元)能最大程度上改善学生的表现。
◊ 要解决的问题:依据这个评价体系,确定获得捐款的高校以及金额数目、捐款金额分期发放方式。
◊ 提供的数据集:共7806所高校,每所高校有95个变量,只有11个变量数据是完整的,另外84个变量都缺失大量数据;另外提供一个候选名单高校的表格,共2809所。
解决步骤
分析问题
- 数据体量太大,且各变量类型都不一样,有类型变量也有数值型变量,数值型变量又有整数型和浮点型。怎样对数据标准化处理?
- 缺失大量数据,缺失值处理该