CRoss Industy Standard Process for Data Mining[CRISP-DM]
1、业务理解:
需要作出什么决策?
需要获得哪些信息来作出这些决策?
什么类型的分析能够获取决策所需的信息?
2、数据理解:(对数据的不准确理解会造成不正确的分析)
需要什么数据?
有什么数据可用?
数据的重要特征是什么?
3、数据准备
收集:收集数据时,可能需要从组织内部的多个来源收集数据。
清理:使用的数据集肯能有一些问题需要在分析之前解决。这可能包括数据不正确或丢失。
格式化:可能需要通过更改日期字段的显示方式,重命名字段,甚至旋转数据来格式化数据,类似于使用数据透视表。
混合:你可能希望将数据与其他数据集进行混合或者组合,以增加其他变量,类似于在excel中使用vlookup函数。
数据抽样:最后,你可能需要对数据集进行取样,并使用更易于管理的记录数。
4、分析与建模:(预测第二天的温度,然后通过模型预测第二天的用电量)
确定用什么方法来解决问题
确定有助于解决问题的重要因素或变量
构建解决问题的模型
运行模型并移至模型评估阶段
5、模型评估:(确定是否存在一些尚未充分考虑的重要业务问题)
观察模型上的关键结果
确保结果在业务问题的情境中有意义
确定是否继续下面的步骤还是返回上一阶段
必要时重复多次
6、模型发布和可视化:
根据分析,确定呈现见解的最佳方式。
根据观众,确定呈现见解的最佳方式。
确保共享的信息不要过量。
使用结果向观众讲故事。
对于更复杂的分析,你可能需要向观众演示分析问题解决过程。
始终注明使用的数据源出处。
确保你的分析支持需要做出的决策。