我们做数据产品的过程一般是比较规范化的,通常称这个过程为:方法论、产品生命周期或者工作流程。当然数据科学的工作也有很多选择,就像没有一套通用的开发软件工程一样,但我们会努力设计出一套尽可能适用的工作流程。大圣众包(www.dashengzb.cn)小编为大家总结数据科学工作流程步骤!
CRISP-DM(数据挖掘建模标准)
CRISP-DM是为大数据的信息挖掘设计的,在本质上这是标准对于软件工程来讲可能更适合数据科学。以下是CRISP-DM的6个步骤:
1.理解业务核心
2.理解数据关系
3.数据准备
4.建立模型模
5.评价优化
6.具体实施
数据科学项目生命周期
数据科学项目生命周期的理论更加工程化了CRISP-DM的过程。它的步骤为:
1.数据采集
2.数据准备
3.假设和建模
4.评估和解释
5.部署
6.具体操作
7.循环优化
数据科学工作流程
在PhilipGuo的博士论文《DataScienceWorkflow:OverviewandChallenges》中,描述了数据科学的这一部分,它的步骤为:
1.数据准备
2.数据分析
3.结果反馈
4.方法传播
以上是3种不同的数据处理基本流程,当然,这些都不是固定不变的,我们可以根据自己的具体需要来进行选择。我们也很期待不断有更新更好的流程出现,同时我们也很乐意看到更实用更适用的具体方法流程。
一个优秀的数据产品必须能够解决一个具体问题,有时候一个好问题比解决方法更重要。但是无论如何,我们都应该时刻记住我们数据人的核心注意力都应该在数据产品本身而不是软件工程。