现实中,数据分析师面临的不一定是具体的数据,也可能是抽象的数据信息。如何从这些抽象的数据信息中获取价值,提出解决解决方案呢。答案是运用假设校验里的“证伪法”。本节内容包括:什么是假设校验,什么是证伪法;一个案例展开分析,如何运用假设校验;总结。
1 什么是假设校验,什么是证伪法
假设校验是根据某些现有的信息和分析依据,做出某种假设,然后再继续研究和推理,最后作出是否接受该假设。运用假设校验的原因是现实世界中的各种变量呈网络关系,非线性关系,这些变量相互影响,互为传导。假设校验的第一步是大胆预测,然后是小心求证,即运用证伪法。
证伪法,即剔除无法证实的假设。原因是由于网络中变量的相互影响,导致无法非常准确的推导出哪个假设是完全正确,转而可通过多种证据推导出哪种假设的不可靠,并将其他剔除假设,最后剩下的则为最可能的假设,作为结论。
2 案例运用
背景:某生成PodPhone手机壳的科技公司需要知道PodPhone新手机的发布时间,从而安排恰当时机生产手机壳,保证在竞争对手前抢占先机,同时需避免过早生产,从而投资打水漂。
首先,我们根据常识,作出以下假设,如表1所示。
表1 假设情形表
其次,通过市场及相关机构,获得以下表2的重要原始数据。
表2 原始数据表
根据以上信息,提炼出变量,并标出各个变量间的相互作用。两个变量间的关系若为”+“,则表示两个变量是正相关,反之,则为负相关。详细如下图1所示。
接着,根据以上数据的观察,可以明显剔除假设1和假设5,原因为:
继续分析,借助诊断性找出否定性最小的假设内容,列举出每项数据,并依次对假设进行诊断,‘+’表示支持,‘++’表示非常支持,‘-’表示不支持。通过以上方法得到以下表3。
从以上的诊断分析结果,其中,假设2最弱,假设3最强,假设4居中。因此,最终的推导出的结论是PodPhone新手机不是在下个月,但在6个月内发布。同时,生产PodPhone新手机壳公司的方案为不能开始生产,还需继续等待更新的消息。
3 总结
收集抽象的信息作为数据依据,依次对提出的假设做诊断性分析,采用证伪法依次排除明显错误的假设,直到最后剩下的最强、最可能的假设,并依据该假设制定决策。
(1)数据分析师处理的数据不一定是具体的数字数据,将更多面临抽象的信息数据。对于这类数据分析问题,需采用证伪法和诊断性分析法。
(2)证伪法的核心在于列出所有变量的相互作用,是促进还是互斥。谨慎的绘制出所有变量相互作用的模型图。
下期预告,《产品新人学数据分析第四课-标准偏差法》