简介
- 作者:Noah,Basecamp数据分析师,文章涉及商业智能、 A/B测试等领域
- 时间:2015年3月6日
- 原文:Reproducible research isn't just for academia
- 翻译:梅晨斐,校验:曾樑
摘要
我在Basecamp的同事发现了一个特别能激怒我的方法。需要做的很简单,随便在Campfire上发布一条一眼看上去就很难被相信的消息。例如:全美排名前10的酒鬼平均每人每天要喝掉10瓶酒。
拥有漂亮数据可视化形态的信息越来越受到欢迎,即使里面具体的数据没有明确的来源和具体的方法论说明。自从我开始进行人口统计数据的研究开始,关于人口统计数据调查方面的数据来源就变得非常难以获取和相信。
这个领域非常好玩,但是也存在着非常多的实际问题。许多的数据,根本没有经过严格地推敲,就被写入了新闻数据报道当中。当然这个行业中也有一些公司在数据准确性方面做的非常好,例如FiveThirtyEight发布的数据就事先经过严格的审核,而且数据公开透明。但是整个行业的审核水平非常低。在没有任何方法论的条件下,采用假冒的数据生成漂亮的可视化图表并且发布出来,整个流程变得越来越容易。而且似乎没有人质疑这些数据是否是准确的。
很多年前在学术界,关于数据准确性就已经有了非常多的争论。**核心点在于:“研究数据的可靠性,需要能够被重复体现和验证。“ **自从1665年开始,人们在发布一些数据和文章之前,就开始引入同行评审的概念。但是同行评审仍然没有完全解决行业存在的问题。现在,人们仍然在逐渐寻求一些改进:训练数据,保险数据被逐渐引入。
在一些公开发表的文章和数据中找到错误,并不是一件很难的事情。真正困难的是,即使是身处这个行业的我们,有时也难免会同流合污。大部分私营企业内部的数据分析师,是从不进行同行评审的。他们发布的数据也没有足够多的用户,去替他们进行数据和方法论的检查。
我自己在进行数据分析的时候,也不能够完全做到数据和方法论完全的透明。
我在不断努力保证数据的可信度,特别是针对在Basecamp内部分享的内容。我在整个研究准备和发布的过程中,尽量保证数据和方法论的公开和透明。并且在引用一些数据的时候,尽量保证经过同行评审。虽然我的同事都非常相信我做出的结果和数据,但是我要做的是保证产出数据的准确性,从而保证准确的数据能够对我们产品的决策产生影响。做一个好的数据分析师,就是要保持透明和可被重复验证。
当然,要做到透明和可被重复验证是非常辛苦的一条道路。但是我确信这是一条正确的道路,不管是对数据分析师本身,还是对消费数据的用户而言。