导读:《大数据》这本书的作者是涂子沛,信息管理专家、科技作家。作者题记:一个真正的信息社会,首先是一个公民社会。这给了我---需求分析人员,一个把工作做好的更加充足的理由。作者提到的一句话让我印象深刻“数据可以治国,还可以强国”,这句话让我感到做有意义的事就是把当下工作做好。全书包括数据的发展、数据治国、商务智能的发展、数据质量法、数据的隐私以及大数据的发展趋势等内容。由于本次我只关注数据的统计和分析,所以下面部分重点对数据分析的四个必要条件进行总结。
信息消费了信息接受者的注意力,信息越丰富,就会导致注意力越匮乏。比如我们买衣服,可选择的越多,选择越困难。在企业中,信息并不匮乏,匮乏的是我们处理信息的能力。
我们有限的注意力是组织活动的主要瓶颈。
人类的理性是有限的,因此所有的决策都是基于有限理性
有限理性是介于完全理性和非完全理性之间的在一定限制下的理性,是为抓住问题的本质而简化决策变量的条件下表现出来的理性行为。举个在稻草中寻针的例子,有限理性就是只要找到足可以缝衣服的针就满足了,即寻求满意;完全理性是要找到最锋利的针,寻求最优,从所有的备选方案中找到最优者。通过计算机里的信息辅助决策,人类理性的范围将会扩大,决策的质量就能提高。
赫伯特·西蒙(科学家,曾获图灵奖和诺贝尔经济学奖)预测:在后工业时代,也就是信息时代,人类社会面临的中心问题将从如何提高生产率转变为如何更好地利用信息来辅助决策。
如何将信息转化为有用的知识为决策者提供数据支撑,可以总结为如下四点:
1、数据仓库--商务智能的依托,海量数据进行分析的核心物理构架
决策支持面临的“瓶颈式”难题,是如何有机的聚集、整合多个不同运营信息系统产生的数据。
数据的处理是重点,“数据仓库”不同于数据库,欠着是以数据分析、决策支持为目的来组织存储数据,而数据库的主要目的则是为运营性系统保存、查询数据。一种格式一致的多源数据存储中心,数据源可以来自不同的系统,但是数据可以按统一定义的格式被提取出来,再通过清洗、转换、集成,最后百流归海,加载进入数据仓库。这个提取、转换、装载的主要过程,可以借助ETL工具。
2、联机分析--为企业开展高端的分析
将分立的数据库“相联”,进行多维度的分析。重点在一个“维”,指的是人们观察事物、计算数据的特定角度。如沃尔玛超市,要分析自己的销售量,可以按照时间序列分析、商品门类分析、地区国别分析,也可以按照进货渠道分析、客户群体分析,这些不同的角度就是维度。作为军工企业,想了解产品设计和开发的质量情况,就可以从现场设计更改闭环情况、设计验证完成情况、设计确认一次通过情况、产品重要试验一次通过情况等多个维度进行分析。
随着维度的增多,问题可能变得复杂,一旦维度超过三个,人类思维和想象力就受到很大的限制。及时同一个维度,也可以进行下转细分(drill down),如时间维度,一年的销量,分析人员可能对半年、季度、每个月或者某一天(如双十一)的销量感兴趣;和上转细分对应的是上卷(roll up),从某一个分店的销量加总到一个城市的销量。
需求分析人员就需要事先设计报表,即根据用户指定的条件,由软件人员事先一一定制,通过“一对一”的查询,将结果通过报表的形式返回给用户。
报表,是关系型数据库时代将数据转化为信息和知识最主要的手段。对于一个立足于决策的用户来说,他的需要是“动态”的,他可能问出任意维度交叉和细分的问题,但软件开发人员只能将最常见的问题定制在软件中,那么对于没有定制的问题,系统就无法回答。所以静态的、固定的报表根本无法满足决策分析人员的全部需要。解决方案就是用户可以根据自己的需要随时创建“万维”动态报表,也就是说,报表的定制权由后台的开发人员直接转移到前端用户。
3、数据挖掘--让数据流动的更好、管理的更好、分析的更好
其实一开始的时候,数据挖掘曾一度被称为“基于数据库的知识发现”。数据挖掘最经典的例子就是在超市中跟尿布一起搭配购买最多的商品是啤酒,那么这个微妙的关系很难被发现,但是通过数据挖掘技术就可以实现。数据挖掘的主要目,一是发现潜藏在数据表面之下的历史规律,二是对未来进行预测,即描述性分析和预测性分析。
4、数据可视化--诠释数据之间的关系和发展趋势,以期更好地理解、使用数据分析的结果
数据可视化的技术,可以通过图像在逻辑思维的基础上进一步激发人的形象思维和空间想象力,吸引、帮助用户洞察数据之间隐藏的关系和规律。数据可视化的关键在于“设计”。信息过载不存在,问题出在糟糕的设计上,如果用来表达数据的图形让人感觉杂乱不解,那就需要修改设计。相对于简单的点线图、直方图等,仪表盘、计分板、三维图、动态模拟、动画技术等等讲更加直觉话和趣味化。
新时代企业的竞争,将是知识生产率的竞争。以发现新知识为使命的智能化,无疑是整个时代最为瞩目的竞争利器。
推荐相关书籍:赫伯特·西蒙的《行政组织的决策过程》、爱德华·塔夫特的《定量信息的视觉展示》