本书主要概括性地讲了五个问题:
1、有哪些最新商业数据分析理念?
2、什么是商业数据分析?
3、为什么商业数据分析如此有价值?
4、如何应用商业数据分析?
5、现在常用的统计技术、方法、软件工具有哪些?
接下来主要针对第二个问题“什么是商业数据分析?”进行总结,其他问题待更新。
首先,对更广义的概念-数据科学(data science),有一个深刻认识。
数据科学:对海量数据信息进行的收集、预处理、分析、可视化、管理、保存等工作。
商业数据分析就是,利用各种分析工具来研究数据(包含大数据),寻找有用信息,进而更好地进行决策。商业数据分析更关注预处理、分析、可视化过程。
商业数据分析的逻辑基于这个问题:企业所拥有的数据蕴含着哪些有价值或者有助于解决问题的信息?
商业数据分析要求的基础知识:数学、统计学、计算机科学。
数据分析的基本问题是:找出模型。
常用数据类型与数据模型对应关系:
(1)点集-概率分布
(2)时间序列-随机过程
(3)图像-随机场
(4)网络数据-图模型、贝叶斯模型
(5)模糊数据-模糊概率分布
数据科学家应具备的基本素质和技能:
(1)统计学(statistics)
(2)坚实深厚的行业知识储备(domain knowledge)
(3)计算技术(computing)
(4)团队合作(collaborating)
(5)与外界的沟通能力(communicating)
数据科学家所做的:
(1)收集数据
(2)清洗数据
(3)创建数据集
(4)分析数据
(5)根据数据提出新观点
(6)利用数据预测未来
数据科学家应该具备的三个特质:
(1)知道如何提出好问题
(2)理解所要处理数据的结构
(3)很好地解读这些数据
数据分析实现了数据-信息-知识-洞察力的转换。
数据分析分为三种:
(1)描述性数据分析:识别数据中的趋势,方法有,集中趋势指标(均值、中位数、众数)、离散趋势指标(标准差)、表格、图、排序法、频数分布、概率分布和抽样法。
(2)预测性数据分析:建立预测模型,识别与预测未来趋势,方法有,多元回归等。
(3)规范性数据分析:最优配置资源,方法有,线性规划与决策论等。
商业数据分析的三个条件:
(1)与商业的关联清晰
(2)所获得的的结果是可执行的
(3)绩效和价值可测量