这本书讨论如何将数据转换为知识。 数据是廉价的( 至少相对而言如此), 但知识却异常宝贵。
书中对三门相互关联的学科进行介绍:
- 概率论
主要研究随机事件。 人们对某些事件发生的可能性高低一般都有直观的认识, 所以未经特殊训练就会使用“ 可能”、“ 不可能” 之类的词汇。 但本书会介绍如何量化这种可能性 - 统计学
统计学旨在根据数据样本推测总情况。 大部分统计分析都基于概率, 所以这两方面的内容通常兼而有之。 - 计算
量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计算实验还有助于理解概率论和统计学中的概念。
在日常生活中,我们经常会依据自己的个人经历得到一些经验之谈,这些经验之谈会因为观察的数量太少、选择偏差、确认偏差、不准确等因素存在种种不足。
为解决这种不足,本书运用以下统计学手段:
- 收集数据
量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计算实验还有助于理解概率论和统计学中的概念。 - 描述性统计
计算能总结数据的统计量, 并评测各种数据可视化的方法。 - 探索性数据分析
寻找模式、 差异和其他能解答我们问题的特征。 同时, 我们会检查不一致性, 并确认其局限性。 - 假设检验
在发现明显的影响时( 比如两个族群间的差异), 我们需要评判这种影响是否真实, 也就是说是否是因为随机因素造成的。 - 估计
我们会用样本数据推断全部人口的特征。
术语
- 经验之谈(anecdotal evidence)
个人随意收集的证据, 而不是通过精心设计并经过研究得到的。 - 直观效应(apparent effect)
表示发生了某种有意思的事情的度量或汇总统计量。 - 人为(artifact)
由于偏差、 测量错误或其他错误导致的直观效应。 - 队列(cohort)
一组被调查者。 - 横断面研究( cross-sectional study)
收集群体在特定时间点的数据的研究。 - 字段( field)
数据库中组成记录的变量名称。 - 纵贯研究( longitudinal study)
跟踪群体, 随着时间推移对同一组人反复采集数据的研究。 - 过采样( oversampling)
为了避免样本量过少, 而增加某个子群体代表的数量。 - 总体( population)
要研究的一组事物, 通常是一群人, 但这个术语也可用于动物、 蔬菜和矿产。 - 原始数据( raw data)
未经或只经过很少的检查、 计算或解读而采集和重编码的值。 - 重编码( recode)
通过对原始数据进行计算或是其他逻辑处理得到的值。 - 记录( record)
数据库中关于一个人或其他对象的信息的集合。 - 代表性( representative)
如果人群中的每个成员都有同等的机会进入样本, 那么这个样本就具有代表性。 - 被调查者( respondent)
参与调查的人。 - 样本( sample)
总体的一个子集, 用于收集数据。 - 统计显著( statistically significant)
若一个直观效应不太可能是由随机因素引起的, 就是统计显著的。 - 汇总统计量( summary statistic)
通过计算将一个数据集归结到一个数字( 或者是少量的几个数字),而这个数字能表示数据的某些特点。 - 表( table)
数据库中若干记录的集合。