最近有幸和木东居士组建的学习小组一起学习机器学习,在此十分感谢居士提供的学习机会,也希望大家有机会加入居士的学习小组一块学习(可添加居士个人微信:mdjs91)。
来自Coursera经典机器学习课程的定义为"Machine learning is the science of getting computers to act without being explicitly programmed." 也就是说机器学习是一个不用明确告诉它干啥,计算机可以自行工作的科学。广义上来说,机器学习是包括了传统的数据分析还包括了现在比较火的深度学习等。
机器学习的基础是统计(数学)和编程(计算机科学),在掌握一门编程语言之前,我们首先要熟悉一些统计学的概念和方法原理。
集中趋势的描述指标的汇总如下表:
离散趋势的描述指标汇总如下:
根据数据连续性的不同,数据可以分为离散型数据和连续型数据。同样,事件发生结果的对应数据既可能是离散型数据,也可能是连续型数据。因此,事件结果所对应的概率分布因为结果对应数据的不同也被分为连续型概率分布和离散型概率分布。
离散型概率分布的种类有很多,比较常见的有二项分布、多项分布、超几何分布和泊松分布。
连续型概率分布对应的函数被称为概率密度函数。常用的连续型概率分布有指数分布、均匀分布和正态分布。
正态分布曲线的形态是一个倒置的钟形,中间是单峰,两边逐渐平缓,但不是所有的单峰分布都是正态分布,这些分布与正态分布的差异在于峰度与偏度的差异。峰度系数和单峰分布形态之间的关系为:当峰度系数等于 3 时,代表分布曲线是扁平程度适中的常峰态;当峰度系数小于3时,代表分布曲线是低峰态;当峰度系数大于3时,代表分布曲线是尖峰态。正态分布的峰形是模板峰形,也就是常峰态,它的峰度系数等于3,其他分布都是与正态分布进行比较的。描述分布状态的另一个指标是偏度系数。偏度系数又被称为偏斜系数,它能够帮助分析者判断数据集合的分布形态是否对称。如果数据集合是对称分布的(例如正态分布),那么它的均值、中位数和众数将会重合,且在这三个数值的两侧,其他所有的数值完全以对称的方式左右分布。如果数据集合的分布不对称,那么均值、中位数和众数必定分处在不同的位置,此时,若以均值为参照点,如图2-23所示,要么位于均值左侧的数据较多,长尾拖在右侧,称之为右偏分布;要么位于均值右侧的数据较多,长尾拖在左侧,称之为左偏分布。考虑到所有数据与均值之间的离差和总是等于零,因此,当均值左侧的数据较多时,均值的右侧必定存在数值较大的“离群”(极端)数值;同理,当均值右侧的数据较多时,均值的左侧必定存在数值较小的“离群”(极端)数值。偏度系数与分布形态的关系可以表述为:当偏度系数等于0时,称之为对称分布;当偏度系数小于0时,为之为左偏分布,长尾拖在左边;当偏度系数大于0时,称之为右偏分布,长尾拖在右边。