简述:从样本中统计每个特征对分类类别的概率,最后求将预测对象分为每个类别的概率,取最大为预测分类
优点:在数据较少的情况下仍然有效,可以处理多分类问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
概率论是许多机器学习算法的基础,核心思想:选择具有最高概率的决策
条件概率:P(A|B) = P(A B)/P(B)
P(C|X) = P(X|C)*P(C)/P(X) 求条件互换概率
独立性假设是指一个现象的发生不依赖于其他现象,如一个词的出现不依赖于文档中其他词,这个假设过于简单,所以称之为朴素贝叶斯
拉普拉斯修正:
若某个属性值在训练集中没有与某个类同时出现过,则直接基于概率进行判别会出现问题,*0
将概率P(c) = |Dc|/|D| 改为P(c) = |Dc+1|/|D|+N, N为类别个数
如果对预测速度要求高,则对给定训练集,可将所有概率事先计算存表
如果数据更新频繁,可采用懒惰学习,待收到预测请求后进行概率估算
如果数据不断增加,可在现有估值基础上,仅对新增样本所涉及的概率估值进行计算修正,实现增量学习
半朴素贝叶斯分类
适当放松独立性假设
独依赖估计:假设每个属性在类别之外最多仅依赖于一个其他属性
SPODE:通过交叉验证等选择方法确定“超父”属性,所以其他属性依赖这个超父属性
TAN:以属性的条件互信息为权构建最大生成树
AODE:基于集成学习,尝试将每个属性作为超父来构建SPODE,将SPODE集成起来作为最终结果
贝叶斯网
有向无环图,以属性为点,量化依赖关系为边,有效表达属性间的条件独立性
道德图:找到所有V型结构,在两个父节点上加上一条无向边,将所有有向边改为无向边,
若X,Y能被变量集合Z切开,则X,Y存在基于Z的条件独立关系
“评分搜索”是求解贝叶斯网的常见办法,详见西瓜书P160
使用贝叶斯网可根据已有属性值推断其余属性值:
精确推断是NP难的,近似推断常采用吉布斯采样
吉布斯采样:在E= e的基础上采样T次,计算其中Q=q的次数
实质上实在贝叶斯网所有变量的联合状态空间与证据E=e一致的子空间中进行随机游走
EM算法
隐变量:未观测到的变量
X:表示已观测到的变量集,Z:表示未观测到的变量集,欲对Θ做极大似然估计,则应最大化对数似然:
LL(Θ|X,Z)= lnP(X,Z|Θ)
Z未知,上式无法直接求解,需通过对Z计算期望,来最大化已观测数据的对数“边际似然”
流程:
E步:基于Θt 推断隐变量Z的期望,记为Zt(推断Z的分布P(Z|X,Θt), 并计算对数似然LL((Θ|X,Z) 关于Z的期望)
M步:基于Zt和X对参数Θ做极大似然估计,记为Θt+1(寻找参数最大化期望似然)
直到收敛
常用来学习高斯混合模型GMM的参数,K均值聚类就是典型的EM算法