1.根据输入输出变量的不同类型,对预测任务进行不同的命名:
1)input,output均为连续变量--------回归问题--函数拟合
最常用的损失函数是:平方损失---最小二乘法求解回归问题
例子:为市场趋势预测、产品质量管理、客户满意度调查,投资风险分析的工具
股票价格预测
2)output是有限个离散变量(输入可以离散可以连续)-------分类问题
分类准确率
对于二分类;指标:精确率precision和召回率recall
TP正预测为正(正确的prediction);FN正预测为负(错误的N);FP负预测为正(错误 的prediction);TN负预测为负(正确的N)
分类算法:K临近,感知机,朴素贝叶斯,决策树,逻辑斯蒂回归,支持向量机,提升方 法,贝叶斯网络,神经网络,Winnow
例子:银行中对客户按照贷款风险大小进行分类,构建客户分类模型;文本分类
3)input,output均为变量序列------标注问题tagging--分类问题的推广--结构预测问题的简单形式
输入:观测序列;输出:标记序列或者状态序列
统计方法 :隐马尔可夫模型,条件随机场
在信息提取、自然语言处理等领域广泛应用
2.统计学习方法=模型+策略+算法
model:监督学习中模型就是要学习的条件概率或决策函数
strategy:如何选择最佳模型:
1)损失函数和风险函数
期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp是模型关于训练样本集的平均损失。
根据大数定理,样本量N~无穷,经验风险趋近于期望风险,但是往往训练样本有限。so需要对经验风险进行校正。
2)对经验风险进行校正-----经验风险最小化和结构风险最小化
algorithm:用什么样的计算方法求解最优化模型
3. 训练误差:判断给定的问题是不是容易学习;测试误差:学习方法对位置数据的预测能力(泛化能力)
过拟合:学习时选择的模型所包含的参数过多,该模型对已知数据预测的很好,对未知数据预测很差
如何选择模型?--正则化和交叉验证
正则化:--结构风险最小化策略的实现
交叉验证:若样本数据足够,将其分为:训练集,验证集和测试集
简单交叉验证:数据随机分为两部分:训练与测试
S折交叉验证:随机将数据切分为S个互不相关的大小相同的子集,S-1个子集训练,剩余数 据测试
留一交叉验证:S=N,在数据缺乏的情况下用
生成模型与判别模型:
生成模型:数据学习联合概率分布,求出条件概率分布作为预测模型(可还原联合概率分布,学习收敛速度更快)
朴素贝叶斯和隐马尔科夫模型
判别模型:直接学习决策函数f(X)或者条件概率分布P(Y/X)作为预测模型(学习的准确率更高)
k临近,感知机,决策树,逻辑斯蒂回归,最大熵模型,支持向量机,提升方法和条件随机场等