机器学习 :根据学习算法从海量的数据中总结出规律的过程,总结出来的规律称为模型,机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法;
模型:泛指从数据中学得的结果;
分为监督学习与非监督学习:
监督学习:分类问题、回归问题
无监督学习:聚类问题
基本概念:
数据集:数据记录/样本的集合
属性:反映对象或事件在某方面的表现或者性质的事项
属性值:属性的取值
属性空间/样本空间:由样本属性张成的空间,每个样本都是该空间中的一个向量
训练集:训练使用的数据
测试集:测试使用的数据
标记:数据样本/示例的结果信息
标记空间/输出空间:所有标记的集合
假设空间:目标问题的所有可能的假设;
泛化过程:即从具体事实归结出的一般性规律
泛化能力:推广到一般情况的能力,泛化能力越强,则模型的能力就越好;
演绎:使用公理系统推导出一般性的结论的过程
归纳:从一般性的现象中总结出定理
版本空间:包含某个训练集中所有正例的假设集合;
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀:当出现多个符合样本集的假设时,选择最简单的假设,但有时遇到复杂问题如何判断简单需要借助其他机制来解决
NFL(No Free Lunch Theorem):没有免费的午餐定理,即总误差与学习算法无关,前提是所有的问题出现的情况都是均等的,所以不同的学习算法都有自己适合的场景;
错误率:分类错误的数量占样本总体数量的比例
训练误差:模型在训练集数据上的误差
泛化误差:模型在新样本上的误差
训练误差并不是越小越好,因为有可能会出现过拟合
过拟合:训练出的模型将训练集数据中的一些特性作为一般性质导致泛化能力下降
欠拟合:对训练集数据的特性没有学习充分
泛化误差的评估方法:
将样本数据分为训练集和测试集;
分类方法有:留出法、交叉验证法、自助法
留出法:将样本集合分为两个集合,一个作为训练集,另一个为测试集,要尽量保证不同类型的数据在两个集合上的比例,一般会按照比例大小进行多次分组,最终取这些组误差均值
常用的比例有:测试:训练 为1:2 或 1:4
交叉验证法:将样本集平均分成k个集合,K称为折,选择一个集合作为测试集,并且每个集合均要作为一次测试集,因此会得到k组训练集+测试集,最后取k组数据的均值,并且可以按照不同类型数据的比例对样本集随机分p次
常用的是10次10折交叉验证法
自助法:从样本集X中选择m个数据作为训练集,并且每次选择后将选择后的数据再放回X,保证每次取数据时数据集都是全集X, 大概有36.8%的数据从未作为训练集数据,这部分就作为测试集
最终交付模型时,会使用原样本集对模型再一次训练
性能度量:
回归任务常用性能度量:均方误差
分类任务常用性能度量:错误率和精度,
特别的对于二分类问题:使用查准率与查全率(召回率) ,查准率:当前预测正确的正例占当前预测为正例的样本数的比例
查全率:预测正确的正例数量占总体真正正例的数量
泛化性能的度量:
比较检验:假设检验、交叉验证检验、McNemar检验、Friedman检验、Nememyi检验
线性回归与逻辑回归的区别:
最明显的区别是逻辑回归比线性回归多了一个sigmod函数,使样本能映射到0-1区间内;
线性回归的预测值是离散值,而逻辑回归也即对数回归的预测值是可枚举的数值;
线性回归解决的是预测问题,而逻辑回归解决的是分类问题;