- 感知机是二分类的线性分类模型,其输入为实例的特征向量,输入为实例的类别
- 感知机对应于输入空间中将实例划分为正负两个类的分离超平面,属于判别模型
- 感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型
- 感知机学习算法的优点:简单且易于实现
- 分类:原始形式 和 对偶形式
- 感知机预测:用学到的感知机模型对新的输入实例进行分类
1. 感知机模型
- 感知机是根据输入实例的特征向量对其进行二类分类的线性分类模型:
- 感知机模型对应于输入空间(特征空间)中的分离超平面。
2. 感知机学习策略
1)数据集的线性可分性
- 如何数据集T如果存在某个超平面S能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,称数据集T为线性可分数据集
2)感知机的学习策略
- 假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例完全正确分离超平面。为了找到这样的超平面,即确定感知机模型的参数w,b,需要需要确定一个学习策略,即定义损失函数并将其损失函数极小化
- 损失函数的一个自然选择是误分类点的总数,但这样的损失函数不是参数w,b的连续可导函数,不易优化
- 损失函数的另一个选择是误分类点到超平面S的总距离,这个是感知机所采用的
3. 感知机学习算法
- 感知机学习问题转化为求解损失函数的最优化问题
- 最优化的方法是随机梯度下降法
1)感知机学习算法的原始形式
- 对给定一个训练集,求参数w,b,使损失函数极小化。M为误分类点的集合
- 感知机学习算法是误分类驱动的,采用随机梯度下降法:先任意选取一个超平面w0,b0,然后用 梯度下降法不断地极小化目标函数
- 极小化过程中不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降
2)算法的收敛性
- 对应线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面
- 感知机学习算法存在许多解,这些解既依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序。
- 为了得到唯一的超平面,需要对分离超平面增加约束条件
3)感知机学习算法的对偶形式
- 对偶形式的基本想法是,将w和b表示为实例Xi和标记Yi的线性组合的形式,通过求解其系数而求得w和b