1. 基本形式
给定由d个属性描述的示例 x = (x1;x2;...;xd),其中xi是x在第i个属性上的取值
其中 w = (w1;w2;...;wd)。
线性模型的特点:形式简单,易于建模,由于w直观的表达了各属性在预测中的重要性,因此有很好的可解释性。
例如:在西瓜问题中学得下面的线性模型,则可以直观的看出,其中根蒂最重要,敲声比色泽更重要。
许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结果或高维映射得到。
2. 线性回归
线性回归试图学得一个线性模型以尽可能准确的预测实值输出标记
离散属性
1)若属性值间存在“序”关系,则可以通过连续化将其转换为连续值
例如:二值属性“身高”的取值 “高”、“矮” 可转化为{1.0, 0.0},三值属性“身高”的取值 “高”、“中”、“低” 可转化为{1.0, 0.5, 0.0}
2)若属性值间不存在“序”关系,则通常转化为k维向量
例如:属性“瓜类”的取值“西瓜”、“南瓜”、“黄瓜” 可转化为(0,0,1), (0,1,0), (1,0,0)
均方误差的几何意义对应了常用的欧几里得距离
【最小二乘法】:基于均方误差最小化来进行模型求解的方法
输入属性的数目只有一个的情形:
令式(3.5)和(3.6)为0可得到w和b最优解的闭式解
更一般的情形,样本由d个属性描述