线性回归算法概述
一个栗子
数据:工资和年龄(两个特征)
目标:预测银行会贷款给我多少钱(标签)
考虑:工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢(参数)
通俗解释
x1,x2就是我们的两个特征(年龄,工资),Y是银行最终会借给我们多少钱
找到最合适的一条线(想象一个高维)来最好的拟合我们的数据点
机器学习的数学部分终于来了。我相信伙伴们都等很久了吧,哈哈
假设e1是年龄的参数,e2是工资的参数
拟合的平面:h(x) = e0 + e1x1 + e2x2 (e0是偏置项,e1,e2是权重项,权重项才是最重要的)
公式整合,由于一些符号不好输出所以用画图工具截图(画的有点丑,望大家勉强接受吧,从小画画就没功底)
误差项分析
误差
真实值和预测值之间肯定是要存在差异的(用ε来表示该误差)
对于每个样本:
误差ε(i)是独立并且具有相同的分布,并且服从均值为0方差为e的平方的高斯分布
对这句话进行一个解释:
独立:张三和李四一起来贷款,他俩没关系
同分布:他俩都来得是我们假定的这家银行
高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下
这个浮动不会太大,极小情况下浮动会比较大,符合正常情况
似然函数求解
解释:什么样的参数跟我们的数据组合后恰好是真实值(简单说就是
用数据去估计参数是什么,让预测值更接近真实值)
解释:乘法难解,加法就容易了,对数里面乘法可以转换成加法
补充一点对数知识
目标函数推导
对似然函数展开化简:
目标:让似然函数(对数变换后也一样)越大越好
PS:首先理解什么是似然函数(让预测值更接近真实值),当然是越大越好
线性回归求解
目标函数:
求偏导:
偏导等于0:
评估方法
最常用的评估项R的平方:
R的平方的取值越接近于1我们认为模型拟合得越好
简书链接:https://www.jianshu.com/u/43dde81143d0
CSDN链接:https://blog.csdn.net/qq_33543737
知乎:https://www.zhihu.com/people/feng-yi-yang-de-nan-ren/activities
微信公众号:TSL00001111