通常线性回归的方程长这样
yi是第i个预测值,b0代表截距,bj代表第j个自变量的相关系数。除了了常规的线性回归,还有偏最小二乘和惩罚模型如脊回归(ridge regression),lasso和elastic net。这些模型都寻求最小化平方误差和。常规线性回归寻求最小bias的参数而ridge regression,lasso和the elastic net拥有最小variance。
线性回归
线性回归最小二乘线性回归的目的是寻找最小化观察数据和预测数据之间的SSE的方案
Partial Least Squares
如果自变量之间的相关性很高,常规多重线性回归将太过变化性,不够稳定。而有些数据集,自变量的数量多于数据条目,这种情况下,常规线性回归无法得出唯一能最小化SSE的线性系数。一些通用解决方法包括1)去掉高相关的自变量2)用PCA去掉自变量。然而这两种方法均有一些问题。
PLS起源于Herman Wold非线性迭代部分最小二乘算法(能线性参数非线性的模型)。简单来讲NIPALS算法迭代寻找与因变量高相关的这些自变量之间的潜在关系。对于单一的因变量,每次迭代得到自变量(X)和因变量(y)之间的关系,并将这种关系用权重向量(w)描述出来,这个向量也被叫做方向(direction)。接着将自变量投射到direction上,形成分数(t)。再用分数来生成负载(p),用来衡量分数向量和原始自变量的相关性。
PLS寻求自变量的差异性和自变量与因变量的相关性的平衡,PLS可以当作监督消维过程,PCR是非监督过程。