详见Applied Linear Statistical Models 5th Edition, Part one, 5.5 Linear dependence and rank of matrix
R/SAS/Python代码见后续发布
1. 复习矩阵基本概念
1.单位矩阵(Identity matrix): 对角阵(row=column),切主对角线上全为1. 可记做Ir或Ic
2.对称阵(Symmetric): aij=aji, 沿主对角线对称
3.幂等矩阵(Idempotent) : A2 = A
如果A为幂等矩阵,(I-A)也为幂等矩阵
4.正交矩阵(Orthogonal):
P为正交阵如果
(i)P为square (ii)PP'=I (iii)P'P=I
5. 转置(transpose)
(A+B)T=AT+BT
(AB)T=BTAT
(ABC)T=CTBTAT
6. 矩阵的秩(rank)
rk(A) equals the number of linearly independent column (row) of A
回归分析中默认使用满值矩阵
7. 矩阵的逆(Inverse)
AA-1=A(-1)A = I
(AB)-1=B-1A-1
2. 矩阵在线性回归的应用
(1)Simple linear regression
假设线性模型为: Yi=β0+β1Xi+ei, i=1,…,n
上式可以写成 Y = X * β + e 的形式,中间含X的矩阵为Design matrix
(1)e,Var(e)和
由于线性回归模型前提假设E(e)=0,
得出
(2)Var(Y)
Var{Y}=E{[Y-E(Y)][Y-E(Y)]T}
假设样本数量为n,由n个X得出对应n个Y, Y是一个n*1的矩阵;Y-E(Y)也是一个n*1的矩阵
那么Var{Y}为 n*1 * 1*n 也就是n*n的阵, 也叫variance-covariance matrix
(3) = (XTX)-1XTY
由normal equation得出
的形式均可求导得出最优解(参数估计) 使ε(random error)最小.
(4)Hat matrix
称为Hat matrix
(5)ANOVA result
公式推导不多赘述,直接给结果
由于二次方程可以写成如下形式
相应矩阵为
(2)Multiple linear regression
和SLR同理
自由度差异:
在SLR中MSE=SSE/(n-2)
MLR中MSE=SSE/(n-p-1); (损失一个β0,p个βi的自由度)