[Chapter 3 - 线性回归]
简单线性回归
形如,其中 截距为 为斜率, 和 被称为系数或者参数
计算模型系数
计算 和 使得直线和点之间的距离之和最小
第回归值的残差为
则残差平方和为:
或
假设样本均值为
最小二乘法的的回归结果为:
评估系数准确性
对于模型和回归线
标准差为
其中 并且 与没有协相关关系.
残差标准差为:
其中 为残差方差之和.
标准差可以用来计算置信区间(在一定可信度下能够包含未知参数真实数值的区间)
简单的线性回归下 的95% 置信区间可以估计为
相似的可以估计为
当我们想计算单个响应值, 我们使用 预测区间;当我们想计算平均响应值,我们使用置信区间
假设检验:
对于以下两种假设:
: 和 不相关
: 和 相关
我们可以采用T-检验进行估计
T-statistic 计算为:
如果 和 无关, 自由度的t-分布将会获得。
那么我们可以计算当前模型得到的t计算数据对应的概率p-value,如果p-value足够小,我们就可以拒绝假设.
使用评估模型准确度
其中:
可以计算模型拟合后减少的数据的自由度,越接近1,那么模型拟合的就越好,具体需要的的数据需要依据实际情况进行判定。
协相关系数
多变量回归
形如:
F检验
对多变量提出以下假设:
F-检验可以检测哪种假设为真
F-statistic计算为:
如果为成立,
相反如果成立,
即F检验的数据会接近;相反, 如果成立,F值会大于
当 较大时, F-statistic稍大于就很可能拒绝. 如果比较小, 则需要较大的F值才行。
定性预测
通过编码
获得模型
或者编码
获得模型
对于三变量的话:
变量互作,非线性关系
形如
变量没有互作时:
加上互作后变为:
等价于:
线性回归常见问题
-
非线性关系
左图为线性拟合的结果,右图加上了平方变量,显然右图更加符合标准
-
误差相关性(时间序列模型)
一图误差随机分布,二图则具有了一定的关联,在相近的地方,取值具有趋同性,这样误差皆为正或者负值,三图具有明显的时间序列模型的模式。
-
误差不为常量
-
离群值
-
高杠杆率值
-
共线性
共线性带来的数据预测区域过窄,如右图