回归分析

关系

1. 确定性:可以用函数关系表达变量之前的关系。

2. 非确定性:相关关系,如身高和体重、血压与年龄、温度与湿度。其变量均为随机变量。

回归分析

研究相关关系的数学工具,从一个变量的值去估计另一个变量的值。

一元线性回归

回归函数

为简化问题,用 Y 的数学期望E(Y) 代替其分布函数,研究随 x 取值变化规律。

均方误差 E[(Y - μ(x))²] 最小。

随机变量 Y 的数学期望与 x 的关系函数  E(Y) = μ(x)。

当 μ(x) 为线性函数 μ(x) = a + bx 时,估计 μ(x) 的问题称为求一元线性回归问题。

用样本估计 μ(x)

做 (x, y) 散点图,粗略观察 μ(x) 的形式

一元线性回归模型

Y = a + bx + ε    ε ~ N(0, σ²),随机误差    b:回归系数

a, b 的估计

1. 令 (xi, Yi) 的联合密度函数 L 最大

2. 导出:正规方程组

3. 解得 a, b 的估计值

4. 根据估计值得到回归方程,即Y 关于 x 的经验回归方程

其图形称为回归直线,通过散点图的集合中心 (x均值,y均值)

σ² 的估计

残差:xi处,Y由回归函数计算的函数值与观察值的偏差

残差平方和

σ² = E{[Y - (a + bx)]²}

因Qe/σ² ~ χ²(n - 2)    所以:E(Qe/σ²) = n - 2

进而得到 σ² 的无偏估计量:

线性假设的显著性检验

原假设:b = 0    此时 E(Y) = μ(x) 不依赖于 x。

t 检验,拒绝域:

原假设被拒绝,回归效果显著,反之,回归效果不显著。

不显著原因:

1. 影响 Y 取值的,除 x 及随机误差外还有其他不可忽略因素;

2. Y 与 x 的关系不是现行的,而存在其他关系;

3. Y 与 x 不存在关系。

系数 b 的置信区间

系数 b 置信水平为 1 - α 的置信区间:

回归函数 μ(x) = a + bx 函数值的点估计和置信区间

μ(x0) = a + bx0 置信水平为 1 - α 的置信区间:

置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短

Y 的观察值的点预测和预测区间

利用经验回归函数对因变量 Y 的新观察值进行点预测或区间预测

Y0的置信水平为 1 - α 的预测区间:

置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短

可化为一元线性回归的例子

曲线方程

一元回归模型的一般形式:

线性回归模型、非线性回归模型、本质的非线性回归模型

多元线性回归

多元线性回归模型

1. 最大似然估计法得出正规方程组

2. 求出 (b0, b1, ···, bp) 列向量的最大似然估计:

3. 得 p 元经验线性回归方程

假设检验

原假设:b0 = b1 =  ··· = bp = 0

Excel 分析

1. 画散点图

2. 数据分析 - 回归 - 设定参数

3. 各参数意义:

回归统计


1) Multiple R:x和y的相关系数 r,一般在 -1 ~ 1 之间。绝对值越靠近1则相关性越强,越靠近0则相关性越弱。

2) R square:x和y的相关系数 r 的平方,表达自变量 x 解释因变量 y 变差的程度,以测定量 y 的拟合效果。

3) Adjusted R Square:调整后的 R square,说明自变量能说明因变量百分比。和B的区别在于,通常一元回归的时候看B项多,而多元回归时候看C项多。

4) 标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量。此值越小,说明拟合程度越好。

5) 观察值:用于训练回归方程的样本数据个数。

方差分析


1) Significance F:弃真率,F 显著性统计量的 P 值,越小越好,小于 α,F 检验才能通过,整体回归方程显著有效。回归分析行重点关注指标。

2) df:自由度,自上而下:

?样本数目?;样本数目 - 变量数据 - 1;样本数目 - 1

3) SS:误差平方和,自上而下:

    SSr:回归平方和,因变量的估计值对其均值的总偏差;

    SSe:残差平方和,因变量对其估计值的总偏差,数值越大,拟合效果越差;

    SSt:=  SSr + SSe,总离差平方和,因变量对其平均值的总偏差。

4) MS:均方差,自上而下:

    MSr:

    MSe:越小越好

5) F:用于线性相关的判定

回归参数


1) Coefficients - Intercept:a

2) Coefficients - X:回归系数 b    即:Y = -40544.23238 + 23.224739*X

3) 标准误差:误差值越小,表明参数的精确度越高。不常使用,原因在于:其统计信息已经包含在后述的t检验中。

4) t stat:T 检验中统计量 t 值,用于对模

型参数的检验,需要查表才能决定。t 值是回归系数与其标准误差的比值。经常一元回归可以看 F 检验或者回归统计基本能支撑判断,但对于多元线性回归,t 检验不可缺省。

5) P-value - X:原假设为 b = 0的,关于 b 的双边检验的 P 值,若其小于 α,则拒绝原假设,认为回归效果显著。

6) 95%下限/上限 - X:表示 b 的置信水平为 α 的置信区间,如:(11.774848, 34.674630)

(部分知识点完善中)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容