应用回归分析——线性回归

准备

①导入文件
查看默认存储路径,再将csv文档存入文件夹打开:
(使用逗号作为小数点、分号作为字段分隔符的地区中使用csv2)

getwd()
read.csv("titanic.csv")

导入所需包

library(tidyverse)
library(modelr)

【一元线性回归】

回归分析(Regression Analysis):确定2个或2个以上变量间关系的一种统计分析方法。
如果回归分析中,只包括一个自变量X和一个因变量Y时,且它们的关系是线性的,那么这种回归分析称为一元线性回归分析。

步骤

①确定因变量Y 与 自变量X1, X2, …, Xn 之间的定量关系表达式,即回归方程;
②对回归方程的置信度检查;
③判断自变量Xn(n=1,2,…,m)对因变量的影响;
④利用回归方程进行预测。


Yi = a + b * X + ci, i= 1,2,...n
其中E(ci)=0, var(ci)=σ^2, i=1,2,...n

  • 用lm()函数来实现一元线性回归的建模过程。

lm(y~x) 默认有截距项
lm(y~x+1) 有截距项
lm(y~-1) 没有截距项

1.建立线性回归模型
 P<-lm(y ~ x)
2.打印参数估计的结果
P
(Intercept为自变量系数)
3.画出回归直线
 plot(y~x)
 abline(P)

画图时加上总标题、x轴标题、y轴标题、x轴区间、y轴区间

plot(y~ x,
data = CASchools,
main = "Scatterplot of TestScore and STR",
xlab = "STR (X)",
ylab = "Test Score (Y)",
xlim = c(10, 30),
ylim = c(600, 720))

  • coefficients()函数——输出模型的参数估计值
  • 回归直线是我们用数据拟合出来的,是近似的值,评价这条回归线拟合的好坏,我们就需要对回归模型进行显著性检验。
4.回归方程的显著性检验

① T检验法:T检验是检验模型某个自变量Xi对于Y的显著性,通常用P-value判断显著性,小于0.01更小时说明这个自变量Xi与Y相关关系显著。
② F检验法:F检验用于对所有的自变量X在整体上看对于Y的线性显著性,也是用P-value判断显著性,小于0.01更小时说明整体上自变量与Y相关关系显著。
③ R^2 相关系统检验法:用来判断回归方程的拟合程度,R^2的取值在0,1之间,越接近1说明拟合程度越好。

  • summary()函数来提取模型的计算结果:
 summary(P)

coeftest函数用于对回归系数进行检验(t检验或z检验)
coeftest(x, vcov. = NULL, df = NULL, ...)

参数x——进行检验的对象,一般需是一个回归模型(即lm类型数据);
参数vcov. ——表示参数的方差(矩阵),取默认值NULL时,使用的就是传统回归的估计方法;
df ——t 检验的自由度,取默认值NULL时自由度为n-k(即样本量减参数量),而当df取负值时,检验方法将会从t检验(t分布假设)变为z检验(正态分布假设)。

https://blog.csdn.net/weixin_40628687/article/details/88955575?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162233570616780274147918%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=162233570616780274147918&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_v2~rank_v29-1-88955575.first_rank_v2_pc_rank_v29&utm_term=R%E8%AF%AD%E8%A8%80%E8%AE%A1%E9%87%8F+newey-west%E8%B0%83%E6%95%B4&spm=1018.2226.3001.4187

T检验:检验解释变量的显著性;
R-squared:查看方程的拟合程度
F检验:检验方程整体显著性

模型解读:
Call,列出了回归模型的公式。
Residuals,列出了残差的最小值、1/4分位、中位数、3/4分位、最大值。
Intercept ,截距项
Coefficients,系数项,表示参数估计的计算结果。
Estimate,参数估计列。Intercept行表示常数参数a的估计值 ,x行表示自变量x的参数b的估计值。
Std. Error,为参数的标准差,sd(a), sd(b)
t value,为t值,为T检验的值
Pr(>|t|) ,表示P-value值,用于T检验判定,估计系数为0假设的概率,小于0.05比较好,匹配显著性标记。
显著性标记,*** 为非常显著,**为高度显著, **为显著,·为不太显著,没有记号为不显著。
Residual standard error,残差标准误,自由度为n-2,显示残差的标准误差,越小越好。
Multiple R-squared,为相关系数R^2的检验,衡量模型拟合质量的指标,表示回归模型所能解释的响应变量的方差比例。取值在0-1之间,越大越好,越接近1则越显著。
Adjusted R-squared,为相关系数的修正系数,解决多元回归自变量越多,判定系数R^2越大的问题。
F-statistic,表示F统计量,自由度为(1,n-2),用P-value衡量。P-value越小越好,越小越显著。

例:marketshare=-0.2949*price+0.0305
Multiple R-squared=0.01155,表示这个模型只能解释1.155%的数据

【注】一般先看F统计量是否小于0.05,否则模型没有价值,需要重新进行拟合;再看R²,看模型能够解释多少变量)

  • 通过查看模型的结果数据,可以发现通过T检验的截距和自变量x是否显著,通过F检验判断出整个模型的自变量是否显著,同时R^2的相关系数检验可以判断自变量和因变量是否高度相关。
    http://blog.fens.me/r-linear-regression/

  • 计算回归系数的置信区间

confint(data,level=0.95)
  • 输出方差分析表
anova(data)
  • 线性拟合常用函数

summary( ) 展示拟合模型的详细结果
coefficients( ) 列出拟合模型的模型参数(截距项和斜率)
confint( ) 提供模型参数的置信区间(默认95%)
fitted( ) 列出拟合模型的预测值
rediduals( ) 列出拟合模型的残差值
anova( ) 生成拟合模型的方差分析表,或比较2个或更多拟合模型的方差分析表
vocv( ) 列出拟合模型的协方差矩阵
plot( ) 生成评价拟合模型的诊断图
predict( ) 用拟合模型对新的数据集预测响应变量值
abline( ) 可绘制出拟合曲线

【多元线性回归】

/// 确定2个或2个以上变量间关系的统计分析方法。
/// 由于多元回归方程有多个自变量,区别于一元回归方程,有一项很重要的操作就是自变量的优化,挑选出相关性最显著的自变量,同时去除不显著的自变量。需要对选取多元数据集并定义数学模型,然后进行参数估计,对估计出来的参数进行显著性检验,残差分析,异常点检测,最后确定回归方程进行模型预测。

1.建立多元线性回归模型
P<-lm(y~x1+x2+x3+x4,data=df)
2.打印参数估计的结果,可得到y和x关系的方程
 P
3.回归方程的显著性检验,同样是需要经过 T检验,F检验,和R^2相关性检验,用summary()函数来提取模型的计算结果:
summary(P)

http://blog.fens.me/r-multi-linear-regression/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容