模型的目标是提供数据集的简单低维摘要。 在本书的上下文中,我们将使用模型将数据划分为模式和残差。
关于残差部分:https://www.jianshu.com/p/c9022affd8b9
关于一元线性方程拟合:http://www.chinacpda.com/jishu/10692.html
关于多元线性方程拟合:https://www.jianshu.com/p/5ae8abee63aa
模拟数据集sim1
> head(sim1)
# A tibble: 6 x 2
x y
<int> <dbl>
1 1 4.20
2 1 7.51
3 1 2.13
4 2 8.99
5 2 10.2
6 2 11.3
严谨版:这个数据存在一种模式,我们要使用模型来捕获这种模式
通俗版:这数咋都集中在一条斜线附近啊,看着怎么那么像线性关系!那就用线性模型来检验一下!
coef(lm(y~x,data=sim1))
ggplot(sim1,aes(x,y))+geom_point()+geom_abline(intercept =4.220822,slope = 2.05)
y=ax+b a代表直线斜率 b代表直线截距 拟合就是找到一个残差最小的直线
书中介绍了一种非常普遍的方法,也是讲述的是找到最佳模型的过程。
阅读在后边预测的部分其实你就知道了 这条黑线是预测值所连接的一条直线,那么黑点到达黑线之间的距离就叫做残差。可以使用残差图来表示