什么叫做“好”?
如何评价所选的模型好。这是一个相对的概念。因此只要是看参照物和指标。
理解这个问题之前,先要回顾一下,直觉意义上线性回归的本质,主要是希望通过模型,来尽可能的逼近、描述或解释真实数据。那具体是要逼近数据的什么属性呢?var,方差。
为什么方差这么重要?
一组数据,基本特性至少有两个,一个是位置,一个是离散型。位置好理解,即均值所代表的属性,数量上的大小,空间上的上下左右前后的位置概念。离散型,则是高矮胖瘦的概念。
为什么我们需要用离散性,而不是位置来当作重要属性用于逼近?这没有复杂的原因,可能取决于我们的目的。我们现在希望描述的是数据的高矮胖瘦,而不是了解数据在哪。就好像,我们有一个疑犯,我们希望有人提供他的位置信息,也希望有人提供他的外形特征。后者是我们关心的问题,起码是在回归这个问题上关心的问题,而并不是说前者就不重要。离散性,直觉层面其实就是我们说的,物体的高矮胖瘦以及一切影响我们对他辨识的特性,也就是物体在空间中不考虑位置的情形下的主要特征。这一点非常有意思,如果再联想一下,就能想到为什么所谓的principle component analysis会有意义,因为它也是关注到离散性是物体的核心属性,而希望从完整的维度信息出发,逐步删减次要维度以达到降维/简化的目的。相比而言,回归所做的,像是从单维度出发,逐步增加维度以提高解释性。蛮有意思。
下条再说参照物和指标…