在构建统计模型分析数据的过程中,选择一个最优模型用于解释变量关系是最理想的结果。在进行模型选择时,通常根据模型预测值与实际观察值的差异最小,说明模型较好的拟合了观察数据;或者使用R2或者AIC等统计学参数,选择备选模型中参数值最高或者最低的模型。
然而实际情况却是,在统计结果中,可能存在两个或者三个最优模型,几个模型的预测值和实际值差异都相似,AIC或者R2也相似,同时这些模型结果要不都很好,要不都很差。这时候不仅无法选择出最优模型,导致分析工作陷入一个无法选择的窘境,更糟糕的是很容易使得正在进行中的研究方向发生偏差。
常见的多变量分析最容易导致这个结果,构建一个全模型进行模型筛选,尤其是各种统计软件的发展都推动了模型选择的便捷性,尤其是在变量很多的时候,极大的减少了人工计算。然而,对于科研工作来说,这种便捷性是无意义的,是噩梦的开始,因为本质上这种模型筛选是完全依靠变量之间的排列组合进行无差别的模型筛选,更像一种建立假设的过程,而不是检验假设的过程,不符合科研中使用模型检验假设的主要目的。此外,另一个思路是逐步回归,已有很多研究案例表明,这个简单的模型筛选方法会产生非常不靠谱的最优模型。
我这里讨论的统计模型不同于机器学习模型,其重要价值就是在于反应变量之间的关系,检验一个具体的假设。所以,我们要寻找的最优模型应该是最正确的模型,正确模型并不一定是统计参数最显著的模型,而是最大限度的反映出变量关系的模型。
随着这个目的性的转变,正确模型应该产生自假设或者理论的模型比较。在一个具体的研究案例中,有理论认为专食性物种的食性受到本地的生物多样性影响更大,而广食性物种的食性受到气候影响更大。我们的研究对象是专食性较强的物种,为了检验该物种的食性是受到哪些因素影响,我们应该构建两个模型进行对比,第一个模型中本地生物多样性为自变量,第二个模型中环境因子为自变量。基于对比结果,比较哪个模型的解释度更高。如果两个模型都无法解释该物种食性的影响因素时,我们便可以考虑交互作用,构建第三个模型,并通过对比这三个模型,分析该物种食性的影响因素。而错误的做法是,构建一个全模型进行自动筛选,选择统计结果中的最优模型,基于最优模型的保留变量分析物种食性的因素,这个做法的错误原因是,数据没有通过模型和理论假设相结合,被浪费在武断的分析结果中,而这更是无意义的。