内容摘要:理解如何选择合适的模型去解决问题,明白参数设置的内涵和意义,是灵活应用GEOIST软件的关键。贝叶斯原理和ABIC值其含义是什么?今天我们从Occam准则入手,来谈谈如何看待这些好像越搞越复杂的平差方法。
1、模型与参数
对实际重力数据处理中出现的新问题,需要新的理论和模型支撑,但是当有多个模型或算法可供选择的时候,如何去合理使用方法和理解其中参数的意义呢?
前面为了解决非线性漂移、仪器格值和绝对测量不同步等问题,我们在平差方程中,引入了多个待确定参数。但是这种做法无疑将模型变的越来越复杂。
通过贝叶斯原理让我们从引入先验信息出发,可以通过数据来更合理地确定模型参数。传统的目标函数最小化问题,变成了后验概率最大化的问题,通过ABIC值小化来选择模型参数。这个最优化途径,可以让众多模型参数的调节过程,更容易自动化实现。
但是,我们也必须要说的是,模型参数的设置必须是合理的,过多的参数可以让拟合残差更小,但是直接后果是让模型更缺乏通用性。在机器学习领域,过多的模型参数可能很好地拟合数据,但是模型泛化能力会被降低。
因此,我们再回顾一下GEOIST中支持重力平差的几种算法中的模型和参数。
2、Occam's Razor原理
在很多地球物理反演中我们都看到过Occam这个单词。
奥卡姆剃刀定律是由14世纪英格兰的逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出。这个原理称为“如无必要,勿增实体”,即“简单有效原理”。
对于科学家,奥卡姆剃刀原理还有一种表述形式:如果你有两个或多个原理,它们都能解释观测到的事实,那么你应该使用简单或可证伪的那个,直到发现更多的证据。对于现象最简单的解释往往比较复杂的解释更正确,在选择算法或建模的过程中,记住:让事情保持简单!。
因此,对于时变重力平差算法的选择,也是同样适用这个道理。这个原理也常称为吝啬定律(Law of parsimony),或者称为朴素原则。
3、实战原则
在实际的平差过程中,模型参数越多肯定可以将实际数据拟合的越好。但是,复杂模型往往会使数据过度解释。
当引入更复杂模型来处理数据的时候,一定要非常小心,引入新参数就意味着新的不确定性。能用简单模型解释,绝不能用更复杂的模型。
另外,通过独立的检验方法,可以测试你选择方法的合理性。
比如在重力平差问题中,可以先用线性平差方法进行试算,通过残差分析和绝对重力检验,看看结果是否符合预期。
如果出现明显的非线性漂移问题,且测网中部分绝对重力点抽样验证时出现较大偏差,这时候再考虑用更复杂的模型。
对于多台仪器测量,当怀疑某台仪器格值误差较大时,可以分别用优化前后数据进行对比,看看残差特征那个更符合模型假设。
而对于有些测段可能无论如何也拟合不好,那么可以将其看作outlier,先舍掉再计算。
一句话总结:时变微重力数据处理有时候需要经验,相同的软件/程序,不同的使用者往往处理结果会存在较大差异。有经验的处理人员,对测网情况和仪器性能有基本的了解,这样在选择平差方法和参数估计的时候,可能更适合实际情况。一个好的平差结果,绝对不是残差越小越好,也不是模型参数越多越好,只有能在第三方独立检验中通过(对于流动重力而言就是测网中冗余的绝对重力测量值)才是最合理的。