模型的评估分线上评估与线下评估,如何来对模型进行线上评估与线下评估呢?它们之间又有什么关系
首先怎么区别它们:
首先弄清楚它们的目标,离线评估是从算法层面去评估模型性能的,方法一般是依模型类别而定;线上评估是从收益层面评估模型好坏的,它也是模型评估的最后一个环节。
分别有哪些方法:
线上评估一般也就是通过AB测试的方式来做模型选择,再加上calibration,根据实际流量的反馈数据 ,来对模型做校验。
线下评估方法则更具有多样性,不同的模型有不同的评估方法。分类器常用的评估方法有accuracy auc precision recall 等,排序模型有MAP NDCG等。
线上评估方法与线下评估方法是否具有正相关性或者一致性?,即优化线下模型能直接影响线上的收益呢?
这个就需要工程人员根据对业务的理解设计出另外一种合理的评估方法,让它来衔接线下与线上,反应线下模型对线上收益的影响。
就排序模型来说,对于线上来说,我们通过转化率或者点击率,即收益,来判断模型的好坏;而对于线下来说,算法的目标是把相关性强的item放到前面位置,线下我们通过MAP值或者NDCG值来评估模型的性能。但是它们是否具有一致性呢,也就是说线上MAP值的提高是否可以提高线上收益,因此我们需要设计出另外一个评估方法,平均成交位置,即点击或者转化(成交)的item所在位置的平均值。而这个评估方法的出发点在,相关性的强的越靠前,平均成单位置越小,越容易转化,这也是一种普遍认可的比较直观的观点,当然这个观点能否经得住考验,只有将模型放到线上看了
所以,通常我们所说的设计一套评估方案,其实就是设计这么一个中间评估方法来衔接线上与经下,如果能够保证它们的一致性,那么这套评估方法站得住脚。