文章名称
核心要点
文章旨在解决评分矩阵中的selection bias的问题,为了能够从理论上保证倾向性得分矩阵估计的比较准确,作者提出利用1-bit matrix补全的方法[2]来倾向性得分矩阵,并进一步估计优化一个nuclear norm运输下的IPS-MSE损失函数,得到对评分(用户偏好)的无偏估计结果(相对于selection bias而言)。
方法细节
问题引入
在推荐等场景中,由于存在各种偏差,如selection bias,导致评分或转化矩阵的数据缺失是非随机的。如果直接以这样的数据作为学习目标,可能导致模型的预测结果有偏。现有很多方法利用IPS进行模型纠偏(纠正数据偏差)。然而,这些方法采用的模型通常比较复杂,并且有较强的假设。
假设我们观测到的评分矩阵为,其中表示缺失。由于数据的缺失并非随机的,因此如果我们能够很好的估计(展示)观测概率矩阵(也就是所谓的propensity score 矩阵),可以比较好的消除MNAR矩阵不全方法的偏差。因此,作者专注于估计倾向得分矩阵,并研究的误差是如何影响下游矩阵完成的准确性的。
作者通过观察发现,倾向性得分构成的矩阵,通常具有低核范数的性质。即便只观测到部分数据,只要转化或评分矩阵有足够的行、列存在观测到的数据,就可以对倾向性得分矩阵进行还原。两个常用数据集的结果如下图所示,两个图的左侧为原始数据集的缺失分布(深色为缺失),右侧为利用谱双聚类[1]进行换算后的结果(行列按照这个方法的结果重新调换了)。可以看到明显的块结构。由于具有这种低核范数(具有低秩或者行列聚簇结构)的性质,作者表示,可以从观测到的数据缺失矩阵(其中1表示该用户-物品元组的评分缺失)中还原propensity socre矩阵。
作者使用1-bit矩阵补全算法[2],从缺失矩阵中还原倾向得分矩阵。该算法求解核范数约束下的最大似然估计的凸优化问题,虽然原算法是用来进行矩阵补全的,但是作者利用这个算法对全知矩阵进行去噪声,以此还原倾向得分矩阵。进而利用来对MNAR的评分矩阵进行偏差纠正。
具体做法
如上所述,,是有缺失的,观测评分矩阵。我们定义是没有缺失的评分矩阵,但是是有噪声的,噪声为(这个噪声代表了一些其他的偏差),而表示用户的真实偏好。矩阵补全算法的目的通过一些结果方面的假设(假设包括low nuclear norm,low rank,a latent model等),来正确的估计矩阵中元素的值。
如果我们能够得到矩阵(我们全知,oracle),那么我们可以通过最小化损失的方式求得在MSE下的估计值。MSE的估计方法如下图所示。
然而,通常我们只能得到观测矩阵,因此只能使用通过经验风险最小化的方式来优化基于观测数据的MSE损失,对进行估计,估计方式如下图所示。
倾向性得分矩阵表示了到的数据缺失过程,其中的各个元素是独立的,但取值可能不相同的,表示了selection bias是独立不同的。如果这些元素的取值是相同的,基于观测的经验风险最小化得到的估计值,将是对整体优化得到的估计值的一个无偏估计量。然而,当中各元素是独立的独立时,估计的结果将是有偏差的。我们可以利用IPS的方法,从基于因果推断的角度对观测估计量进行纠正,该方法可以被证明无偏的,估计方法如下图所示。
任何优化MSE loss的方法都可以被转换为IPS纠正后的,用于优化IPS-MSE损失的方法。结合1)IPS-MSE;2)nuclear norm正则下的MSE,我们可以得到如下图所示的损失函数,其中。表示nuclear norm,表示评分或者用户偏好矩阵。
然而,IPS方法始终需要我们知道。如上所述,我们利用[2]提出的带nuclear norm约束的最大似然估计方法,从矩阵(如上所述的确实矩阵)中还原。具体方法是,定义,其中是sigmoid函数(当然我们可以指定其他的函数),是参数据矩阵,满足如下图所示的核范数和最大范数约束。
整个模型参数求解过程可以被形式化为,1)利用约束的最大似然估计(如下图所示),得到参数矩阵的估计值(作者提到如果是logistic函数,可以利用投影梯度下降进行凸优化求解);2)。
到这里模型的大致思路和构建方法、求解方法就讲完了,关于 1-bit matrix completion 的方法,细节请参见[2]。本文的实际亮点是这样的做法能够从理论上保证估计的比较好,这里偷个懒,有时间在追加一下理论证明的过程。
心得体会
噪声
个人认为,propensity score矩阵中的每一个概率代表了selection bias,而系统中往往还存在其他偏差。例如,曝光偏差,流行度偏差等等,可用噪声矩阵来代表。当然,这里要看我们有没有把里的数据看作是随机变量,如果不是,那么还代表了偏好随机变量的随机性。
SNIPS
文中作者提到,虽然SNIPS的归一化常数可以被融入到正则项的超参数中,但是利用SNIPS可以减少结果的不稳定性(对曝光样本数量的敏感度),以及提升模型的效果。因此,作者仍然采用SNIPS而不是IPS来进行模型的优化求解。其实,任何场景都可以优先考虑使用SNIPS,实际效果会好比较多。
数据特性局限性?
不得不说,这个方法还是有数据特性限制的,如果数据不存在明显的low nuclear norm的特点,也无法顺利使用该方法。