好的选题 + 热门的算法 = 成功的paper。
好的选题在一个成功的research中所占的比重得有一半。
下面讲两个有意思的个推领域的课题(或者说是同一课题下的两个子课题)。
个推(个性化推荐)在web互联网时代就很有价值的研究课题,比如亚马逊就大量运用此类算法提升商品成交。到了mobile互联网时代,随着屏幕的缩小和输入字符的不便利,个推作为一种更加智能、更主动push信息给用户的利器得到了更大的重视和更为成功的应用,比如今日头条就使用个推算法来为用户提供丰富的、即时的、个性化的新闻浏览体验。
个推算法的传统实现是采用content-based, item-based, 或user-based的方法。无论哪种方法,都需要人工定义feature和model,训练参数,得到推荐模型。
更硬的方法是直接用主观先验知识(猜测)编码出模型,比如我们曾实现过的基于关键词的文章推荐算法,其本质是用户行为驱动的随机梯度下降优化,优化目标是CTR(Click Throught Rate,点击率)。
但是重新审视这个问题,为什么不能让计算机自动生成推荐模型呢?
今天和Sean讨论这个话题,定义了如下两个课题:
课题一、使用生成对抗网络自动生成推荐模型。
Generator的目标是文章和用户的相关性要高。
Discriminator的目标是相似文章的聚集度要低。
这是一个2N维空间(假设文章和用户的top标签数均为N)的GAN问题。
课题二、优化文章和用户打标,以达到最佳点击率(CTR)。
这是一个2N维空间中以CTR为反馈力调整用户和文章位置的问题。
标签,即被标记到用户或文章上的关键词。一个关键词代表了一个维度。
这样定义个推问题还真算得上是一个脑洞清奇的思路。这样定义的好处是,经过拆分,课题一就变成了一个先验可解(指在未获得用户行为数据时)的问题了,而且从人工定义特征和训练模型变成人工定义规则、算法生成模型。
接下来,我们要对上述思路进行实践验证和进一步的思辩。
P.S. 傍晚和Jacky简单交流了一下这个问题,Jacky提出了一个很好的质疑,对于课题一,Generator的输入不是也需要真实的用户行为数据吗?
我直觉上是可以用随机噪声来模拟,因为最终生成模型要用于给全体用户进行推荐,那么全体用户的平均行为和随机噪声(白噪声)应该可以等价。当然,这也构成了一个关键假设。