承接上文内容推荐:探索与信息茧房,本篇来聊一聊用户兴趣探索(Exploration)的事情。基于个体经验,一家之言仅供参考。
在推荐系统中,内容同用户之间存在一个点击预估分数(归一化到0.0-1.0),分数越高,代表点击概率越高。
将无Dislike历史 且 点击预估分数低的内容推荐给用户,即为一次探索过程。
为了知道用户喜欢什么新的领域,就势必要将他可能不喜欢的内容展示给他。
展示的不感兴趣内容变多了,点击率和时长就下来了,产品留存和广告收入也就差了。
正因如此,兴趣探索是一个尝试性的、有损的过程。
直观能够想到的探索方式,是完全随机:在没有任何先验条件下,将一些点击预估低的内容分发给用户,这种方式简单直接,但太过粗犷的过程无疑于瞎猫碰死耗子。
产品所做的,就是试图让这只机器猫不那么瞎。
整体上,探索就是一个P(Category|Condition)由高到低尝试的过程。即,在个体用户的已知条件基础上,基于统计获知这类用户最可能感兴趣的类目,按照概率高低依次推荐。
全新的用户至少有机型信息(App信息、LBS信息等),按照同机型用户最感兴趣的内容类目依次探索。极端Case如美图手机,用户主要是女性,可能对娱乐八卦、影视剧、美妆等类目兴趣程度更高。
点击了一些类目的用户,有了基础的类目偏好信息。除了在类目内重复由高概率到低概率探索子类目的过程外,还可以基于类目和类目间的转移概率关系进行类目级的探索。
如:喜欢电视剧的用户,子类目中概率由高到低是:国产剧、抗战剧、日韩剧等,那么子类目的探索就按照此顺序进行;喜欢电视剧的用户,有70%喜欢美食,那么类目间的探索就优先探索美食类目。
在这一过程中,类目的划分是一个主观经验的事情,故更多的依赖专家的系统设定。类目的识别则是一个人工标注-->机器学习的过程,有赖于机器识别分类的准确性。
在上面描述的过程里,有两个比较典型的坑值得注意。
一、高热内容的偏差。苹果发售、美国大选等高热内容,其热度已经足以跨越类别的典型受众,用户点击是不能够代表用户对科技或政治类目感兴趣的。
二、易反感内容的探索。上文中,我们一直提及的是用户喜欢类目A后喜欢类目B的概率,没有考虑的是喜欢类目A后厌恶类目B的概率。
比如蛇、动物厮杀、暴饮暴食等内容属于易反感内容。不喜欢体育的用户看到NBA顶多是划过去,不喜欢蛇的用户看到蛇可能就直接卸载了。对于易反感内容的探索要更加审慎和克制。
除了直接尝试分发用户未知兴趣的内容外,产品层也可以设计一些非阻断式的用户交互,让用户可以选择兴趣点。只是依据经验而言,用户往往更能准确的标到不要什么,而不容易表达要什么,故效率并不是太高。
针对新老用户设计不同的兴趣探索频次,对于低频用户以更强的产品交互诱导,尽可能发掘可参考的用户信息等等,这些都是能够提升兴趣探索效率的思路。
产品多想一点,损失就能小一点:一只半瞎的猫,终归比瞎猫有更好的收获。