广告,搜索和推荐三大系统,可谓是现今各大互联网企业营收的三驾马车。这三个概念互相联系又各有区别。三者都致力于将优质的内容展现给用户,通过用户的点击、购买、观看等行为获取收益。
推荐系统的目的是通过搜集用户的个人偏好,个性化地为其推荐产品,这一过程就包括了两个部分:一是用户、商品、上下文等各类数据的收集、处理,二是根据用户来筛选不同商品的规则。前者指的是推荐系统中的数据流,后者则指的是推荐模型,图解如下:
如图所示,用户的线上行为会通过埋点的方式记录下来,产生的日志数据一般通过Flink,Kafka等流计算处理,同其他业务数据一起生成离线数据。离线数据经过特征工程后产出训练样本,供模型使用。
从初始训练样本到最终的推荐商品,一般会经历两个步骤:召回(Recall)和排序(Rank).
- 召回
初始训练样本往往包含数以亿计的海量商品,召回的功能是使用高性能的模型从中筛选出一小部分(一般为几千个)优质的商品。 - 排序
排序则是在召回的小商品级中,使用更加复杂的模型算法来对商品进行打分并排序,排名最高的就被推荐给用户。
召回层和排序层是推荐算法的基本结构,也是现今各大互联网公司推荐系统所采用的主流框架。
下面会根据图1来展开介绍一下完整的推荐系统的各个部分。本篇文章主要聚焦于模型侧的起点——特征工程。
特征工程是推荐系统中关键的一环,是整个模型训练的基础。业界流传了一句话:“特征工程决定了机器学习效果的上限,而模型只是无限逼近这个上限”。好的特征工程可以有效地表示用户的兴趣,刻画用户心理,提高模型训练的效果。
1 特征分类
一般来说,推荐模型用到的特征主要分为以下几种
- 用户行为特征
用户行为特征主要包含用户在线产生的行为信息,如浏览,点击,购买,观看等等。由于推荐系统的目的就是“猜你喜欢”,而用户的兴趣变化几乎都包含在历史行为中,因此用户特征则是我们揣摩用户兴趣的重要信息,对推荐系统起着决定性的作用。在模型中,用户特征往往以序列的形式使用,如电商推荐系统中使用的最近点击/购买的商品序列,以及视频等信息流系统中使用的完播序列等。 - 用户属性特征
即用户的基本信息,如性别,年龄,地区,学历等等。推荐模型一般会根据这类特征隐形地将用户划分为各个群体,而不同群体的兴趣,习惯和购买力等都不同,因此需要为他们推荐不同类型的内容。 - 物品属性特征
这里的物品即推荐的内容,如电商推荐的商品,视频推荐的视频,资讯推荐的文章等。物品属性有很多种维度,如电商商品的类别,价格,品牌,评价等;视频的作者,标题,语言,年代等。在推荐系统传统的协同过滤算法中,就是将用户侧和物品侧的特征做交叉,找出交集的部分为用户推荐。推荐模型在学习了用户的兴趣之后,也会根据物品的不同属性来做推荐。 - 上下文特征
上下文特征是一些代表推荐场景状态的特征,如用户所在的地理位置,时间等。这些特征在特定的推荐场景下作用很大,如airbnb的推荐会强依赖于用户所处的地理位置,只为用户推荐附近的房源。 - 内容特征
内容特征是指需要经过NLP或CV进行处理后得到的特征,如图片内容,内容来源,标题分词等等。
2 特征处理
根据数据类型的不同,特征一般可分为类别特征和数值特征
- 类别特征(categorical feature)
大部分上下文特征都是典型的类别特征,这些类别特征一般会由一个很大的整数来表示为id的形式(如用户ID)。由于这些原始整数特征往往数量级很大,分布也很稀疏,一般对其进行one-hot编码,方便神经网络进行处理。但是推荐系统的特征往往都是高纬度稀疏特征,one-hot编码后的位数太多,因此引入了multi-hot编码来减少编码后的特征维度。近年来,NLP中的embedding方法越来越多地被应用到特征工程中,使用一个低维的实数向量来代表高维原始特征,可以有效地提取特征中的有效信息。 - 数值特征(numerical feature)
数值特征又分连续特征和离散特征。离散特征可以像类别特征一样通过one-hot encoding和embedding来处理,而连续性特征,如价格,时间,播放时长等,可以直接在模型中使用,也可以先进行合理的离散化来转化为离散型数值,再当做离散特征操作。
除了基础的类别和数值特征,推荐系统中还会用到交叉特征(cross feature),即将两个或多个特征按照一定的方式(如笛卡尔积)进行组合,产出一个新的特征。有些原始特征单独使用时可能表达能力有限,但与其他特征组合起来就可以表示更深层次的含义。如xxxxx
但使用交叉特征时需要注意,如果两个序列特征做笛卡尔积会导致维度爆炸增加,因此一般序列特征之间不会做交叉。除了在特征端做交叉,还可以借助相应的模型结构来实现不同特征的关联,如FM,Wide & Deep等,这里可以参考我之前的文章从FM到DeepFM:浅谈推荐系统中的模型演化。
以上就是推荐系统中关于特征的简要总结,有何意见、建议欢迎留言指出。