推荐系统架构梳理（一）：特征工程

广告，搜索和推荐三大系统，可谓是现今各大互联网企业营收的三驾马车。这三个概念互相联系又各有区别。三者都致力于将优质的内容展现给用户，通过用户的点击、购买、观看等行为获取收益。
推荐系统的目的是通过搜集用户的个人偏好，个性化地为其推荐产品，这一过程就包括了两个部分：一是用户、商品、上下文等各类数据的收集、处理，二是根据用户来筛选不同商品的规则。前者指的是推荐系统中的数据流，后者则指的是推荐模型，图解如下：

图1 推荐系统架构

如图所示，用户的线上行为会通过埋点的方式记录下来，产生的日志数据一般通过Flink，Kafka等流计算处理，同其他业务数据一起生成离线数据。离线数据经过特征工程后产出训练样本，供模型使用。
从初始训练样本到最终的推荐商品，一般会经历两个步骤：召回(Recall)和排序(Rank).

召回
初始训练样本往往包含数以亿计的海量商品，召回的功能是使用高性能的模型从中筛选出一小部分（一般为几千个）优质的商品。
排序
排序则是在召回的小商品级中，使用更加复杂的模型算法来对商品进行打分并排序，排名最高的就被推荐给用户。

召回层和排序层是推荐算法的基本结构，也是现今各大互联网公司推荐系统所采用的主流框架。
下面会根据图1来展开介绍一下完整的推荐系统的各个部分。本篇文章主要聚焦于模型侧的起点——特征工程。

特征工程是推荐系统中关键的一环，是整个模型训练的基础。业界流传了一句话：“特征工程决定了机器学习效果的上限，而模型只是无限逼近这个上限”。好的特征工程可以有效地表示用户的兴趣，刻画用户心理，提高模型训练的效果。

1 特征分类

一般来说，推荐模型用到的特征主要分为以下几种

用户行为特征
用户行为特征主要包含用户在线产生的行为信息，如浏览，点击，购买，观看等等。由于推荐系统的目的就是“猜你喜欢”，而用户的兴趣变化几乎都包含在历史行为中，因此用户特征则是我们揣摩用户兴趣的重要信息，对推荐系统起着决定性的作用。在模型中，用户特征往往以序列的形式使用，如电商推荐系统中使用的最近点击/购买的商品序列，以及视频等信息流系统中使用的完播序列等。
用户属性特征
即用户的基本信息，如性别，年龄，地区，学历等等。推荐模型一般会根据这类特征隐形地将用户划分为各个群体，而不同群体的兴趣，习惯和购买力等都不同，因此需要为他们推荐不同类型的内容。
物品属性特征
这里的物品即推荐的内容，如电商推荐的商品，视频推荐的视频，资讯推荐的文章等。物品属性有很多种维度，如电商商品的类别，价格，品牌，评价等；视频的作者，标题，语言，年代等。在推荐系统传统的协同过滤算法中，就是将用户侧和物品侧的特征做交叉，找出交集的部分为用户推荐。推荐模型在学习了用户的兴趣之后，也会根据物品的不同属性来做推荐。
上下文特征
上下文特征是一些代表推荐场景状态的特征，如用户所在的地理位置，时间等。这些特征在特定的推荐场景下作用很大，如airbnb的推荐会强依赖于用户所处的地理位置，只为用户推荐附近的房源。
内容特征
内容特征是指需要经过NLP或CV进行处理后得到的特征，如图片内容，内容来源，标题分词等等。

2 特征处理

根据数据类型的不同，特征一般可分为类别特征和数值特征

类别特征(categorical feature)
大部分上下文特征都是典型的类别特征，这些类别特征一般会由一个很大的整数来表示为id的形式（如用户ID）。由于这些原始整数特征往往数量级很大，分布也很稀疏，一般对其进行one-hot编码，方便神经网络进行处理。但是推荐系统的特征往往都是高纬度稀疏特征，one-hot编码后的位数太多，因此引入了multi-hot编码来减少编码后的特征维度。近年来，NLP中的embedding方法越来越多地被应用到特征工程中，使用一个低维的实数向量来代表高维原始特征，可以有效地提取特征中的有效信息。
数值特征(numerical feature)
数值特征又分连续特征和离散特征。离散特征可以像类别特征一样通过one-hot encoding和embedding来处理，而连续性特征，如价格，时间，播放时长等，可以直接在模型中使用，也可以先进行合理的离散化来转化为离散型数值，再当做离散特征操作。

除了基础的类别和数值特征，推荐系统中还会用到交叉特征(cross feature)，即将两个或多个特征按照一定的方式（如笛卡尔积）进行组合，产出一个新的特征。有些原始特征单独使用时可能表达能力有限，但与其他特征组合起来就可以表示更深层次的含义。如xxxxx
但使用交叉特征时需要注意，如果两个序列特征做笛卡尔积会导致维度爆炸增加，因此一般序列特征之间不会做交叉。除了在特征端做交叉，还可以借助相应的模型结构来实现不同特征的关联，如FM，Wide & Deep等，这里可以参考我之前的文章从FM到DeepFM：浅谈推荐系统中的模型演化。

以上就是推荐系统中关于特征的简要总结，有何意见、建议欢迎留言指出。