推荐系统架构梳理(一):特征工程

广告,搜索和推荐三大系统,可谓是现今各大互联网企业营收的三驾马车。这三个概念互相联系又各有区别。三者都致力于将优质的内容展现给用户,通过用户的点击、购买、观看等行为获取收益。
推荐系统的目的是通过搜集用户的个人偏好,个性化地为其推荐产品,这一过程就包括了两个部分:一是用户、商品、上下文等各类数据的收集、处理,二是根据用户来筛选不同商品的规则。前者指的是推荐系统中的数据流,后者则指的是推荐模型,图解如下:


图1 推荐系统架构

如图所示,用户的线上行为会通过埋点的方式记录下来,产生的日志数据一般通过Flink,Kafka等流计算处理,同其他业务数据一起生成离线数据。离线数据经过特征工程后产出训练样本,供模型使用。
从初始训练样本到最终的推荐商品,一般会经历两个步骤:召回(Recall)和排序(Rank).

  • 召回
    初始训练样本往往包含数以亿计的海量商品,召回的功能是使用高性能的模型从中筛选出一小部分(一般为几千个)优质的商品。
  • 排序
    排序则是在召回的小商品级中,使用更加复杂的模型算法来对商品进行打分并排序,排名最高的就被推荐给用户。

召回层和排序层是推荐算法的基本结构,也是现今各大互联网公司推荐系统所采用的主流框架。
下面会根据图1来展开介绍一下完整的推荐系统的各个部分。本篇文章主要聚焦于模型侧的起点——特征工程。

特征工程是推荐系统中关键的一环,是整个模型训练的基础。业界流传了一句话:“特征工程决定了机器学习效果的上限,而模型只是无限逼近这个上限”。好的特征工程可以有效地表示用户的兴趣,刻画用户心理,提高模型训练的效果。

1 特征分类

一般来说,推荐模型用到的特征主要分为以下几种

  • 用户行为特征
    用户行为特征主要包含用户在线产生的行为信息,如浏览,点击,购买,观看等等。由于推荐系统的目的就是“猜你喜欢”,而用户的兴趣变化几乎都包含在历史行为中,因此用户特征则是我们揣摩用户兴趣的重要信息,对推荐系统起着决定性的作用。在模型中,用户特征往往以序列的形式使用,如电商推荐系统中使用的最近点击/购买的商品序列,以及视频等信息流系统中使用的完播序列等。
  • 用户属性特征
    即用户的基本信息,如性别,年龄,地区,学历等等。推荐模型一般会根据这类特征隐形地将用户划分为各个群体,而不同群体的兴趣,习惯和购买力等都不同,因此需要为他们推荐不同类型的内容。
  • 物品属性特征
    这里的物品即推荐的内容,如电商推荐的商品,视频推荐的视频,资讯推荐的文章等。物品属性有很多种维度,如电商商品的类别,价格,品牌,评价等;视频的作者,标题,语言,年代等。在推荐系统传统的协同过滤算法中,就是将用户侧和物品侧的特征做交叉,找出交集的部分为用户推荐。推荐模型在学习了用户的兴趣之后,也会根据物品的不同属性来做推荐。
  • 上下文特征
    上下文特征是一些代表推荐场景状态的特征,如用户所在的地理位置,时间等。这些特征在特定的推荐场景下作用很大,如airbnb的推荐会强依赖于用户所处的地理位置,只为用户推荐附近的房源。
  • 内容特征
    内容特征是指需要经过NLP或CV进行处理后得到的特征,如图片内容,内容来源,标题分词等等。

2 特征处理

根据数据类型的不同,特征一般可分为类别特征和数值特征

  • 类别特征(categorical feature)
    大部分上下文特征都是典型的类别特征,这些类别特征一般会由一个很大的整数来表示为id的形式(如用户ID)。由于这些原始整数特征往往数量级很大,分布也很稀疏,一般对其进行one-hot编码,方便神经网络进行处理。但是推荐系统的特征往往都是高纬度稀疏特征,one-hot编码后的位数太多,因此引入了multi-hot编码来减少编码后的特征维度。近年来,NLP中的embedding方法越来越多地被应用到特征工程中,使用一个低维的实数向量来代表高维原始特征,可以有效地提取特征中的有效信息。
  • 数值特征(numerical feature)
    数值特征又分连续特征和离散特征。离散特征可以像类别特征一样通过one-hot encoding和embedding来处理,而连续性特征,如价格,时间,播放时长等,可以直接在模型中使用,也可以先进行合理的离散化来转化为离散型数值,再当做离散特征操作。

除了基础的类别和数值特征,推荐系统中还会用到交叉特征(cross feature),即将两个或多个特征按照一定的方式(如笛卡尔积)进行组合,产出一个新的特征。有些原始特征单独使用时可能表达能力有限,但与其他特征组合起来就可以表示更深层次的含义。如xxxxx
但使用交叉特征时需要注意,如果两个序列特征做笛卡尔积会导致维度爆炸增加,因此一般序列特征之间不会做交叉。除了在特征端做交叉,还可以借助相应的模型结构来实现不同特征的关联,如FM,Wide & Deep等,这里可以参考我之前的文章从FM到DeepFM:浅谈推荐系统中的模型演化

以上就是推荐系统中关于特征的简要总结,有何意见、建议欢迎留言指出。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342