今年上半年,关于推荐算法监管的两项重大措施逐个落地:一月份国家网信办等四部门近日联合发布《互联网信息服务算法推荐管理规定》,该规定于3月1日起正式实施;四月份,网信办牵头开展“清朗·2022年算法综合治理”专项行动。
对于推荐算法的强力监管,源于其巨大的能量以及由此带来的各种问题,包括诱导过度消费、大数据杀熟、诱导沉迷、过度收集个人信息等等。但即使如此,我们也无法对其弃如敝履,因为推荐算法的使用,不是一种锦上添花,而是当下信息数据大井喷情况下的一个有效应对方案。
可能有些朋友会注意到,推荐系统已经嵌入我们生活的很多方面了:社交平台、新闻app、外卖电商平台、视频音乐软件、外卖骑手的派单平台等等都不同程度地使用了推荐系统,而这些都是轻易能有上亿用户的平台。
大量的用户代表了大量的信息和需求,如何尽可能地服务好每个用户,满足千人千面的需求,最终让用户更久地停留在自家平台上并转化为其他收益(广告、消费等),是大部分app厂家面临的问题。
但除了这些,还有一个更基本的问题:如何在海量的信息中挑选一小部分放进用户有限的手机屏幕内?这个挑选的标准是什么?这种信息过载和信息筛选问题同样也是用户所面临的。
推荐算法本质上就是这个问题的一个解决手段。
推荐系统
一种信息过滤系统,通过学习和预测用户的偏好,向用户推荐其可能感兴趣的内容。一般来说,推荐系统包括四种推荐方式:
1.热门推荐:就是热门排行榜的概念,推荐当前最热门的几项。
2.人工推荐:人工干预的推荐内容。如一些热点赛事如世界杯、nba总决赛等就需要人工加入推荐列表。
3.相关推荐:推荐与当前阅读内容相关的另一个内容。
4.个性化推荐:针对用户本身做出的个性化内容推荐。
其他推荐方式都比较好理解,个性化推荐涉及的技术和算法则比较复杂,而做到千人千面、又引起诸多问题的,大多也是个性化推荐算法。那么个性化推荐算法到底是怎么做到个性化推荐的?一句轻飘飘的“读取用户的隐私”可远远不足以概括这一技术。
一、关于个性化推荐算法
“推荐算法解决的就是信息匹配的问题”,个性化推荐算法根据用户的具体需求和喜好,找到符合要求的内容进行推荐,这有点像销售的思路。不同的是,个性化推荐算法面对的是上百上千万的用户和动辄以亿计数的数据内容,而且,电脑不比人脑,我们可以快速对某个人或某个商品有一个大概印象,电脑只能用一个个细分的小标签来标记人或物,由此产生各种数据经过各种组合计算后,匹配出哪种物品可能会受什么人喜好。
(一)前因:推荐算法究竟需要哪些数据?
“今晚吃什么?”
“随便,都行。”
类似对话在日常生活中再常见不过了,它反映的是人们对自己需求和喜好的模糊,因此很难直接从用户处得知具体的需要和喜好(评分机制可以达到这个目标),于是就需要用到用户其他的一些信息和行为来做推理判断。
有了人的数据还不够,还需要推荐物的。对推荐物的标记需要根据问题进行设计,这一过程可以使用机器学习来进行。
根据推荐机制的特点,推荐算法所需的数据可以分为两种:静态数据和动态数据。静态数据指的是用户或物品原本就有的特点,如人口统计数据(性别、年龄、地区等)、地理定位、物品类别、社交信息(好友列表)等等。动态数据则是在交互产生的数据,用户会因该交互产生数据,物品也会因交互产生数据,如浏览历史、对某个内容的点赞、转发、购买、评论等。
(二)后果:如何把两种数据连接起来
这一过程可视为“对症下药”,但症状和药物应该怎么联系起来,这是推荐算法的关键。当前的推荐系统可以分为三种:基于内容的推荐系统、基于协同过滤的推荐系统和融合以上两种的混合推荐系统。
1.基于内容的推荐系统
这里的内容有两种,一是用户画像,一是物品特征。
基于用户的推荐,指的是为用户推荐与ta有相似静态数据的用户所喜欢的内容,用一定的排序或进一步筛选的算法确定最终推给用户的内容。如通过统计发现大部分18-30岁的年轻人喜欢喝奶茶,因此建立一个“年龄-饮料”的模型,当阿易的输入年龄为20岁时,便会为ta推送奶茶。
基于内容的推荐则是根据用户当前所浏览的内容,找出与其静态数据相似或相关的其他内容进行推荐。如阿易刚刚点开了炒饭链接,基于炒饭以“米饭”为主食的特征,用主食算法为ta推荐同样以米饭为主食的另一个菜品。
2.基于协同过滤的推荐系统
协同过滤
对目标用户以及和目标用户相似的用户历史行为进行分析,从而根据用户的偏好为用户推荐物品。
简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的记录也相当重要。
与基于内容的推荐系统相比,协同过滤在用户交互行为中所需要的是两种数据:一是基于用户在交互中的联系,二是基于物品在交互中的联系。
基于用户在交互中的联系指的是,将有相似动态数据的用户联系起来,即认为他们的偏好较为一致,然后把某用户喜欢的内容推荐给ta的相似用户。如用户1和阿易一样都喜欢辣椒炒肉和炒饭,则可以认为两个用户是相似的,因此将用户1 喜欢的汉堡也推荐给阿易。
基于物品在交互中的联系指的是,通过物品间受欢迎人群的相似度,将不同的物品联系起来,以此作为依据为用户推荐新物品。如辣椒炒肉和汉堡都同时被用户1和用户2喜欢,则认为辣椒炒肉和汉堡是相似的,因此汉堡会被推荐给喜欢辣椒炒肉的阿易(即使常识中辣椒炒肉和汉堡并不相似)。
(三)技术上存在的问题
上面所述只是推荐算法的简单介绍,在具体实现过程涉及的技术是多样的,如深度学习、矩阵分解、记忆网络等等。不同算法的具体架设计也不一样,数据类型的不一致也会导致算法的不同。而不同算法解决和产生的问题也各有不同,当前较为经典的问题有如下几个:
1.冷启动问题
在最开始没有多少用户或新用户刚加入的时候,依靠各种历史信息来做推荐依据的算法很容易抓瞎,因为这时候并没有这样的数据可以使用,这就是冷启动问题。
为了解决这个问题,一些算法引入了辅助数据(人口统计学数据、好友列表数据、个人兴趣调查结果数据)来做最初的粗略推荐,但通常精度都不高,无法准确反映用户的偏好。
2.在线实时训练问题
现有的推荐系统使用的算法一般都需要离线训练,无法有效处理实时的数据,而用户的需求和偏好通常不是一成不变的,因此个性化的推荐有一定的时限性。
3.可解释性问题
可解释性也许是用户最关心的问题,这涉及到用户对于整个推荐系统的理解和信任。但许多算法是由机器做识别和计算后训练出一个模型,不是人脑的可解释推理模式,只能告诉人们结果如何,很难解释为什么要这样推荐,也即人们常说的“算法黑箱”,所以不少推荐算法可解释性很低。
二、脑电数据如何应用到推荐算法中
从推荐系统的大致流程我们不难推测出,不管是中间的连接方法,还是最后的推荐逻辑,要想达到精确还需要一个准确的数据源。主流推荐系统使用的偏好判断数据实际上大多是隐性的,也即是通过行为或好友间的相似性这种表层的反应来推知内在的偏好,这是一种间接的方式。
随着脑科学的发展,也有不少研究者尝试使用脑电数据来作为推荐系统的数据输入,直接获取用户的真实感受,以此提高推荐的准确度。下面举几个应用的例子:
(一)识别偏好推荐新闻
有研究者设计一个基于脑波分析的文章推荐系统:首先建立一个通过脑波识别兴趣偏好的模型,将脑波信号分为有兴趣和没兴趣两种,然后根据这个识别结果过滤掉用户推荐文章,结果发现这种方式比传统的内容推荐更有效。
另外还有一个研究团队发现,基于脑电的协同过滤也可以实现有效推荐,即根据一个人的大脑反应与其他人的匹配程度,来预测这个人可能会发现哪些有趣或吸引人的事物,这种方法可以让我们更加了解自己。
(二)识别满意度推荐商品
通过分析用户查看图像时的脑电波信号得到用户的满意度。然后基于待查看图像和用户对待查看图像的满意度训练第一生成对抗网络,并生成推荐图像,以实现根据用户的喜好推荐衣物,满足用户根据自身的需求选取或定制衣物的需求。
(三)识别情绪或放松状态推荐音乐
有研究者通过将脑电信号进行小波分解提取四种波段特征,以此判断用户的情绪,并为其推荐对应情绪的音乐,这一方式可为婴幼儿音乐培养、睡眠治疗和音乐搜索带来新的途径。
另外一种方法是识别大脑的放松程度,与用户的历史评价信息进行加权融合,以此预测用户对某音乐的偏好分数,最后实现音乐推荐。
(四)识别睡眠脑波状态推荐助眠音乐
一直以来,推荐算法都是根据个体在有意识的状态下所产生的行为来实现的,没有交互行为的睡眠无意识状态还是一个推荐空白,因此脑电和推荐算法还有一个重要的应用方向:助眠音乐推荐。
在睡眠过程进行脑波识别,根据用户无感知的大脑对于外部刺激的反应,做出助眠音乐的适配推荐,确保声音刺激抑制神经活动的有效性。同时,在监测到神经活动减弱(也即意识逐渐消失)后,自动将音量逐渐调小直至关掉,避免在用户进入浅睡后受到外部声音刺激的影响。
在未来,脑电与推荐算法的结合很有可能使科技造福人类往前再迈一步,除了帮助我们高效地进行各种日常事务,为我们找到可能感兴趣的新东西,解决一些当前难以解决的问题,还能让我们更加了解自己甚至开发自己。
然而,回到一开始的问题,在只拿到个人外部信息的情况下,推荐算法就已经产生了一些问题,如果加上更直观的脑电信号,这对隐私数据保护和算法伦理来说是一个更大的挑战。
但这并不意味着我们需要就此止步,而应该努力将技术引向向善的方向。除了官方监管,对于普通用户来说,平台需要提高算法机制的透明度,也即能有一个渠道了解所看到的内容是如何被推荐出来的(可解释性),对推荐系统有一个基本的认知与判断。一些技术研发者也在不断探索更加完善的技术,规避隐私泄漏等危害,用魔法打败魔法。
关注我,下篇,我们一起探讨数据保护方向的一个魔法:隐私计算。
参考资料:
[1]赵俊逸,庄福振,敖翔,何清,蒋慧琴,马岭.协同过滤推荐系统综述[J].信息安全学报,2021,6(05)
:17-34.DOI:10.19363/J.cnki.cn10-1380/tn.2021.09.02.
[2]赵岩,刘宏伟.推荐系统综述[J].智能计算机与应用,2021,11(07):228-233.
[3]Davis III, K. M., Spapé, M., & Ruotsalo, T. (2021, April). Collaborative filtering with preferences inferred from brain signals. In Proceedings of the Web Conference 2021 (pp. 602-611).
[4]《构建企业级推荐系统:算法、工程实现与案例分析》刘强 著
[5]多份专利说明书
[6]百度百科
注:图片源于资料及自制
专业指导:
易念科技高级软件工程师杨伟杰