计算广告关键技术-计算广告13-16章

1. 竞价广告核心技术

搜索广告系统

查询扩展

  • 基于推荐的方法,把用户一个会话(session)内的查询(query)视为目的相同的一组活动,可以在{session,query}矩阵上通过推荐技术产生相关的关键词。
  • 基于主题模型的方法,利用一般的文档数据进行查询扩展。这类方法是利用文档主题模型对某个查询拓展出主题相似的其他查询。
  • 基于历史效果的方法,利用广告本身的历史eCPM数据来挖掘变现效果较好的相关查询。如果从历史数据中发现,某些关键词对某些特定广告主的eCPM较高,将这些效果较好的查询组记录下来,当另一个广告主也选择了其中的某个关键词时,可以根据这些历史记录,自动地扩展出其他效果较好的查询。

广告放置
和之前一样,这里探讨对北区东区广告的放置问题,细节方面不进行阐述。

广告检索

  • 布尔表达式的检索
  • 相关性检索
  • 基于DNN的语义建模,实质是学习语义的表示,之后进行相似查找

最近邻语义搜索

由于对所有文档完全进行遍历耗时过长,为了降低性能消耗,需要对候选文档数进行减值,同时又保证较高的召回率,这类算法称为近似最近邻(ANN)查找。
ANN比较知名的几种方法如下:

  • LSH局部敏感哈希
  • Faiss
  • Kd-Tree

2. 点击率预测模型

这一章基本涉及的都是点击率预估模型等,由于技术与推荐较为类似,这里不详细解释,鉴于读王喆老师所写的《深度学习推荐系统》进行了解,对与点击率关联不大的探索与利用问题进行一定展开。

  • LR(逻辑回归)
  • FM(因子分解机)
  • GBDT(梯度决策加速树)
  • DNN方法等

强化学习与E&E(探索与利用)

E&E,全称exploit-explore问题。exploit就是:对用户比较确定的兴趣,当然要利用开采迎合,好比说已经挣到的钱,当然要花;explore就是:光对着用户已知的兴趣使用,用户很快会腻,所以要不断探索用户新的兴趣才行,这就好比虽然有一点钱可以花了,但是还得继续搬砖挣钱,不然花完了就得喝西北风。

在点击率预测中,我们需要采取或是模型、或是特征上的手段来捕获动态信息。这也就意味着,对某种类型的(a,u,c)组合,如果没有相关历史数据的支持,很难对其合理地估计点击率。

此问题属于强化学习的范畴。直觉的想法是牺牲一部分流量上 eCPM 最优的策略,采用相对随机的策略采样那些效果未知的特征空间,这称为探索(exploration)过程;再根据探索和正常决策的总体流量更有效地预测点击率,这称为利用(exploitation)过程。这样的整体策略称为探索与利用,即E&E。E&E可以形象地类比成玩老虎机时的决策问题:玩家面对老虎机上有A个不同期望收益的手柄,需要用尽可能少的筹码探索出收益最高的那个手柄,然后利用这个结果去获取回报。这种简单的 A中选 1的研究问题也称为多臂老虎机(Multi-Arm Bandit,MAB)问题。

相关技术与算法

  • UCB
  • linUCB
  • Epsilon
  • Tompson采样

程序化交易核心技术

本章主要介绍两点相关技术:
一是各广告或数据产品在进行用户身份对应时的cookie 映射方法;
二是如何优化询价的服务成本,即尽可能只向那些可能赢得拍卖的 DSP询价。

(1)由于实时竞价的功能需求,广告交易市场解决供给方和需求方用户身份对应的问题,在Web广告环境下,这需要用到cookie映射的技术。

(2)实践中当考虑到带宽和服务成本带来的约束时,希望用更少的询价请求完成尽可能高效的变现,这一问题称为询价优化。

cookie映射

cookie映射是用于跟踪用户身份的,在 Web 环境下投送的广告,用户身份标识可以用 HTTP 协议提供的 cookie 机制来完成。

询价优化

ADX中有一个重要的问题需要考虑,那就是如何在带宽和服务成本的约束下获得更高的eCPM。如果不考虑成本,ADX的询价策略非常简单,每次展示都向所有接入的DSP询价即可。可是当DSP数以十计时,服务成本就会上升一个数量级,这显然是无法接受的。因此,广告交易平台需要在带宽或服务成本的约束下,优化整体市场的eCPM水平。要考虑带宽或服务成本的约束,显然就需要对每次展示中询价的 DSP数目做精简,这个问题称为询价优化。

询价优化有两种典型的思路,一种是工程规则的思路,另一种是将其视为一个带约束优化问题的思路。先介绍一下工程规则的思路:考虑到DSP方有相当一部分是按照广告主定制标签来采买流量,因此,这种DSP一般来说只会在自己感兴趣的人群,也就是cookie映射过的用户群上出价。显然,ADX是可以先验地知道这一用户群的,因此,对这类DSP中的某一个,如果当前广告请求到达的用户 cookie没有与其映射过,那么就不需要向该 DSP询价。

询价优化的问题,由于也需要在每个广告请求到来时做决策,因此从框架上非常类似于在线分配问题。只不过这里的约束变成了带宽或服务的成本。由于从商业规则上说,我们不能完全依赖eCPM水平来决定向哪个DSP发起询价,因为这样有可能造成某些DSP 完全得不到流量,从而退出市场。因此,实际的询价优化问题的约束往往设置成各个DSP获得流量比例的一个上限,而这一上限是根据该DSP一段时间的花费来决定的。询价优化可以描述为下面的优化问题:


询价优化

a代表的是某一个DSP;i可以是一个供给节点或一次展示(在没有流量预测的情形下);k 是某个出价(此处进行了离散化以方便问题描述)。与第11章的在线分配问题对比,p(iak)与y(iak)是新引入的变量,分别表示DSP a为供给i的一次展示出价 k 的概率以及以此出价赢得此次拍卖的概率。与在线分配框架问题对比,它们在数学本质上是一样的。

其他广告相关技术

除了前述骨干性的技术以外,在线广告中还有一些非常重要的外围问题,本章将对这些问题展开讨论。

创意优化

在前面章节中讨论的所有技术和算法,其核心都是为了优化广告效果。而在实际的在线广告中,还有一项对广告效果影响巨大的技术,那就是创意优化。
创意优化主要的相关方法有这些。

  • 品牌型创意
  • 效果型创意
  • 点击热力图
  • 程序化创意
    -- 地域型创意。地域定向是根据用户的地域信息投送相应的广告,如果能将明确地域指示性的内容体现在创意上,往往会对效果有非常直接的帮助。
    -- 搜索重定向创意。根据用户的搜索行为提供的重定向图片广告,如果能明确标示搜索词,往往更容易唤起用户的注意力和兴趣。
    -- 个性化重定向创意。

实验框架

无论是广告系统调整算法、架构,还是投放时调整创意、定向策略,都需要依赖线上的实际流量测试来确定其真实效果如何。切分部分流量用于测试并非难事,但是一个实用的实验框架需要尽可能多地同时容纳多组实验,以提高流量利用效率和产品进化速度。

流量保护和效果监测

流量保护包括两方面的内容:一是对非主动用户访问行为,主要是爬虫行为的去除;二是反作弊,即对于恶意展示或流量来源的去除。

由于广告有很多的相关利益方,因此除了那些无恶意的、机器产生的流量,也会经常遇到欺骗性的展示或点击行为,即作弊。广告中的作弊行为主要有以下三种情况。
(1)媒体作弊。媒体是广告活动的主要受益者,因而作弊的动力也最强。这种作弊的花样繁多,既有将广告展示和点击代码放在非约定位置上或非用户自然行为产生的流量上的方式,也有通过将广告位与内容靠得很近甚至相互重叠来骗取点击的方式。

(2)广告平台作弊。广告网络或广告交易市场这样的广告平台也有制造虚假点击,以获取更多分成的目的。而 DSP这样的需求方广告产品,除了混入劣质流量的广告展示、制造虚假点击以外,还会通过一些作弊手段为广告主带来虚假转化,以满足效果考核的要求。

(3)广告主竞争对手作弊。某些广告主的竞争对手,会通过技术手段大量消耗该广告主的预算,达到降低其广告效果的非正常竞争目的。

流量劫持
除了制造虚假展示和点击的作弊行为,在广告市场上还存在着通过非法手段获得广告展示或点击的准作弊行为,而其中最典型的情形就是流量劫持。
(1)信道弹窗。通过电信运营商对信道的控制能力,在用户上网时强行向下行内容中插入弹窗广告创意。

(2)创意替换。创意替换仍然是通过电信运营商的信道,将某些网站上的广告创意直接替换为其他创意。

(3)搜索结果重定向。将搜索流量导向某些搜索引擎,可以获得其收入分成。因此,存在一种流量劫持手段,当用户在搜索引擎 A 输入某关键词以后,搜索的结果页会变成搜索引擎B提供的。

(4)落地页来源劫持。这是最为简单粗暴的一种劫持方式,它并不投放广告,而是在用户访问广告主落地页时,直接在URL上加上广告来源代码。

这些流量劫持手段中,前三种手段主要损害的是媒体利益,而对广告主来说,流量本身则是真实存在的。而第四种就是一种彻底的作弊行为了,损害的是广告主的利益。

广告监测

在线广告区别于线下广告的重要特征就是可监测性。从需求方来看,存在切实的需要,委托某家第三方监测公司对实际发生的展示或点击数目进行核对,以确保自己的利益。

隐私保护和数据安全

章节相关名词

CF 协同过滤
DNF 析取范式
conjunction 交集
assignment 赋值集
ANN 近似最近邻查找
VQ 向量量化
PQ 乘积量化
HKM 层次K均值树
LR 逻辑回归
IIS 改进的迭代尺度法
L-BFGS 有限内存的拟牛顿法
EC 期望点击
CoEC 点击与期望点击的比值
PR 准确率/召回率
ROC 接收机操作特性
AUC ROC曲线下的面积,实质反映的是正例分数大于负例分数的比例
FM 因子分解机
GBDT 梯度加速决策树
SGD 随机梯度下降
E&E 探索与利用
MAB 多臂老虎机
UCB 置信上界(bandit的一种方法)
LinUCB 考虑上下文的置信上界方法
PMP 私有交易市场
CoPC 点击与预测CTR之和的比值
TP 流量保护
RPM 每千次展示收入

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343