噪音鲁棒的损失函数

一、前提知识

定义0——噪音、对称噪音、非对称噪音:

  • 噪音:在这里指的是标签错误的样本。例如在通过众包进行数据打标的场景中噪音就是一个不可避免的问题。
  • 对称噪音(symmetric/uniform noise):所有的样本,都以同样的概率会错标成其他标签;
  • 非对称噪音(asymmetric/class-confitional noise):不同类别的样本,其错标的概率也不相同。

定义1——损失函数的抗噪性:

如果一个损失函数,在有噪音的情况下,其风险最小化的模型(minimizer)跟没有噪音时是相同的,就称这个损失函数是抗噪的(noise-tolerant)。换言之,有噪音的情况下的最优模型,跟没噪音一样。(听起来是不是不可能?)

定义2——损失函数的对称性:

我们设模型f(x)的损失函数为L,设分类问题的类别有k类,则称这个损失函数L是对称的,当它满足下面的公式:
\sum_{i=1}^{k} L(f(\mathbf{x}), i)=C, \forall \mathbf{x} \in \mathcal{X}, \forall f

二、重大发现:有对称性的损失函数,具有一定的抗噪能力

作者通过推导以及实验,发现拥有对称属性的损失函数,对噪音的抵抗能力也更强。甚至,当噪音时对称噪音时,该损失函数理论上是完全抗噪的。

理论推导:

下面我们来推导一下:

首先假设我们面对的是对称噪音,噪音比为\eta.
设一个模型在没有噪音时的目标函数R_{L},即损失函数在所有训练样本上的期望:
R_{L}(f)=\mathbb{E}_{\mathbf{x}, y_{\mathbf{x}}} L\left(f(\mathbf{x}), y_{\mathbf{x}}\right)
然后,设该模型在当前有噪音的情况下,目标函数是R_{L}^{\eta},公式为:
R_{L}^{\eta}(f)=\mathbb{E}_{\mathbf{x}, \hat{y}_{\mathbf{x}}} L\left(f(\mathbf{x}), \hat{y}_{\mathbf{x}}\right)

那么,如果损失函数是对称的,我们可以有以下推导:


即可以得出结论:
R_{L}^{\eta}(f)=A+\alpha R_{L}(f)
其中A为常数,\alpha为跟噪音比\eta和类别k相关的系数。

由此可以知道,当\alpha > 0的时候(即当\eta<\frac{k-1}{k}时),R_{L}^{\eta}(f)R_{L}(f)是线性相关的,故他们的f的最优解也是一样的!而只需要满足对称噪音的噪音比\eta<\frac{k-1}{k}即可。

这相当于,在二分类问题中噪音比不超过50%,三分类问题中噪音不超过66%,十分类问题中噪音不超过90% ,都跟没噪音一样!

基于直觉的理解:

推导出上面的结论,我当时也十分的惊讶,居然这么神奇。我们想一想,上面的结论中,最重要的假设是什么?有两方面:

  1. 损失函数自身的对称属性
    这个属性直观的理解,可以通过下图:


    上图展示了一个四分类问题,损失函数对称,就意味着如果一个样本,它的真实标签把所有标签都遍历一遍,计算其损失之和,这个和是个常数。

  2. 对称噪音,即当一个样本错标时,它被分配到任意一个标签的概率都是相同的。

在这样的情况下,噪音的出现,在某种意义上,相当于一个样本把所有标签都遍历了一遍。那么对整体的损失函数,只不过是增加了一个常数,因此不影响最终的优化结果。

现实的例子

通过上面的神奇的发现,我们不禁想问,拥有这么神奇的属性的损失函数应该很少见吧。其实不是,常见的MAE(mean absolute error,平均绝对误差),就是一个典型的拥有对称性的损失函数。而我们最最常用的CCE(categorical cross-entropy loss,交叉熵损失函数)、MSE(mean squire error,均方误差),则是非对称的。

下面是他们的损失函数:
L\left(f(\mathbf{x}), \mathbf{e}_{\mathbf{j}}\right)=\left\{\begin{array}{ll} \sum_{i=1}^{k} e_{j i} \log \frac{1}{u_{i}}=\log \frac{1}{u_{j}} & \mathrm{CCE} \\ \left\|\mathbf{e}_{\mathbf{j}}-u\right\|_{1}=2-2 u_{j} & \mathrm{MAE} \\ \left\|\mathbf{e}_{\mathbf{j}}-u\right\|_{2}^{2}=\|u\|_{2}^{2}+1-2 u_{j} & \mathrm{MSE} \end{array}\right.

通过遍历类别求和,验证其对称性:
\sum_{i=1}^{k} L\left(f(\mathbf{x}), \mathbf{e}_{\mathbf{i}}\right)=\left\{\begin{array}{ll} \sum_{i=1}^{k} \log \frac{1}{u_{i}} & \mathrm{CCE} \\ \sum_{i=1}^{k}\left(2-2 u_{i}\right)=2 k-2 & \operatorname{MAE} \\ k\|u\|_{2}^{2}+k-2 & \mathrm{MSE} \end{array}\right.
可以看出,MAE确实具有对称性。

作者在MNIST和RCV1数据集上做了一些实验,见下图:


可以看出,在有噪音的情况下,CCE最大的特点就是,测试集上的accuracy像坐过山车一样,很快到达坡顶,然后飞流直下。而MAE在测试集上则是缓缓地爬坡,没有明显的下降趋势。

然而,MAE自然也有其缺点,其收敛十分艰难,从图中可以看出,它在训练集上的收敛速度很慢,甚至严重欠拟合。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容