Google在2019年提出了UDA方法(Unsupervised Data Augmentation 无监督数据增强),这是一种半监督学习方法。问世后,就击败了市面上其他的把深度半监督方法,该方法通过很少量的标记样本,便可以达到跟大数据样本一样的效果。
在UDA论文中,效果体现在IMDb数据集上,通过仅仅20个标记样本与约7万余个无标记样本(经过数据增强)的UDA算法学习,最终达到了与有2.5W标记数据集更好的效果,十分令人兴奋。
方法
损失
如上面图,损失分为两部分:标记数据的损失 和 未标记的数据的损失
-
一部分为有标注样本的,计算交叉熵损失。 目标是最小化有标签数据的损失。
-
另一部分为无标签的损失
- 目标是什么?
最小化无标签增广数据与无标签数据的KL散度 - 那么这部分无标签样本怎么得到的呢?
2.1 通过数据增强得到,何为数据增强呢?
数据增强就是,在样本x的标签L不变的情况下,对x进行转换,得到新的训练样本x’, 新样本x'的标签也是L。
2.2 转换方法都有哪些?
回译、TF-IDF word替换等等 -
损失定义
新旧数据有相同的数据标签。通常为了得到的增强数据与原始数据相似,使用的是最大似然估计方法。这里采用KL散度,算两个分布的损失:
*最终的损失为:
前面部分为有标签的损失部分,后半部分为无标签增强样本损失。
- 目标是什么?
训练技巧
应用
U在实际的场景下,UDA代表的半监督学习有十分广大的应用场景。例如,在某个细分领域,如金融领域,涵盖了大量的财经新闻、公司财报、法律文书、客户沟通记录等等,在该领域下没有标记的原始文本数据非常的庞大。而如果使用传统的监督学习方法,则需要十分昂贵而且专业的人员来进行数据样本的标记,这样的话,它的成本与项目进度将非常巨大与缓慢。但UDA类似的半监督学习恰好能近乎完美的解决这个问题。