Domain Adaptation
经典的机器学习问题中,训练集和测试集分布一致,这样我们在训练集上训练模型,在测试集上测试,比较容易得到测试准确度高的机器学习模型。然而在实际问题中,训练集和测试集的分布往往有很大差异,用训练集训练好的模型对测试集进行测试时,会出现过拟合的问题。迁移学习技术就是因此而产生的。
Domain Adaptation(域自适应)是迁移学习中的一种代表性方法,其含义是利用信息丰富的源域样本来提升目标域模型的性能。
源域(source domain)表示与测试样本不同的领域,但是有丰富的监督信息;目标域(target domain)表示测试样本所在的领域,无标签或者只有少量标签。源域和目标域的数据分布不同,但任务相同。这种特殊的迁移学习叫做域适应。个人理解就是一种减小因训练集和测试集分布不同而导致过拟合的负面影响,采取的方法核心也是为了降低它们分布的差异。
根据目标域和源域的不同类型,域自适应问题有四类不同的场景:无监督的,有监督的,异构分布和多个源域问题。
根据在不同阶段进行域适应,研究者提出了三种不同的领域自适应方法:1)样本自适应,对源域样本进行加权重采样,从而逼近目标域的分布。2)特征层面自适应,将源域和目标域投影到公共特征子空间。3)模型层面自适应,对源域误差函数进行修改,考虑目标域的误差。
域适应方法
样本自适应
样本迁移:对源域样本进行重采样,重采样后的源域样本与目标域样本分布基本一致,然后在重采样后的样本上重新学习分类器。比如,增大源域中与目标域样本相似的样本数据权重。
特征层面自适应
学习公共的特征表示 ,在公共特征空间内,源域和目标域的分布要尽可能相同。
特征迁移:对源域和目标域的一些共同的交叉特征进行特征变换,投影到相同的特征空间,使得在该空间内源域数据和目标域数据具有相同的数据分布。
模型自适应
两种方法:一是建模时,加入“域间距离近”的约束;二是迭代,渐进的对目标域的样本进行分类,将信度高的样本加入训练集,并更新迭代模型。
模型迁移:用大量数据训练好的一个预测系统,在遇到一个新的相关的预测问题时(比如图像识别),只需要添加较少的训练数据(图片),将原来训练好的模型迁移到新的领域就可以,避免了大量重复训练。
参考资料
【1】https://blog.csdn.net/u013841196/article/details/80956828