最近刚学到说思考问题的逻辑可以按照5why,5so的思路,就是往前推几步,看看产生的原因是啥,往后推几步,看看带来的影响是什么。正好在研究BigGAN,利用这个思考逻辑来探寻一下BigGAN的前世今生。
BigGAN是近一年来计算机视觉领域比较重大的突破之一。
2018年9月,谷歌旗下DeepMind部门的一组研究人员在ICLR(the international conference on learning representations,国际学习表征会议,被誉为深度学习领域的顶级会议)上发表了一篇论文,带来史上最强图像生成模型BigGAN。这个名为BigGAN的图像生成引擎,利用谷歌强大的云计算能力,可生成十分逼真的图像。在计算机图像研究史上,BigGAN带来的突破是划时代的,比如在ImageNet上进行128×128分辨率的训练后,它的IS( Inception Score,数值越高,表明生成图片的质量越高,并且越具有多样性)得分能达到166.3,是之前最佳得分52.52分3倍。
如果往前推几步,探究一下BigGAN的产生原因就可以追溯到机器学习,有监督的机器学习中的分类问题,求解问题的算法可以分为生成模型与判别模型两种类型。
生成模型p(x,y)代表联合概率分布, 判别模型p(x|y)代表条件概率分布。
在此引述一个例子帮助更快速的理解生成模型和判别模型。
任务是识别一个语音属于哪种语言。例如对面一个人走过来,和你说了一句话,你需要识别出她说的到底是汉语、英语还是法语等。那么你可以有两种方法达到这个目的:
1、学习每一种语言,你花了大量精力把汉语、英语和法语等都学会了,我指的学会是你知道什么样的语音对应什么样的语言。然后再有人过来对你哄,你就可以知道他说的是什么语音。这就是生成模型。
2、不去学习每一种语言,你只学习这些语言模型之间的差别,然后再分类。意思是指我学会了汉语和英语等语言的发音是有差别的,我学会这种差别就好了。这就是判别模型。
尽管生成模型才是最能体现事物全面信息的模型,但是由于生成模型存在很多比较难解决的数学难题,一直都是判别模型在引领潮流,生成模型起的作用比较小。
直到GAN(Generative Adversarial Networks,生成式对抗网络 )的提出,在很大程度上提升了生成模型的性能。截止目前GAN的应用已经延伸至视频、图像、文字、语音等众多领域,尤其在图像生成与图像转换领域表现突出。
尽管最近在生成图像建模方面取得了进展,但是从像ImageNet这样的复杂数据集中成功生成高分辨率,多样化的样本仍然是一个难以实现的目标。
BigGAN的出现就是为了实现这个目标,在ImageNet上进行128×128分辨率的训练后,它的IS( Inception Score,数值越高,表明生成图片的质量越高,并且越具有多样性)得分能达到166.3。
这大概是BIGGAN的一个产生过程。
再往后推几步,看看BIGGAN能够带来什么。
BIGGAN可以用于生成非常逼真的图像,因此我直接想到的就是丰富数据集,提供更多的训练数据,从而提升识别性能。