MONet: Unsupervised Scene Decomposition and Representation
1 .总的来说,这边论文讲了如上图的事情,与传统VAE不同的地方是,多了一个注意力网络产生出mask。
2. 注意力网络部分用的U-net网络。
3. VAE decoder部分用的是spatial broadcast decoder。
4.具体细节和MASK的表示形式在论文中有详细说明。
这里探讨一下这个论文的诞生过程:
我看的时候遍历了整篇文章都没有找到一个理论依据:说明整个loss函数的优化方向会往 注意力网络输出正确的mask的方向 流动。对!完全没有给出数学证明,而且mask和vae decoder输出这两部分都是在变化的,你不确定它们的流动方向。
那么,它是怎么整的呢?
首先,他们(论文作者)只有一个直觉,于是提出这个假设:
, if a networkperforming some task can be repeatedly reused across scene elements with commonstructure (such as objects and other visual entities), its available capacity(limited for example by its architecture and weights) will be more effectivelyutilised and thus will be more efficient than the same network processing theentire scene at once.
也就是说,让一个图片被掩码成多个图片,这些图片有共同的一些结构,再让这些图片通过同一个vae网络,这样重建的结果比单独就一张图片通过vae网络更好。因为他们觉得网络的容量得到更好的利用。
本着这个想法他们开始做实验:
看左上角的图:蓝色不用mask,绿色是别的图片的mask,也就是错误的mask,红色是给出正确的mask。这个实验就证明了:如果你让loss最小化,他会朝着正确mask的方向流动,因为如图这个正确的mask是最小的。
总结:这个论文的实验思路是很棒的,在你给不出严密数学证明的时候。