以下内容纯属个人见解,欢迎大家交流。
发布于2020 NIPS
1 motivation
如何获取分子的信息表征是人工智能驱动药物设计和发现的重要前提。近年来的研究将分子抽象为图,利用图神经网络进行分子表示学习。然而,有两个问题阻碍了gnn在现实场景中的使用:(1)没有足够的标记分子进行监督训练;(2)对新合成分子泛化能力差。为了解决这两个问题,我们提出了一个新的框架GROVER,它代表自监督消息传递转换器的图形表示。通过精心设计节点、边缘和图级的自我监督任务,GROVER可以从大量未标记的分子数据中学习丰富的分子结构和语义信息。相反,为了编码这些复杂的信息,GROVER将消息传递网络集成到transformer风格的架构中,以提供一类更具表现力的分子编码器。GROVER的灵活性使得它可以在不需要任何监督的情况下,在大规模分子数据集上进行有效的训练,从而避免了上述两个问题。
2 模型
图形输入是没有向量值化的结构化数据。因此,我们设计了一个定制的gnn (dyMPN),从图的节点中提取向量作为查询、键和值,然后将它们提供给注意块
这种策略简单而强大,因为它可以利用表达能力很强的GNN模型,更好地建模分子数据中的结构信息。GTransformer的高表达性得益于其双层信息抽取框架。众所周知,消息传递过程捕获图的局部结构信息,因此利用GNN模型的输出作为查询、键和值,就可以得到所涉及的局部子图结构,从而构成了信息提取的第一级。同时,在由值构造的全连通图上,变压器编码器可以看作是GAT的变体。因此,在这些查询、键和值之上使用Transformer encoder可以提取节点之间的全局关系,从而实现第二级信息提取。这种双层信息提取策略极大地增强了GROVER模型的表示能力。
此外,GTransformer采用了一个来自输入特征的远程剩余连接,将初始节点/边缘特征信息直接传递到GTransformer的最后一层,而不是原来的变压器架构中的多个短程剩余连接。从这个单一的远程剩余连接可以获得两个好处:i)与普通的残差连接一样,通过缓解梯度消失问题来改进训练过程。ii)相对于变压器编码器中各种短程残差连接,我们的远程残差连接可以缓解消息传递过程中的过平滑问题。
3 Self-supervised Task Construction for Pre-training
3.1 Contextual Property Prediction
们在节点和边上呈现任务。它们都试图预测某个局部子图中的目标节点/边缘的上下文感知属性。应该使用什么样的上下文感知属性?我们用以下两步的方法定义局部子图的递归统计性质(以图2中的节点子图为例):i)给定一个目标节点(如红色的碳原子),提取其局部子图作为其k-hop邻居节点和边。ii)我们提取这个子图的统计属性,具体来说,我们计算中心节点周围(节点,边)对的出现次数,这使得节点-边-计数项。
3.2 Graph-level Motif Prediction
图形级的自我监督任务也需要可靠和廉价的标签。基元是在分子图数据中普遍存在的输入图数据中的周期性子图。分子中一类重要的基序是官能团,它编码了分子丰富的领域知识,可以很容易地被专业软件检测到,如RDKit。在形式上,主题预测任务可以表述为一个多标签分类问题,其中每个主题对应一个标签。假设我们考虑p个基序{m1,…, mp}的分子数据。对于一个特定的分子(抽象为图G),我们使用RDKit检测G中是否出现每个motif,然后将其作为motif预测任务的目标。