在化学领域,分子性质的预测一直是研究的热点与难点。随着人工智能技术的不断发展,尤其是图神经网络(GNN)和自监督学习(SSL)的兴起,这一难题正逐步被攻克。近日,中山大学邹青松教授团队在Briefings in Bioinformatics上发表了一项重要成果——DGCL模型,该模型通过双图神经网络对比学习,实现了对分子性质的精准预测,为化学研究注入了新的活力。
在化学分子数据集中,未标记数据占据了绝大多数,而标记数据则相对稀缺。这一特点限制了监督学习方法在分子性质预测任务上的直接应用。为了克服这一难题,自监督学习(SSL)逐渐成为研究者的关注焦点。其中,对比学习(CL)作为一种有效的SSL范式,在各个领域都展现出了卓越的能力。然而,现有的分子表示CL方法仍存在表征信息重叠、缺乏鲁棒策略等局限性。
针对这些问题,邹青松教授团队提出了DGCL模型。DGCL模型结合了双图神经网络(Dual-GNN)和混合分子指纹(MFP),通过创新的对比学习策略,实现了对分子性质的精准预测。该模型包含两个阶段:预训练阶段和下游任务训练阶段。
在预训练阶段,DGCL模型采用了两个不同的GNN作为编码器,即图同构网络(GIN)和图注意力网络(GAT)。这两种网络具有不同的优势,GIN在识别图之间的拓扑差异方面表现出色,而GAT则通过其多头注意机制增强了模型的表达能力。通过这两种网络,DGCL模型能够从同一分子中提取出不同的特征表示,并将这些表示作为正样本进行对比分析。同时,该模型还将同一批中其他样本的表示视为负样本,从而构建了一个丰富的对比学习框架。
在下游任务训练阶段,DGCL模型将预训练阶段提取的特征与混合分子指纹(MFP)相结合,以预测分子性质。MFP是一种融合了多种分子指纹信息的复合表示,能够提供更全面、更准确的分子特征。通过与GNN提取的特征相结合,MFP进一步增强了DGCL模型的预测能力。
实验结果表明,DGCL模型在多个化学分子数据集上均取得了显著优于现有方法的性能。在分类任务和回归任务上,DGCL模型均展现出了卓越的表现。这一成果不仅验证了DGCL模型的有效性,也为其在化学研究领域的广泛应用奠定了坚实基础。
DGCL模型的成功在于其独特的双图神经网络对比学习策略。通过采用不同的GNN编码器,该模型能够充分利用分子固有的结构信息,捕捉分子的多维特征。同时,通过构建丰富的正负样本对,DGCL模型增强了模型对分子表征的区分能力,避免了过拟合的风险。此外,混合分子指纹的引入也为模型提供了更准确、更全面的分子特征表示。
除了性能上的优势外,DGCL模型还具有较好的泛化能力。在预训练阶段,该模型只需要相对较小的数据集即可实现良好的性能。这一特点使得DGCL模型在化学研究领域具有更广泛的应用前景。例如,在药物研发领域,DGCL模型可以用于筛选具有特定性质的候选药物分子,从而加速药物的研发进程。
综上所述,DGCL模型是一项具有创新性和实用性的研究成果。通过双图神经网络对比学习和混合分子指纹的结合,该模型实现了对分子性质的精准预测,为化学研究注入了新的活力。随着技术的不断发展,相信DGCL模型将在更多领域展现出其独特的优势和价值。