今天给大家介绍的是IBM研究团队发表在arxiv一项关于分子生成的研究。作者提出了一3D蛋白质-配体接触图生成模型,模型使用条件VAE可以预测目标与口袋中分子的相互作用,从而实现特定活性的分子生成。实验结果表明,基于配体2D与多巴胺相比,该方法产生的分子D2受体口袋的组合更合适。该研究展示了如何增强蛋白靶结构信息的分子生成。
1.介绍
基于一系列深度学习架构设计的小分子生成模型通常需要生成所需的物化分子,以增强化学家的创造力,扩大传统数据方法或物理方法的规模。大多数模型使用SMILES作为主要分子,它可以从自然语言中处理(NLP)借鉴技术上的成功经验,但1维字符串远不能提供小分子的物理直观表达。实际上,小分子是由存在于三维构象空间中的原子间连接的复杂网络组成的。虽然基于文本的深度学习结构复杂,如Transformer,有时我们可以从简单的字符串中学习空间关系,但编码分子结合和三维结构提供了一种更自然的方法来捕捉深度学习中的化学和物理信息。最近一些围绕小分子二维图表的研究也取得了进展。然而,。最近的一些生成工作已经融入其中(基因组或蛋白质序列)(3D体素、空间形状或分子碎片表示)。
2.模型
本文的模型与以前只配体的图形生成模型不同(图1A)。该模型由分子和接触图输入和组成的上。
训练模型通过优化三个目标函数:
(1)配体分子图和蛋白质接触图的重建损失,
(2)高斯先验与编码后验之间的正则化KL散度,
(3)捕获生成的蛋白质-配体相互作用的准确性JS散度。
图1 gen3D模型架构。A.3D蛋白质配体互动网络;B.基于种子和随机采样生成的预测蛋白质-配体相互作用(虚线)的分子示例。
为了确定该3D方法的优点,作者在一个共同的目标(多巴胺)D2受体)、共同训练集和测试集gen3D(本工作)和gen2D,并尽可能地在一个共同的图片中cVAE在架构上训练。
图2 gen2D模型架构。
(https://doi.org/10.1021/acs.jcim.1c01545)
3.实验
(1)通过直接在潜在空间抽样随机生成;(2)基于种子的生成,在编码种子的潜在空间邻域随机抽样。
对gen3D和gen2D根据上述两种生成策略生成的分子进行大规模对接模拟,当存在三维中心时,枚举所有可能的对象。
图3 种子和随机抽样gen3D和gen2D分子对接分数,包括前三位平均对接分数(左)和活性条件与非活性条件分子的平均差异(右)。
-
基于种子的采样策略在gen3D产生的top位对接得分比gen2D整体能量单位平均水平较低(~0.8000卡/摩尔),第二和第三保持相同的趋势(图3)。活动条件也产生了gen3D比gen2D对接更一致的结果。这是通过对接分数来衡量的。
-
随机抽样策略在gen3D和gen2D无论是绝对的、活性的还是非活性条件的分子之间,统计数据之间都有类似的对接分数。这种随机抽样缺乏三维优势可能是由于三维潜在空间的复杂性增加,需要更高的维数来编码蛋白质-配体接触。
图4 从gen3D和gen2D三维异构中心分子的计数分布。
图5 由Gen3D模型生成的选定分子的对接组合。生成的分子以经典元素的颜色显示,预测的接触残留物以绿色显示。
gen3D该模型在三维化学中也产生了更理想的结果。gen3D与参考种子和训练集相比,在生成策略和活考种子和训练集更一致;相比之下,gen2D该方法倾向于更高的三维中心计数,使合成和构象选择复杂化(图4)。有趣的是,gen3D该方法可以隐式学习匹配参考数据中的三维中心计数,并表示通过(图3和图5)。
图6 结合位置接触对接匹配率。
基于种子采样产生的分子90%以上,随机抽样产生的分子85%的最佳组合位置可与至少50%的预测接触相匹配。gen3D几乎所有预测的组合模式都可以通过对接程序以合理的匹配率采样。作者还发现,对接分数与接触匹配率有负相关。,这是通过对接模拟获得的。
4.总结
本文的方法预测了生成分子的假设组合模式,捕获了组合点的结构信息。实验结果表明,训练生成模型清晰的三维蛋白质组合复合物可以使小分子和靶标的组合口袋更加一致。D蛋白质-配体结合的底层物理原理已经开始理解,这是加速基于结构的分子设计药物发现的重要一步。
参考资料
Kang S, Weber J K, Morrone J A, et al. In-Pocket 3D Graphs Enhance Ligand-Target Compatibility in Generative Small-Molecule Creation[J].