Fast end-to-end learning on protein surfaces
Abstract
蛋白质的它的三维分子表面和定义。最近的研究表明,几何深度学习可以用于基于网格的蛋白质表达,以识别潜在的功能位点,例如潜在药物的结合靶点。然而,不幸的是,使用网格作为蛋白质结构的底部表示有许多缺点,包括输入特征和网格连通性的预计算。这是蛋白质科学中许多重要任务的瓶颈。为了解决这些限制,我们提出了一个新的框架来深入研究蛋白质结构。我们方法的主要优点之一是底层原子点云和一个新的高效几何卷积层实时计算和采样分子表面。因此,我们可以以端到端的方式处理大量的蛋白质集合,只需输入原始的3D坐标及其原子的化学类型不需要任何手工预算功能。为了展示我们方法的性能,我们测试了蛋白质结构生物信息学领域的两项任务:相互作用点的识别和蛋白质-蛋白质相互作用的预测。在这两项任务中,我们都实现了最先进的性能,运行时间比以前的模型快得多,参数也更少。这些结果将大大简化蛋白质科学中深度学习方法的部署,为蛋白质建模任务中的端到端微方法打开大门,如功能预测和设计。
1. Introduce
蛋白质是所有生物体的中心生物大分子。它们的功能是健康和疾病的决定因素,预测蛋白质的功能特性对于开发新的药物治疗至关重要。从化学角度氨基酸序列组成的聚合物(图1).a)。这个序列决定了蛋白质的结构图像(折叠),结构决定了它的功能。疏水(拒水)残基通常聚集在蛋白质的核心,而亲水(吸水)残基暴露在其表面的水溶剂中。表面的性质决定了蛋白质与其他分子相互作用的类型和强度(图1.b)。因此,分析这个复杂的3D物体是生物学中的一个基本问题:蛋白质结构模型可以用来理解蛋白质及其环境的相互作用,从而预测这些大分子在生物体中的作用。由于蛋白质是主要的药物靶点,研究其与其他分子的相互作用是基础生物学和制药工业的关键问题。经典药物是设计用于与感兴趣的蛋白质结合的小分子,其结合位点通常具有明显的“口袋状”结构。对于药物研发人员来说,长期以来,表面平坦、无口袋的靶点一直是一个挑战,通常被认为是不可治疗的。蛋白质分子(被称为生物药物或生物制剂)是药物开发的快速发展领域,预计将为许多重要疾病(如癌症和病毒感染)提供新的治疗策略。深度学习方法越来越多地应用于蛋白质科学[22]的广泛问题,尤其是DeepMind的AlphaFold从序列(sequence)预测三维蛋白质结构的成功。最近,Gainza引入等人[21],这是蛋白质分子表面几何深度学习的第一种概念方法,可以预测其组合。MaSIF其主要局限性在于它依赖于预先计算的网格和手工特性,以及大量的计算时间和内存需求。
[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-2sk9gymD-1651915562284)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507154350202.png)]
Main contributions
在本文中,我们提出dMaSIF(微分子表面的相互作用指纹)是一种用于识别蛋白质表面的相互作用模式的深入学习方法MaSIF主要缺点。我们的架构没有预计算功能。它直接操作大量构成蛋白质的原子,产生蛋白质表面点云这意味着学习表面点云上特定于任务的几何和化学特征,最后使用新的卷积算子接近切线空间中的测地坐标(target space)。所有这些计算都是动态执行的,占用的内存很小。值得注意的是,我们将所有核心计算作为符号矩阵的约化实现PyTorch[31]最近的KeOps库[19]**(KeOps可广泛应用于一类问题(通用框架)。但是这个库背后的第一个动机很简单:我们计划加速计算点云上的高斯卷积,即采样数据RBF核积。)**的支持。这些高性能例程使我们设计了一种完全微妙的方法MaSIF数量级快,内存效率高。另一方面,它使我们能够预测比以前更大的蛋白质结构集合,并打开了利用几何深度学习优化端到端蛋白质和从头质设计的大门。
2. Related works
Deep learning in protein science.
一维氨基酸序列是最简单、最丰富的数据源,可以用不同的方式表示蛋白质。最近,该方法利用了公共数据库中丰富的蛋白质序列,展示了如何从自然语言处理领域提高功能预测[2、8、37]。深度学习也成为许多蛋白质折叠管(即从氨基酸序列推断3)D[3、48、38、49]是结构的关键组成部分。这些方法通常预测不同残基之间的成对距离和其他几何关系,以便在未来的结构优化中使用它们作为约束。氨基酸与不同蛋白质的关系也被预测用于处理蛋白质之间的相互作用[42、20]。蛋白质设计可视为逆结构预测(即将预测折叠成特定结构的序列),也受益于深度学习方法[24]。参考[22]了解综合概述。
表面表征与该领域有关:它们抽象了蛋白质折叠的内部,不参与相互作用。分子表面相互作用指纹(MaSIF)[21]方法开创了使用基于网格的几何深度学习来预测蛋白质相互作用的先河。它被用于分类小配体的结合位点,区分表面蛋白质-蛋白质相互作用的位点,并预测蛋白质-蛋白质复合物。
然而,尽管MaSIF该方法具有重要的概念意义和令人印象深刻的性能,但它存在严重的缺陷,限制了其在蛋白质预测和设计中的实际应用。首先,它将基于网格的蛋白质表面表示作为输入,作为预处理步骤,必须从原始原子点云生成。其次,它依赖于手工制作的化学和几何特性,必须提前计算并存储在硬盘上。第三,它用于预先计算的测地线补丁[30]网格卷积(MoNet,一个允许在非欧几里德域卷积深系统结构的一般框架设计在(如图和流形)上。),当处理成千上万种蛋白质时,内存和运行时间变得非常昂贵。
Deep learning on surfaces and point clouds.
深入研究非欧几里德结构化数据(如网格、图形和点云)(称为几何深度研究[11])最近已成为计算机视觉和图形的重要工具。几何深度学习寻求发展,而不是将几何形状视为三维欧几里德空间的对象(如基于二维视图[46]、体积[39]、空间划分[36、44、40]和隐藏表示[14])和非欧几里德类比。Boscaini等人[27]提出了基于网格于网格上固有局部制图的类似CNN的几何结构(测地线CNN())。基于各向异性各向异性扩散(ACNN[10](MoNet样条[17](FeastNet[43]、等变滤波器[32,15]和原始-对偶网格算子[29]的面片算子改进了这些结果。参考[33]了解最近的一项调查。点云通常用作距离传感器三维数据的本地表示,最近在计算机视觉中取代基于表面的表示越来越流行。第一部关于点云深度学习的作品是基于集合[50](PointNet[34]和PointNet 深度学习[35]。DGCNN动态构建[45]kNN使用图形神经网络[6]捕捉点云的局部结构。此外,还考虑了额外的切线空间[40]和体积[4]卷积算子,见最近的调查论文[23]。
[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-p0zjmipt-1651915562286)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507163646504.png)]
surface mesh:曲面网络
图2:MaSIF和dMaSIF在蛋白质表面的界面预测过程相同。我们从原始原子点云开始计算(a)蛋白质分子表面的表示,(b)几何和化学特征,以及(c)局部坐标系;(d) 然后,通过在蛋白质表面(准)测量几何卷积神经网络来预测几何卷积的组合点。MaSIF预计算步骤(a)-(c),而且我们计算它们的速度快600倍。为了推断第四节描述的位点预测任务,我们将显示每种蛋白质的平均运行时间。我们方法的准确性和准确性MaSIF同时减少了预计算的需求,显著加快了推理和训练的速度。
[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-1hFSzNY2-1651915562287)(C:\Users\86186\AppDat\Roaming\Typora\typora-user-images\image-20220507164126105.png)]
图3:蛋白质表面的采样算法。(a) 给定输入蛋白质(编码为原子点云 a 1 , . . . , a A a_1, . . . , a_A a1,...,aA,红色),其分子表面表示为到原子中心的平滑距离函数(1)的水平集。(b) 要对该曲面进行采样,我们首先生成一个点云 x 1 , . . . , x N = A B x_1, . . . , x_{N=AB} x1,...,xN=AB,在我们的蛋白质附近(蓝色):对于每个原子中心,我们从 N ( µ = a k , σ = 10 A ˙ ) N(µ=a_k,σ=10\dot{A}) N(µ=ak,σ=10A˙)中画出B=20点,(c)让这个随机样本收敛到(2)上梯度下降设置的目标水平——我们使用4个梯度步骤,学习率为1。(d) 然后,我们移除蛋白质内部的点:如果这个位置的距离函数接近我们的目标值 r = 1.05 A ˙ , 在 0.10 A ˙ r=1.05\dot{A},在0.10\dot{A} r=1.05A˙,在0.10A˙的范围内,我们保留一个样本,如果在距离函数的梯度方向上进行四个大小为 1 A ˙ 1\dot{A} 1A˙的连续步骤,则会使其增加 0.5 A ˙ 0.5\dot{A} 0.5A˙以上。(e)然后我们将所有点放在边长为1˚A的立方箱中,每个单元保留一个平均样本;这确保了我们的采样密度均匀。(f) 最后,将位置 X i X_i Xi处距离函数的梯度归一化,以用作法线 n i ^ \hat{n_i} ni^。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CMMj6nhn-1651915562288)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507165624099.png)]
图4:1OJ7对的绑定说明。(a) 蛋白质数据库记录了蛋白质1OJ7 D(右)和1OJ7 a(左,绿色)之间的相互作用。我们能从两种蛋白质的未注册结构中预测这种3D结合结构吗?(b) MaSIF将此问题作为曲面分割问题来处理。结合位点(红色)是MaSIF试图根据预先计算的化学和几何特征(如静电势)预测的地面真值信号。它依赖于蛋白质预处理分子表面上的网格卷积。(c) 我们的方法在不使用任何预先计算的网格结构或特征的情况下预测结合位点。我们在定向点云上执行所有计算,该点云由原始原子坐标生成,如图3所示。数据驱动的化学特征(d-e)以及不同尺度下的高斯(f)和平均(g)曲率是动态计算的,并作为我们在图5中描述的快速卷积结构的输入。使用ParaView进行渲染[5]。
3. Our approach
Working with protein surfaces.
下面,我们将介绍一种新的高效端到端结构,用于蛋白质分子的几何深度学习。我们工作的前提是,蛋白质分子表面携带重要的几何和化学信息,这些信息表明它们与其他分子的相互作用方式。虽然我们展示了我们预测结合特性的方法(可以说,这是结构生物学和药物设计中最重要的任务),但它是通用的,可以在其他问题上进行培训——原则上,可以扩展到其他生物分子。
我们的方法适用于蛋白质的连续几何表示,如图2所示。输入以原子云{a1,…,aA}的形式提供⊂ R3,列表中的化学类型[C,H,O,N,S,Se]编码为一个热载体{t1,…,tA}⊂ R6。然后我们将蛋白质的表面表示为一个定向点云{x1,…,xN}⊂ R3与单位法线ˆn1,ˆnN在R3。我们将特征向量f1,fN到这些点,并使用类似卷积的操作逐步更新它们;在整个网络中,这些特征的维度从16(10个几何特征+6个化学特征作为输入)到1(结合分数作为输出)不等。我们的数据来自蛋白质数据库[7],蛋白质结构通常由A=3K–15K原子组成,分子大小在30˚A–300˚A(1ångström等于10)范围内−10米);我们以1˚a的分辨率对其表面进行采样,以便一次使用N=6K–15K点。
我们强调,与大多数其他表面处理工作不同,我们的方法不依赖于网格结构、kNN图或任何类型的空间划分。我们使用Pytork[31]最新的KeOps库[13,19]高效地计算蛋白质表面所有点之间的精确相互作用,该库优化了广义距离矩阵的各种计算。
3.1. Surface generation
Fast sampling.
蛋白质的表面可以描述为平滑距离函数或元球的水平集[9](图3a)。为了准确地表示六种不同的原子类型,我们将原子半径σk与每个原子ak相关联,并定义平滑距离函数:SDF(x)=−σ(x)·对数PA k=1 exp(−kx− akk/σk),(1)对于任何x∈ R3,具有稳定的对数和exp减少,且σ(x)=PA k=1 exp(−kx− akk)σk/PA k=1 exp(−kx− akk)点x附近的平均原子半径。
如图3b所示,我们通过最小化平方损失函数:E(x1,…,xN)=1 2 PN i=1(SDF(xi),对半径r=1.05˚A的水平集表面进行采样− r)随机高斯样本上的2(2)。KeOps允许我们在一次超过100个蛋白质的批次上有效地实施这种取样策略
Descriptors.
使用距离函数(1)的梯度计算点法线ˆni。为了估计局部坐标系(ˆni,ˆui,ˆvi),我们首先使用带σ的高斯核对该向量场进行平滑∈ {9,12}A,即使用ˆni← 正常化(PN j=1 exp(−kxi− xjk2/2σ2)ˆnj)。然后,我们使用[16]的有效公式计算切向量ˆui和ˆvi。设ˆni=[x,y,z]为单位向量,s=符号(z),a=−1/(s+z)和b=axy,然后ˆui=[1+sax2,sb,−sx],ˆvi=[b,s+ay2,−y]。(3) 对于每个点xi,我们找到16个最近的原子中心{ai1,…,ai16},其类型{ti1,…,ti16}编码为R6中的onehot向量。我们通过将多层感知器(MLP)应用于向量[tik,1/kxi]来计算R6中的化学特征向量fi− aikk]在R7中,对指数k=1进行求和,16并对结果应用第二个MLP。如图6所示,使用尺寸为12的单个隐藏层的简单MLP足以了解丰富的化学特征,例如泊松-玻尔兹曼静电势。
3.2. Quasi-geodesic convolutions on point clouds
Convolutions on 3D shapes.
为了更新特征向量fi并逐步学习预测蛋白质的结合位点,我们依赖于分子表面上的(准)测地卷积。这使我们能够确保我们的模型对3D旋转和平移完全不变,根据表面的局部化学和几何特性做出决定,并且不受蛋白质体积深处原子的影响。这些建模假设适用于许多蛋白质相互作用问题,并防止我们的网络过度拟合数据集中存在的数千个蛋白质对。
实际上,几何卷积网络结合了f′i形式的逐点运算← 局部点间相互作用形式为:f′i的MLP(fi)← NX j=1 Conv(xi,xj,fj),(4),其中fi和f′i表示与点xi相关的特征向量,Conv(xi,xj,fj)操作符对点xi和xj之间的关系施加可训练权重。该总和可能被最大值或任何其他减少或合并操作所取代。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HZScCEA0-1651915562289)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507170423246.png)]
图5:我们使用测地距离(5)的近似值在定向点云上实现快速准测地卷积。(a) 点xi和xj之间的加权距离dij等于kxi− xjk,如果单位法向量ˆni和ˆnj指向同一方向,但在其他情况下更大。在该示例中,点x1、x2和x3与R3中的基准点x0的距离相等;但由于参考法线ˆn0与ˆn1对齐,与ˆn2正交,与ˆn3相反,因此我们得到d0,1=kx0− x1k<2·d0,1=d0,2<3·d0,1=d0,3。(b) 我们利用这种行为来防止蛋白质“跨体积”的信息泄漏。我们将加权距离dij上的高斯窗口与参数“过滤器”相结合,以聚集蛋白质表面邻域之间的特征fj。(c) 我们的公式推导出的局部坐标系与真实测地面片的结构非常相似——此处定义为高斯偏差窗口σ=10˚a。在光滑表面上,它们能够以比基于网格的方法低得多的成本计算“准测地”卷积。
Working with oriented point clouds.
已经提出了许多方法,用网格或点云上的卷积算子模拟表面算子——参见第2节,尤其是[40,26,47,41]。在这项工作中,我们利用采样算法产生的法向量来定义一个直接作用于定向点云的快速准测地卷积层。KeOps库使我们能够高效地执行此操作,而无需对曲面几何体进行任何脱机预计算。如图5所示,我们用单位法线ˆni和ˆnj近似蛋白质表面的两点xi和xj之间的测地距离为:dij=kxi− xjk·(2)− hˆni,ˆnji)(5)并使用半径σ的平滑高斯窗口来定位我们的滤波器∈ {9,12}A,w(dij)=exp(− d2ij/2σ2)。在曲面任意点xi的邻域中,两个3D向量然后在局部坐标系(ˆni,ˆui,ˆvi)中对相邻点xj的相对位置和方向进行编码:pij=[pˆnij,pˆuij,pˆvij],qij=[qˆnij,qˆuij,qˆvij]。这些3D向量上可训练的“过滤器”的不同选择让我们可以对广泛的操作进行编码。我们在这里关注多项式函数和MLP,而不是流行的混合高斯滤波器[30],但请注意,这种选择对我们模型的表达能力几乎没有影响。
Local orientation, curvatures.
然而,我们必须强调,与法线ˆni正交的一对切向量(ˆui,ˆvi)仅定义为切平面内的旋转。为了以较低的计算成本解决这个问题,我们遵循[28]并沿着几何梯度确定第一个切向量ˆui=ˆu(xi)∇可训练电位P(xi)=Pi=MLP(fi)的ˆu,ˆvP(xi),使用小的MLP从输入特征计算。我们在切平面上使用高斯滤波器的导数近似其梯度,实现为准测地卷积:∇P(xi)← 1 N PN j=1 w(dij)[pˆuij,pˆvij]Pj∈ R2(6),然后使用标准三角公式更新切线基(ˆui,ˆvi)。局部曲率的计算方式类似[12]。我们使用半径σ为1˚A到10˚A的高斯窗口的准测地卷积和二次滤波函数来估计切平面(ˆui,ˆvi)上的点位置和法线的局部协方差Covˆu,ˆvσ,i(p,p)和Covˆu,ˆvσ,i(p,q)。当λ=0.1˚A是一个小的正则化参数时,点xi和尺度σ处的2×2形状算子被近似为Sσ,i=(λ2 Id2×2+Covˆu,ˆvσ,i(p,p))−1Covˆu,ˆvσ,i(p,q),它允许我们定义高斯Kσ,i=det(Sσ,i)和平均Hσ,i=scaleσ处的迹(Sσ,i)曲率。
Trainable convolutions
最后,我们架构的主要构建块是准测地卷积,该卷积依赖于可训练的MLP来衡量局部参考点xi的测地邻域中的特征。我们把矢量信号变成fi∈ 将射频转换成矢量信号f′i∈ 射频:f′i← PN j=1 w(dij)MLP(pij)fj(7),其中MLP是一个具有3个输入单元、H=8个隐藏单元、ReLU非线性和F=16个输出的神经网络。
3.3. End-to-end convolutional architecture
Overview.
我们将前面几节介绍的操作链接在一起,创建一个完全可微分的管道,用于蛋白质表面的深入学习,如图2所示。作为一个简短的总结:1。我们对曲面点和法线进行采样,如图3所示。2.我们使用法线ˆni计算σ范围为1˚A到10˚A的5个尺度下的平均曲率和高斯曲率。我们计算蛋白质表面的化学特征,如第3.1节所述。原子类型和到表面点的反距离通过一个带有6个隐藏单元的小MLP、ReLU非线性和批量归一化[25]。将16个最近原子对曲面点xi的贡献相加,然后进行线性变换,以创建6个标量特征的向量。4.我们将这些化学特征与5+5均值和高斯曲率连接起来,以创建一个大小为16的完整特征向量。5.我们在这个向量上应用一个小的MLP来预测每个表面点的方向分数Pi。然后我们根据(6)确定局部坐标(ˆni,ˆui,ˆvi)的方向。6.我们对特征向量fi应用连续可训练卷积(7)、MLP和批量归一化。层数、高斯窗口半径和MLP单元数取决于任务,并在补充材料中详细说明。7.作为站点识别的最后一步,我们对卷积的输出应用MLP,以生成最终的站点\非站点二进制输出。对于相互作用预测,我们计算两种蛋白质的特征向量之间的点积,将其用作成对点之间的相互作用分数。
Asymmetry between binding partners.
当试图预测蛋白质对的结合相互作用时,我们对两种相互作用的蛋白质进行相同的处理,直到卷积步骤。然后,我们通过将两个绑定伙伴中的每一个通过单独的卷积网络来引入一些不对称性。这使得网络可以在两个表面上找到互补(而不是相似)区域,例如凸出和凹腔。我们注意到,MaSIF通过反转两个曲面之一上预计算特征的符号来编码这种不对称性。
4. Experimental Evaluation
Benchmarks.
我们在[21]中介绍的两个任务上测试我们的方法。这些任务来自结构生物信息学领域,涉及预测蛋白质如何相互作用。结合位点识别:我们试图将给定蛋白质的表面分为相互作用位点和非相互作用位点。相互作用位点是更可能介导与其他蛋白质相互作用的表面贴片:了解它们的性质是药物设计和蛋白质相互作用网络研究的关键问题。交互站点的标识不知道绑定伙伴。相互作用预测:我们将两个表面补丁作为输入,一个来自复合物中涉及的每个蛋白质,并预测这些位置是否可能在蛋白质复合物中紧密接触。这项任务是预测蛋白质对接等任务的关键,即预测复合物中两种蛋白质的方向。
Dataset.
数据集包括从蛋白质数据库(PDB)收集的蛋白质复合物[7]。我们使用[21]中的“训练/测试”拆分,该拆分基于序列和结构相似性,并被组装以最小化训练和测试集中接口结构之间的相似性。对于位点识别,训练集和测试集分别包含2958和356个蛋白质;10%的培训集用于验证。对于相互作用预测,训练集和测试集分别包括4614和912个蛋白质复合物,其中10%的训练集用于验证。对于我们生成的点云,用于表示蛋白质表面的平均点数为N=11549±1853,而MaSIF为6321±1028。2蛋白质随机旋转并居中,以确保依赖原子点坐标的方法不会过度适合其空间位置。
Baselines.
我们的主要基线是MaSIF网站和MaSIF搜索模型[21]。对于MaSIF基线,我们使用作者提供的预训练模型、预计算表面网格和输入特征。此外,为了展示卷积层的优点,我们将其与PointNet++[35]和Dynamic Graph CNN(DGCNN)[45]进行了对比,这两个最先进的卷积层是用于点云的。
Implementation.
我们使用Pytork[31]实现我们的架构,并使用KeOps[19]进行快速几何计算。对于数据处理和批处理,我们使用Pytork Geometric[18]。对于PointNet++和DGCNN基线,我们使用PyTorch几何实现——但依赖KeOps符号矩阵来加速kNN图的构建,从而保证公平比较。对于MaSIF基线,我们使用[21]的参考实现。3所有模型都在单个NVIDIA GeForce RTX 2080 Ti GPU或单个特斯拉V100上进行培训。在一台特斯拉V100上测量运行时间和内存消耗。
4.1. Surface and input feature generation
Precomputation.
MaSIF的一个主要缺点是它依赖于曲面网格和输入特征的大量预计算。这些计算需要花费大量时间,并生成必须存储在磁盘上的大型文件。作为参考,用于训练MaSIF网络的预处理文件超过1TB。与此形成鲜明对比的是,我们的方法不依赖于任何此类预计算。表1比较了两条管道的相应运行时间:对于这些几何计算,我们的方法比MaSIF快三个数量级。
Scalability.
随着批量的增加,我们的曲面生成算法可以有效地扩展。在SM中,我们表明,当批量处理几十个蛋白质时,我们的方法的运行时间和每个蛋白质的内存需求都显著减少。这是GPU内核使用量增加以及固定Pytork和KeOps开销影响较小的结果。此外,我们的曲面生成方法可以方便地使用不同的点云分辨率进行实验。不同的任务可以从较高或较低的分辨率中受益,将其作为超参数进行调整可能会对性能产生显著影响。我们在SM中展示了分辨率对时间和内存需求的影响。
Quality of learned chemical features.
MaSIF的另一个显著缺点是它依赖于“手工制作”的几何和化学特征(泊松-玻尔兹曼静电势、氢键势和亲水性),这些特征必须预先计算并作为神经网络的输入。相比之下,我们不使用任何手工编制的描述符,直接从作为我们方法唯一输入的底层原子点云学习特定于问题的特征。我们认为,仅此信息就足以计算蛋白质表面的信息性化学和几何描述。为了支持这一说法,我们在图6中展示了一个实验的结果,其中我们的化学特征提取器用于回归表面点上的泊松-玻尔兹曼静电势。我们的预测质量表明,我们的数据驱动化学特征与MaSIF使用的描述符质量相似,甚至更好。我们还注意到化学和几何特征的烧蚀研究结果,如图6所示。他们认为,几何曲率与已知化学特征向量的连接并不能显著改善网络在站点预测任务中的性能:我们将在未来的工作中研究这一点。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QYMTqK9F-1651915562290)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507171650866.png)]
图6:我们的网络可以从下面的原子点云计算蛋白质表面的化学性质。(a) 预测泊松-玻尔兹曼静电势与地面真值的关系。相关辅因子r=0.83,RMSE=0.16。(b) 显示化学和几何特征如何影响相互作用位点预测性能的消融研究(ROC-AUC)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h7FTLRnh-1651915562291)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507171708896.png)]
表1:每种蛋白质的平均“预处理”时间。我们的方法比MaSIF快约1000倍,并允许动态执行这些计算,而不是MaSIF的离线预计算*一次包含128种蛋白质。
4.2. Performance
Binding site identification.
图7-9总结了识别结合位点的结果,描绘了ROC曲线以及准确性、时间和记忆之间的权衡。我们使用不同数量的卷积层(1对3)和补丁大小(5、9或15˚A)评估我们架构的多个版本。为了进行比较,我们还展示了在其他条件相同的情况下,用DGCNN和PointNet++体系结构替换卷积的结果。第一点是,如果我们使用一个偏差为σ=15˚A的高斯窗口的单一卷积层,我们的方法与MaSIF产生的0.85 ROC-AUC的最佳精度相匹配——在半径为9˚A的斑块上有3个连续卷积层。在这种配置中,我们的网络运行速度比MaSIF快10倍,平均向前传递时间为16毫秒,而每个蛋白质为164毫秒。以适度增加模型复杂度(三个卷积层,每个蛋白质平均36 ms)为代价,我们的ROC-AUC为0.87,优于MaSIF,详见图7(实心曲线)。最值得注意的是,我们的模型都有很小的内存占用(132 MB/蛋白质),比同等的MaSIF网络(1492 MB/蛋白质)少11倍,比DGCNN(1681 MB/蛋白质)少13倍,比PointNet++(3995 MB/蛋白质)少30倍
Interaction prediction.
使用与MaSIF搜索类似的单卷积层架构,我们可以获得略高的性能,分别为0.82和0.81,如图7(虚线)所示。我们注意到,与我们的16维特征向量相比,MaSIF搜索使用80维高维特征向量达到了这种精度水平:了解卷积“通道”数量对不同任务网络性能的影响将是未来工作的一个重要方向。请注意,MaSIF搜索也依赖于比MaSIF站点更大的补丁(12˚A vs.9˚A),这导致运行时间显著增加到727±403毫秒。另一方面,我们的轻量级方法运行时间为17.5±6.7毫秒,在推断时快40多倍。
5. Conclusion
我们为蛋白质表面的深度学习引入了一种新的几何结构,可以预测它们的相互作用特性。我们的方法比以前的方法快一个数量级,而且记忆效率更高,这使得它适合于分析蛋白质结构的大规模数据集:这为分析包括超过10K蛋白质在内的生物体中整个蛋白质-蛋白质相互作用网络打开了大门。事实上,我们的管道工作在原始原子坐标上,是完全可微分的,这使得它适合于生成任务,有可能为各种生物功能执行新蛋白质的真正的端对端设计,即针对特定目标的结合剂设计。这为药物设计开辟了迷人的前景,包括靶向疾病相关靶点(如癌症治疗、抗病毒)的生物制剂,这些靶点显示出平坦的相互作用表面,小分子是不可能靶向的。更广泛地说,我们相信,通过点云上的快速动态计算对3D形状进行深度学习的新算法和架构思想将会引起计算机视觉和图形专家的普遍兴趣。相反,我们希望我们的工作将引起这个社区对结构生物学、蛋白质生物学和蛋白质科学中一些最重要和最有前途的问题的注意。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QTtnxHrA-1651915562292)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507172315722.png)]
图7:比较我们的方法(蓝色)和MaSIF(红色)在结合位点识别(实线)和寻找结合伙伴(虚线)任务中的性能的ROC曲线。我们的方法的性能与MaSIF相当,在位点识别方面ROC-AUC为0.87 (vs. 0.85),在识别绑定伙伴方面ROC-AUC为0.82 (vs. 0.81)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-spzDPqLZ-1651915562293)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507172350393.png)]
图8:不同体系结构的准确性(位点识别ROC-AUC)与运行时间(前向传递/蛋白质单位ms)模型由使用的卷积算子、卷积层数和高斯窗口使用的σ值来识别。PointNet++模型由邻居的半径识别,DGCNN模型由最近邻居的数量识别。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XE1vERmY-1651915562294)(C:\Users\86186\AppData\Roaming\Typora\typora-user-images\image-20220507172411234.png)]
图9:准确度(站点识别ROC-AUC)与不同架构的内存占用(MB/蛋白质)
Acknowledgments.
这项工作得到了瑞士数据科学中心奖学金、亚马逊机器学习研究奖、ERC整合基金No. 724228、ERC启动基金No. 716058、瑞士国家科学基金会(310030 163139)和NCCR分子系统工程的部分支持。