跳到主要内容

基于生物物理信息学的蛋白质-蛋白质关联率分类

摘要

背景

蛋白质在细胞中形成各种各样的复合物来执行它们的多功能功能。蛋白质复合物形成的动态特性主要以缔合率为特征,缔合率衡量这些复合物形成的速度。实验观察到,关联率跨度极宽,超过十个数量级。因此,在这个光谱中识别特定蛋白复合物的关联率对我们理解它们的功能作用至关重要。

结果

为了解决这个问题,我们将基于物理的粗粒度模拟集成到一个基于神经网络的分类模型中,以估计大规模基准集中蛋白质复合物的关联率范围。交叉验证结果表明,当选择最佳阈值时,我们可以达到最佳的性能,特异性、精密度、灵敏度和总准确度均高于70%。我们的交叉验证数据的质量也被进一步的统计分析所证实。此外,给定一个独立的测试集,我们可以成功地预测8个蛋白质复合物的关联率。最后,对失败案件的分析表明将来的构象动态实施到模拟中可以进一步改善模型。

结论

总之,本研究表明,将生物物理模拟与生物信息学方法结合的新建模框架能够识别与具有更高关联率的低关联率的蛋白质 - 蛋白质相互作用。因此,该方法可以作为测量生物分子识别的现有实验方法的集合的有用补充。

背景

各种蛋白质复合物的形成是几乎所有生理过程的构建块[123.45].关联率(\(k_ {ass} \)),它测量蛋白质形成复合物的速度,对表征其功能具有基本的重要性[6].在细胞拥挤的环境中,不同的蛋白质可能会争夺它们的结合伙伴。生物系统的动力学通常不受热力学控制,而受动力学控制[7],其中系统中蛋白质的关联率的范围起着关键作用。例如,配体和膜受体之间的结合动力学控制在暴露于细胞外刺激之后信号转导的速度。观察到的关联速率常量值跨越一个极宽的范围,超过10个大小8.9.1011121314].识别这个光谱中不同蛋白质之间结合的关联率对我们理解它们在信号转导、转录调节和许多其他细胞活动中的功能作用至关重要[15161718].例如,自然杀手(NK)细胞受体NKG2D(自然杀手组2,成员D)识别具有相同结合界面的细胞配体和病毒配体,表明当这些配体在系统中共存时,它们必须在受体结合上相互竞争[19].细胞和病毒配体与病毒配体之间受体结合的关联率的差异直接调节NK细胞溶解活性。另一个例子是核因子-κB配体(RANKL)受体活化剂与其受体,核因子-κB(等级)受体活化剂的结合相关剂的结合差异,从其竞争对手骨盆素(OPG)的结合[20.].RANKL和OPG之间的级别结合关联率的差异决定了骨吸收的最终速率。这些实施例突出了定量估计蛋白质结合率的重要性。

幸运的是,如今,各种各样的成熟实验技术,如表面等离子体共振(SPR)[21]及光谱抑制试验(IASP) [22,可用于测量蛋白质-蛋白质相互作用的速率常数。此外,许多实验测量的绑定常数的信息已收集在不同的公共可访问的数据库。例如,SKEMPI包含100多种蛋白质相互作用和数千种相关突变的热力学参数和动力学速率的数据[23].这些蛋白质复合物的结构也已经解决,可用于蛋白质数据库中。这些实验数据有助于开发用于模型和预测蛋白质 - 蛋白质协会的计算方法,这与传统实验技术相比,这些蛋白质 - 蛋白质联合的耗时效率和劳动密集程度。一种类型的这些计算方法,包括分子动态(MD)[2425或布朗动态(BD)模拟,是基于基于物理学的原理,重现蛋白质之间的关联过程[2627282930.313233343536373839404142434445464748].然而,所有这些基于原子的方法在计算上都很昂贵。因此,人们开发了不同级别的粗粒度(CG)模型来简化蛋白质结构[49].这些模型已被用于研究蛋白质的折叠和聚集[5051].相反,其他类型的计算方法利用基于人工智能的算法来预测基于蛋白质复合物的结合界面中的化学或结构特征的关联速率常数[5253].然而,这些预测方法缺乏描述沿着关联途径的详细机制的信息。

与任何类型的上述计算方法不同,我们呈现了一个平台,该平台将基于生物物理学的模拟与基于生物信息学的预测相结合,以对Skempi数据库中呈现的蛋白质 - 蛋白质关联的速率进行分类。先前开发的粗粒胚墨西克罗模拟(图。1A)被用来产生大量的蛋白质-蛋白质关联轨迹[54].在这种方法中,每个残基都用其Cα原子加上侧链上一个有代表性的中心来简化。在简单的基于物理的力场指导下,对一对最初分离的相互作用的蛋白质进行随机扩散。因此,通过计算这两个蛋白质在大量的模拟轨迹中形成的相遇复合物的频率,可以计算出缔合的概率。反向传播神经网络算法(图。1然后施用B)以分类来自这些粗粒模拟的关联的概率。基于交叉验证结果,我们表明该方法可以以特殊性,精度,灵敏度和整体精度达到最佳性能,全部高于70%。考虑到一个独立的测试集,我们可以进一步成功预测八个蛋白质复合物的结合率为10。最后,对失败案件的分析表明将来的构象动态实施到模拟中可以进一步改善模型。总之,本研究表明,使用生物物理信息学的工具的新建模框架能够识别与具有更高关联率的蛋白质 - 蛋白质 - 蛋白质 - 蛋白质 - 蛋白质 - 蛋白质 - 蛋白质 - 蛋白质蛋白相互作用。该方法用作测量生物分子识别的现有实验方法的集合的有用补充。

图。1
图1

整个计算过程的流程图。使用粗粒度蒙特卡罗模拟生成大量的蛋白质-蛋白质关联轨迹(一种).基于计数在所有轨迹中形成了多少次遇到复合物,可以推导出概率。在不同的距离截止值下进一步进行模拟,从而为基准组中的每种蛋白质复合物产生关联概率的简档。使用这些关联配置文件作为输入,然后应用反向传播神经网络算法以分类蛋白质复合物的关联率是否高于预定阈值(B.

结果

我们首先应用动力学蒙特卡罗(KMC)方法来估计大规模基准组中每种蛋白质复合物的不同初始分离下关联的概率。有关该基准构建和KMC仿真算法的详细信息可以在“方法“。具体地,对于102个蛋白质复杂系统中的每一个,产生大量模拟轨迹。作为每个轨迹的初始构象,复合物中的两个结合伴侣的基于残留的粗粒模型在相对于彼此相对于随机位置单独放置,其中它们的结合界面之间的距离在截止值内下降D.C.我们系统地测试了从16到25 Å的10个不同的距离截止值。对于每个值D.C, 103.进行了仿真轨迹。这些轨迹的初始构象是不同的。在初始构象之后,如方法“,每个结合的扩散由含有疏水效果和静电相互作用的分子间能量引导。在所有这些轨迹的末尾,两个绑定伙伴通过预定义的关联标准形成遇到复合物,或者彼此进一步扩散。基于从所有轨迹收集的仿真结果,给定的特定值下的关联概率D.C可以为基准集中的每个复杂计算。

在所有102个蛋白质复合物中,我们成功地生成了所有103.在所有10个距离截止值下的96个复合体的仿真轨迹,并且未能完成6个复合物的所有模拟运行。结果,以下研究中未考虑这6个系统。对于剩下的96个系统,关系之间的关系D.C并以其对应的缔合概率作为进一步研究的基础,将神经网络模型用于区分各种蛋白质复合物之间的缔合率D.C和关联概率被选择并绘制在图中。2a四个代表性系统。它们是:大肠杆菌素内切酶与免疫蛋白Im9(PDB 2VLN)复合物中的E9 DNA酶域;人乙酰胆碱酯酶和蛇毒毒素束状蛋白II(PDB 1B41)的复合物;人催乳素受体拮抗剂H27A与人催乳素受体胞外区复合物(PDB 3N06);HLAⅠ类组织相容性抗原与β-2微球蛋白(pdb2vlr)的复合物。这些配合物的相应结构如图所示。2是。复合物中的两个结合伴侣分别以红色和绿色分析。它们的PDB身份和实验测量的关联率也在底部列出。数字2A表明,当距离截止值增大时,四个系统的缔合概率都降低,说明当两个结合伙伴开始分离时距离越远,复合物越难形成。从图中可以看出,实验关联率较大的复合物的整体关联概率要高于实验关联率较小的复合物。例如,复合物2VLN的整体关联概率高于图中其他三个复合物。2a,而复2VLR的关联概率最低。相应地,2VLN的实验关联率为1 × 108.m-1S.-1是这四个系统中最高的。同样,2VLR的实验关联速率最慢(5 × 10)4m-1S.-1).

图2
figure2

动力学蒙特卡罗模拟的结果。对于每个复杂系统,在10个不同的距离截止值下生成大量的仿真轨迹。情节(一种)显示了四个选定系统的距离截止和关联概率之间的关系。它们是大肠杆菌素内切酶与免疫蛋白Im9 (B.);人乙酰胆碱酯酶与蛇毒束状毒素ii (C);人催乳素受体拮抗剂H27A与人催乳素受体的胞外区域的复合物(D.);与β-2微球蛋白复合物的HLA I类组织相容性抗原(E.).它们的PDB特性和实验测量的关联率列在下面

为了概括我们的研究,我们进一步测试了在不同距离截止值下基准测试中所有96个蛋白质复合物的模拟关联概率与其实验测量的相关性(图。3.).图中以16 Å为截止距离的96个蛋白复合物的所有关联概率以圆圈表示。3.一种。该图中的Y轴表示模拟关联概率,X轴是具有共同对数的规模的实验数据。类似地,在图2中绘制具有18的距离截止的关联概率。3.B,而在图2中绘制具有25埃的距离截止的关联概率。3.C。当距离截止值增加时,我们发现基准的基准中大多数蛋白质复合物的关联概率下降,这与图1的反射结果一致。2一种。此外,在不同距离截止下计算了它们模拟结合概率和实验衍生的关联率之间所有蛋白质复合物的Pearson的相关系数(PCC)。这些PCC值被绘制为图2中的直方图。3.d.在所有距离截止下观察到阳性PCC值。当截止距离为16 Å时,PCC = 0.43。3.一种)。当距离截止等于18Å时,它会增加到0.52的最大值。(图。3.b)。之后,当距离截止最终达到25埃时,PCC水平变低,并且当距离截止达到时,它等于0.39(图。3.c),这些正相关表明,平均而言,蒙特卡罗模拟可以在广泛的蛋白质-蛋白质关联中区分快速和缓慢的动力学。

图3.
图3

模拟的关联概率与相应的实验测量值之间的相关性。具体来说,在距离截断为16 Å、18 Å和25 Å的情况下,所有96个蛋白质复合物的模拟关联概率和实验关联率之间的相关性绘制在(一种),(B.)和(C),分别。为了在更定量的水平上比较模拟的关联概率和实验关联率,我们进一步计算了这两个数据集之间的Pearson相关系数(PCC)作为距离截断(D.

另一方面,我们也注意到这些正相关只是适度的。更具体地说,仍然有大量的异常值具有较高的模拟关联概率但实验测量的关联率较低,或者具有较低的模拟关联概率但实验测量的关联率较高。然而,值得注意的是,这些关联概率是由不同的距离截止值得出的。一个蛋白复合物的结合是一个复杂的过程,不同蛋白复合物的结合途径是视情况而定的。有可能一种蛋白复合物的实验关联率较低,但在一定距离截断时具有较高的模拟关联概率,反之亦然。相对于单一距离截断下的关联概率,比较不同距离截断值下的关联概率更有意义。如图1所示。1,蛋白质复合物的关联曲线描绘了在不同距离截断下关联概率的变化。我们假设,不同蛋白复合物的结合途径的特征可以通过这些结合谱的模式反映出来。此外,这些高维模式可以通过基于物理的模拟之外的方法相互识别。因此,基于神经网络的分类模型被进一步整合到我们的粗粒度模拟结果中,对不同蛋白质复合物在这一广泛的速率常数范围内如何相互识别进行了系统的估计。

详细地,利用前馈回传播算法来估计蛋白质复合物的关联率是否高于或低于预定阈值。具体而言,分类模型的输入是十个尺寸,其是从KMC模拟产生的蛋白质复合物的蛋白质复合物的关联曲线,其距离截止值在16到25埃之间(图。1a),虽然模型的二进制输出只是关于复数的关联速率高于阈值的信息。如“方法“,已申请休假交叉验证策略来对基准集中的所有蛋白质复合物进行分类。为了校准交叉验证的性能,我们分别从分类结果中分别计算真正正(TP),True负(TN),假正(FP)和假阴性(Fn)的数量。如果我们正确分类了实验缔合率高或低于阈值的蛋白质复合物,则识别出TP或TN。相对而言,如果蛋白质复合物被归类为较高或低于阈值,则识别FP或Fn,但其实际实验缔合率位于阈值的相对侧。我们的结果如图所示。4A作为阈值的函数。由图可知,随着阈值的增大,TP的个数逐渐减少,TN的个数单调增加。另一方面,FP和FN的数量在开始时增加,但随后减少。

图4.
装具

神经网络分类的总体性能。我们绘制了真阳性,真阴性,假阳性和假阴性(一种),以及特异性、敏感性、精密度和总体准确性(B.)作为分类阈值的函数。我们还将真正的阳性率与不同阈值下的分类结果进行了比较。结果对应于接收器操作特性(ROC)曲线,如(C).最后,我们发现分类准确率与神经网络模型提供的置信度呈正相关(D.

进一步计算灵敏度(TP/(TP + FN))、特异度(TN/(TN + FP))、精密度(TP/(TP + FP))和总准确度(TP + TN)/(TP + TN + FP + FN) [55].数字4b绘制不同阈值下的计算结果,图中x轴为对数标度下的关联率阈值,灵敏度、特异性、精密度和总体准确度沿y轴分别以黑色、红色、蓝色和绿色显示。图4B表示随着阈值由小到大,灵敏度和精度下降到0,特异性上升到最大水平。这是因为在阈值较大的情况下,被归类为TP的蛋白复合物较少(实验关联率高于阈值)。根据灵敏度和精度的定义,TP以分子表示,它们的值与阈值的增加呈负相关。另一方面,在阈值越大的情况下,更多的蛋白质复合物被归类为TN(实验关联率低于阈值)。根据特异度的定义,TN以分子表示,其值与阈值的增加呈正相关。

数字4由B可知,当阈值为4 × 10时5m-1S.-1,对应于图中的对数值5.6,系统实现了特异性,精度,灵敏度和精度的最佳性能,全部高于70%。在基准组中的所有96个蛋白质复合物中,有43个复合物,实验结合率低于该最佳阈值,并且实验性协会率高于截止值的53个复合物。因此,当测试集落入两个尺寸彼此相对靠近的尺寸时获得最佳性能。此外,神经网络模型可以为每个分类提供置信度评分(在0和1之间)。因此,在4×10的阈值下5m-1S.-1,我们进一步将分类的准确性分解为不同的置信得分区间。如图1所示。4D,分类精度与模型置信度呈正相关。对于模型中置信度较高(大于0.8)的蛋白复合物,其准确率最高可达77%。附加文件中的表S2总结了基于最优阈值的单个交叉验证结果1对于基准中的所有蛋白质复合物,也可以在https://github.com/wulab-github/konpred.

进一步进行了统计分析,以检验分类结果。具体而言,在对基准中的所有蛋白质复合物进行交叉验证后,我们还研究了分类结果中真阳性率(TPR)和假阳性率(FPR)之间的相关性。根据定义,TPR相当于灵敏度。另一方面,FPR定义为FP总数与FP和TN之和之间的比率。实际上,TPR和FPR都随阈值的选择而变化。因此,我们将阈值从1逐渐更改为1 × 104至1 × 109.m-1S.-1并监测TPR和FPR之间的相关变化,导致光点集合,如图4所示。4C。统计上,这些点对应于接收器操作特征(ROC)曲线[5657],并与红色对角线进行比较,这条对角线被称为无歧视线,表明测试完全基于随机猜测。数字4C表明,所有不同阈值值下的TPRS都始终高于FPRS。例如,当FPR等于0.3时,我们获得了0.7的TPR。因此,ROC曲线表示我们的分类数据的良好质量。

为了评估我们所获得的分类性能如何与随机估计的区分,我们用两种不同的模型进行了预测。在一个模型中,通过我们的神经网络的分类方法具有最佳阈值的预测。在控制模型中,通过随机猜测纯粹是通过随机猜测进行的预测。每种蛋白质复合物随机分配更高或低于具有相同概率的最佳阈值。对基准中的所有96个蛋白质复合物进行预测。两个模型重复该过程100次。在预测之后,计算了灵敏度,特异性,精度和准确度的值,在附加文件中绘制并比较了哪些分布1:图S1。图中的黑直方图是基于我们的神经网络模型的预测的分布,而红色直方图是随机估计的分布。可以在附加文件中找到平均值和相应的标准偏差1:表S1。进一步进行Student t检验,以验证两个模型预测结果之间的差异具有统计学意义。这两个模型的结果之间不存在显著差异的零假设在95%的置信区间进行了检验。因此,在敏感性、特异性、精密度和准确度的比较中,得出的t分数分别为21.79、25.15、34.71和35.88。相应的P.所有这些测试的值小于0.0001。因此,小P.T-Test的价值表明,我们可以拒绝零假设并接受替代假设,即,从基于神经网络的模型和随机猜测生成的输出产生的输出之间的差异很大。

总之,对交叉验证结果的统计分析表明,我们能够使用与基于生物物理的模拟和基于机器学习的生物信息学的可靠和准确的模型来识别具有低关联率的蛋白质复合物。算法。

虽然我们的测试证明了大多数蛋白质复合物的结合谱可以被成功地识别,但仍有可能复合物被分类为错误的组。数字5显示我们方法未能生成正确输出的两个单独情况。一种是细胞因子白细胞介素-13(IL-13),其具有其受体IL-13受体α2(IL-13Rα2)(PDB 3LB6),而另一个是来自人免疫缺陷病毒1的包膜糖蛋白GP120的工程化外部结构域(HIV-1)与VRC01级宽度中和抗体(BNABs)(PDB 4JPK)复合物。从KMC模拟产生的这两种蛋白质复合物的关联概况绘制在图2中。5a.从图中可以看出,虽然实验测量的4JPK的关联率(1.5 × 10),但4JPK(黑色方块)模拟的整体关联概率远高于3LB6(红点)4m-1S.-1)比3lb6慢得多(1×108.m-1S.-1).结果,通过神经网络模型将4JPK和3LB6分为正确的组。4JPK的关联率被确定为高于阈值4×105m-1S.-1,虽然鉴定了3LB6的关联率低于阈值。为了探讨我们的模拟产生与实验测量相反的结果的原因,我们绘制了图1中这两个复合物的结构。5b, c。图5B显示复合3LB6,其中细胞因子以红色显示,并且受体以绿色显示。IL-13对于T辅助细胞类型2(TH2)反应的发展是重要的,并且在哮喘和过敏中起着关键作用。其与受体IL-13Rα2的相互作用具有高缔合率和结合亲和力。图2中的细胞因子受体络合物的结构。5b显示该受体有三个由结构域连接物连接的纤维连接蛋白结构域,该结构域连接物在图中以灰色突出显示。该受体与细胞因子的结合界面均匀分布在其所有三个结构域上。有人认为,多结构域蛋白与柔性连接物的结合是通过多重连接完成的istep“对接和合并”机制[45859.].该机制可大大加速蛋白质的结合,而蛋白质的构象灵活性在其中起着关键作用。在我们的kMC模拟中忽略了分子内的灵活性。这可能是我们估计的关联评级比实际值低得多的原因。相反,GP120外域的识别(图中红色)。5c)抗体(图中绿色部分)。5C)由抗体结合界面的高变环密切调控[60.,如图中灰色部分所示。结合界面处柔性环的局部构象动力学会阻碍其与病毒蛋白的结合。同样,由于在我们的kMC模拟中忽略了分子内的灵活性,这可能导致我们估计的关联评级远高于实际值。因此,我们的试验强调了蛋白质局部动态和整体构象变化在调节蛋白质-蛋白质关联中的重要性。我们的方法可以在未来通过在kMC模拟中实现构象动力学来改进。

图5.
figure5

我们的方法无法生成正确输出的个别情况。情节(一种)显示这两个系统的距离截止和关联概率之间的关系。它们是:细胞因子白细胞介素-13(IL-13)与其受体IL-13受体α2(IL-13Rα2)(B.)和具有来自人免疫缺陷病毒1的包膜糖蛋白GP120的工程化外部结构域,其复合物与VRCO1级宽度中和抗体(C).配合物中两个结合伙伴对应的结构用红色和绿色标出,而经历较大构象波动的柔性区域用灰色标出。它们的PDB特性和实验测量的关联率也列在下面

为了进一步检验我们的分类模型的稳定性,并排除过拟合的可能性,我们单独收集了另外一个由10个蛋白复合物组成的测试集。这些复合物的详细信息可在表中找到1.在从16到25 Å的10个不同的距离截止值下,多个轨迹(103.)进行了不同的随机初始配置,根据报道的离子强度。然后从模拟中计算出它们相应的关联概况。以这些图谱作为输入,进一步利用神经网络模型估计这10个蛋白复合物的关联率是否高于或低于优化阈值(4 × 10)5m-1S.-1).在分类过程中,将基准中所有96个蛋白质复合物的关联谱及其对应的实验关联率作为训练集,将10个蛋白质复合物分别送入神经网络进行测试。并与实际实验数据进行了比较。因此,我们发现我们可以正确地预测8个蛋白复合物的关联率是快于阈值还是慢于阈值,这与交叉验证结果一致。

表1独立测试集的详细信息

我们的预测结果如图所示。6.8个成功预测的案例的关联图如图所示。6A,虽然其余2错误预测的情况(2i25和1sgn)绘制在图2中。6b.实验关联率高于阈值的剖面用红色表示,实验关联率低于阈值的剖面用黑色表示。配合物1EWY、1UDI和7CEI的缔合谱在10个配合物中最高,易于识别。复合物1TLU的关联曲线(图中红色方块)。6a)另一方面,与其他类的轮廓混合,但仍被成功地认可。最后,复杂1SGN的关联轮廓(图2中的红色圆圈)。6b)低于所有其他复合物,尽管其实验测量的速率常数为1.2×106m-1S.-1.毫不奇怪,它已被错误地分配给课程,关联率低于阈值。1SGN是在蛋白质Ovomucoid和链霉素B之间形成的复合物。更近的结构检查表明复合物的相互作用通过分子间β-片形成(图。6C)。不形成复合物,来自蛋白质Ovomucoid的β-股(图3中的红色)。6C)可能存在于一个内在紊乱的区域(用灰色突出显示)。在我们的模拟中不能考虑这种关联的构象转变,因此复合物的关联率被低估了。综上所述,我们的独立测试证明了我们的计算方法在蛋白-蛋白关联率分类中的稳定性,并且在漏一交叉验证过程中没有过拟合。

图6.
figure6

一个独立测试集的分类结果。8例成功预测病例的关联曲线绘制在(一种),其余2例错误预测病例(2I25和1SGN)绘制在(B.).此外,我们分类失败的复合体(1SGN)的结构见(C

讨论

在之前的模拟研究中,我们采用了周期边界条件。因此,关联率是直接根据预定义的模拟箱容积推导出来的。然而,对一组蛋白质复合物的显著高估被观察到,比较计算的关联率与他们的实验值。我们假设,通过固定模拟框的大小,可能无法适当地捕捉到蛋白质之间的长距离相互作用对其关联的影响。因此,本研究采用了一种新的策略。不同于使用周期边界条件,一对相互作用的蛋白质可以自由地从不同距离的截止点扩散,然后分别计算形成一个相遇复合体的概率。这些不同蛋白质复合物的高维关联概率谱然后由人工智能进行表征,以便根据实验观察对它们的关联率进行分类。正如我们在介绍中提到的,这些实验观察到的关联率形成了一个非常宽的光谱。如果我们能够预测蛋白质相互作用的关联率范围,它将帮助我们理解其在细胞环境中的生物学功能。

目前模型仍有一些限制,可以在将来改进。首先,当我们产生初始构象时,我们分离了蛋白质复合物的两个结合伴侣,并计算了其天然结合界面中残留物之间的距离。同样,当我们判断遇到遇到复合物时,如果已经恢复了本机类似的分子间相互作用,我们检查了。在另一个词中,我们的方法的基础是我们已经已知蛋白质复合物的结构,该蛋白质复合物是未知的并且需要预测。为了将我们的方法应用于具有未知结构的蛋白质复合物,计算建模方法如炸玉米饼[61.在我们的Monte-Carlo模拟之前可以集成到我们的预测中,以构建查询蛋白复合物的初始结构模型。其次,当我们设置初始配置时,绑定接口之间的距离用作唯一的标准。在目前的研究中忽略了蛋白质复合物的其他特征或结合界面上的化学性质。将来,将如何考虑将来在初始构象的集合中嵌入的这些特征在初始构象的集合中,以及它们的特异性调节不同蛋白质复合物的关联。

最后,在目前研究Monte-Carlo模拟的结果用作神经网络分类的唯一输入。还可以添加包括尺寸,电荷分布,疏水性或内在灵活性的蛋白质复合物的结构特征的特征,以丰富输入,这可能允许神经网络提取一些附加图案。作为初步测试,使用关于天然绑定界面的残留物之间的分子间触点的数量的信息用作训练神经网络的独立维度,以及来自蒙特卡罗模拟的原始输入。测试结果表明它没有改善预测(附加文件1:图S6a),可能是由于本机联系人的数量与实验协会率之间的低相关性(附加文件1:图S6B)。因此,需要在将来仔细选择输入特征,以确保来自神经网络模型的更有意义的输出。

在模型的另一方面,目前的研究只能预测相对于阈值的位置。如果能给出更丰富的输出,比如更具体的关联率范围或值,那么该方法肯定会更有用。为了达到这一目标,将在我们的预测框架中实现更复杂的人工智能算法,如支持向量回归[62.].然而,我们需要指出的是,估计关联速率是否比阈值单独更快或更慢仍然对理解蛋白质相互作用的分子机制很重要。前人研究表明,单纯通过无偏扩散形成瞬态络合物的缔合速率常数在10水平上5m-1S.-1[4163.64.],对应于本研究的最佳阈值。高于这一“基础”速率常数的缔合速率的实际值源于蛋白质复合物中分子间的相互作用,如远程静电吸引。因此,通过不同数量级的计算模型(如本研究中开发的方法)计算出的缔合率可以帮助我们表征不同蛋白质复合物结合界面的化学特征。

结论

蛋白质-蛋白质相互作用是许多重要生物过程的基础[65.66.67.].这些相互作用形成的速度的定量估计对蛋白质设计具有广泛的意义[68.和药物发现[69.].实验技术的改善和对蛋白质 - 蛋白质关联的高通量实验数据的集合有助于开发模型和预测关联率的计算方法。在本文中,通过将粗粒化模拟方法集成到基于神经网络的分类模型中,我们提出了一种生物物理信息学平台来估计蛋白质复合物的缔合率是否高于预定阈值。该平台已针对从Skempi数据库中选择的大规模蛋白质复杂基准测试。交叉验证结果表明,当选择最佳阈值时,我们可以达到最佳的性能,特异性、精密度、灵敏度和总准确度均高于70%。通过ROC曲线的统计分析,我们的交叉验证数据的质量进一步证明。通过研究我们方法未能将蛋白质复合物分类到其相应的关联率群体的单个案例,我们建议我们的模型在将来可以通过实施蛋白质的构象动态进入其协会的模拟。最后,考虑到含有十种额外蛋白质复合物的独立测试集,我们可以成功预测其八个八个缔约国的群体。我们的计算模型作为衡量蛋白质 - 蛋白质结合率的现有实验方法的集合是有用的补充。

方法

从SKEMPI中收集用于速率分类的蛋白质复合物基准集

本研究中使用的蛋白质 - 蛋白质结合率的实验数据来自Skempi数据库。它是一个综合数据库,不仅包含绝对值,还包含野生型和突变蛋白复合物的结合常数的变化。还在先前的基准研究中提供了类似的信息,其中包括179个蛋白质复合物的结构和结合亲和力[70].最新版本SKEMPI 2.0包含345个野生型蛋白复合物及其7085个相关突变体的数据[71.].所有这些数据都可以在网上找到https://life.bsc.es/pid/skempi2/.数据库中所有野生型复合物的结构在蛋白质数据库中都有,而突变体的结构是计算建模的,可以从数据库中下载。为了避免在我们的模拟中出现二阶误差,本研究只考虑野生型蛋白复合物。此外,在345个野生型蛋白复合物中,只有114个含有关联率信息。大多数速率常数是用SPR或IASP测量的。

对于这114个条目,我们进一步剔除了不同研究中关联率实验数据不一致的蛋白复合物。结合界面不规则或结合途径不典型的蛋白复合物也从最终基准中剔除。例如,转录共激活因子CBP/p300和核受体p160 (PDB 1KBH)之间形成的复合物是一种合作折叠的螺旋异质二聚体。这种类型的配合物的结合不能用我们的方法来模拟。因此,他们被排除在研究之外。因此,基准中蛋白质复合物的数量从114个进一步减少到102个。粗粒度蒙特卡罗模拟了所有这些剩余条目的蛋白质复合物。然而,在102个蛋白复合物中,我们只成功地生成了96个不同距离截断值下的模拟轨迹。没有完成所有模拟运行的6个条目的PDB为:1A4Y;1 wqj; 2B42; 2NY7; 3BT1; and 4K71. Simulations in these systems were aborted under small values of distance cutoff. As a result, a total number of 96 protein complexes were passed into our final prediction model by feeding them into the neural network for association-rate classification. Detailed information about this benchmark set can be found athttps://github.com/wulab-github/konpred.

一种用于模拟蛋白质结合的基于残留的蒙特卡罗算法

对于基准中每个给定的蛋白质复合物,其从分离的结合伙伴结合的过程是由先前开发的动力学蒙特卡罗模拟方法建模的。具体来说,在模拟中使用了蛋白质结构的粗粒度模型。与之前的粗粒度模型相比,在其他模型中,蛋白质侧链被分为任意一个[72.或多个珠子[73.,这里蛋白质的每个残基都由Cα原子和根据氨基酸的特定性质选择的侧链的代表中心来表示。模拟从初始构象开始,在初始构象中,一个蛋白质复合物的两个分离的结合伙伴被随机放置,而它们相应的结合界面在给定的距离切断范围内被分离D.C[74.].具体地,这是计算为两个结合伴侣的已知界面内所有残留物的质量中心之间的距离。此外,当我们产生初始构象时,两个绑定伙伴之间的相对取向留在随机上。在初始构象之后,每个蛋白质在一个模拟步骤内随机扩散。基于物理的评分功能用于在模拟期间引导蛋白质的漫射。评分功能包含从Kim-Hummer模型采用的静电交互来评估静电交互[75.76.]以及术语估算蛋白质之间的疏水效应,该蛋白质由Kyte和Doolittle从先前的研究中取出[77.].基于计算能量,大都会标准[78.,用于确定接受相应扩散运动的概率。如果在每个仿真步骤结束时通过相应的接口形成一个遇到综合体,则仿真轨迹终止。否则,将重复上述模拟过程,直到达到最大持续时间。

在实际应用中,该仿真算法在16到25 Å的10个不同距离截断点下并行执行(图1)。1一种)。如果距离截止值设定为小于16,则两个相互作用蛋白之间的结合界面的分离将不够远,这导致在基准中的一些蛋白质复合物的初始配置期间导致立体化学碰撞。另一方面,关联概率随着距离截止的增加而下降。如图1所示。3.C,当距离截断点为25Å时,基准中大多数蛋白质复合物的关联概率已经达到0。如果我们在具有更大距离截断的模拟中花费计算资源,那么它的意义就会更小。因此,在本研究中,使用距离截止范围在16 - 25 Å之间进行了模拟。给定一个特定的距离截止值103.轨迹被执行。每个轨迹由10个组成3.步骤和每个步骤为0.01 ns,因此每个轨迹的总模拟时间为10 ns。此外,每个轨迹从相对不同的初始构象开始,包括两个绑定伙伴的界面之间的不同的相对取向。然而,它们的初始距离在这些轨迹中的给定截止值之下。

遇到复合物可以成功形成其中的一些103.轨迹,而蛋白质在其他轨迹的尽头彼此扩散(图。1a).我们假设当综合体中至少恢复了三个原生接触时,就可以形成一个相遇综合体。如果两个残基的代表性中心之间的距离小于2Å,则认为在蛋白质复合物的天然结构中观察到的距离,则认为在两个残基之间形成的分子间相互作用被恢复。这是基于在所有10个关卡中形成了多少个偶遇复合体3.最后,蛋白质复合物的缔合谱由10个概率的总维度组成,这些概率对应于在16到25Å的距离截止下计算的缔合概率。因此,这些谱用于来自基准的所有蛋白质复合物将被输入神经网络模型,作为关联率分类的输入(图。1一种)。

通过系统地调整模拟参数,进一步验证了对模型蛋白质 - 蛋白质关联的方法的可靠性。有关模型验证的详细信息可以在附加文件中找到1

基于神经网络的蛋白质-蛋白质关联率分类

采用前馈反向传播网络对蛋白质关联率进行分类。对于一个特定的蛋白质复合物,网络的输入神经元是十维的。如上一节所述,每个维度给出关联概率,该关联概率是在距离截断点16到25 Å下由蒙特卡罗模拟计算得出的。与给定的输入关联概要(图。1B),输出处于一个维度,其通知关联速率是否高于预定阈值(图。1b).网络进一步包含一个包含四个神经元的隐藏层。采用s形激活函数。采用误差平方和函数的反向传播学习算法对每个神经元的权值进行修正[74.].在每个周期中监视学习过程中的误差和的幅度。当网络收敛时,学习被终止。

为了校准分类性能,将休假交叉验证策略应用于基准集。在交叉验证期间,从基准测试中选择一个蛋白质复合物,而剩下的95个条目被认为是培训集。基于将每个复合物的实验确定的关联率与阈值进行比较,将训练集中的复合物分为两类。如果其关联速率低于阈值,则复合物属于类别,否则它属于二级。培训集的两个输入和输出都被送入神经网络模型。在训练之后,所选择的测试蛋白质复合物的关联谱被用作预测的输入。将预测的结果与真实协会率进行比较。在上述程序经过所有蛋白质复合物进行测试中,通过计算真正的阳性率(TPR)和假阳性率(FPR)以及从每个综合复杂的概要来实现分类的整体性能,以及总体预测的特异性,灵敏度,精度和准确性。详细评估我们的交叉验证结果在“结果和讨论”中描述。

分类程序可于以下网址下载:https://github.com/wulab-github/konpred..该包包含可执行文件,该可执行文件预测输入蛋白复合物中的两个结合伴侣的关联率是否高于预定阈值。它还包含基准组中的96个蛋白质复合物的列表及其计算的关联配置文件用作神经网络模型的输入。该包提供了如何使用输入和输出文件的模板获取预测的指令和演示示例(PDB 7CEI)。在Linux平台上的程序工作和下载是免费的学术用户。

数据和材料的可用性

数据和源代码可在以下网站免费获得https://github.com/wulab-github/konpred.

缩写

Skempi:

突变蛋白质相互作用动力学和能量学的结构数据库

参考

  1. 1.

    Plewczynski D,Ginalski K.互联蛋白组:预测细胞中的蛋白质 - 蛋白质相互作用。细胞摩尔Biol Lett。2009; 14(1):1-22。

    CASPubMed文章谷歌学术

  2. 2.

    蛋白质-蛋白质识别位点的结构。中国生物化学(英文版)。

    CASPubMed文章谷歌学术

  3. 3.

    Xenarios I,Rice DW,Salwinski L,Baron Mk,Marcotte Em,Eisenberg D. DIP:互动蛋白质数据库。核酸RES。2000; 28(1):289-91。

    CASPubMedpmed中央文章谷歌学术

  4. 4.

    周海霞,贝茨PA。蛋白质关联机制和动力学建模。中国生物医学工程学报。2013;23(6):887-93。

    CASPubMed文章谷歌学术

  5. 5.

    周海霞。蛋白质-蛋白质结合动力学的基本方面。化学启2009;109(3):839 - 60。

    CASPubMed文章谷歌学术

  6. 6。

    Gabdoulline RR, Wade RC。生物分子扩散。中国生物医学工程学报。2002;12(2):204-13。

    CASPubMed文章谷歌学术

  7. 7。

    周HX。生物学家的率理论。q Rev Biophys。2010; 43(2):219-93。

    PubMedpmed中央文章谷歌学术

  8. 8。

    用蛋白质工程方法研究巴纳酶与其多肽抑制剂巴斯塔的相互作用。生物化学,1993;32(19):5145 - 50。

    CASPubMed文章谷歌学术

  9. 9。

    蛋白质-蛋白质相互作用的能量分析:单突变和双突变周期的barase -barstar界面分析。中国生物医学工程学报,1998,24(2):478 - 486。

    CASPubMed谷歌学术

  10. 10。

    蛋白质的快速、静电辅助结合。中国生物医学工程学报。1996;3(5):427-31。

    CASPubMed文章谷歌学术

  11. 11.

    白介素-4/白介素-4受体α链相互作用的动力学。利用重组白细胞介素-4结合蛋白的生物传感器研究。acta Biochem. 1996; 40(1): 252-61。

    CASPubMed文章谷歌学术

  12. 12.

    Radic Z,Kirchhoff Pd,Quinn DM,McCammon Ja,泰勒P.静电影响对乙酰胆碱酯酶的配体粘合的动力学。活性中心配体和筋膜之间的区别。J Biol Chem。1997年; 272(37):23265-77。

    CASPubMed文章谷歌学术

  13. 13.

    Wallis R,Leung KY,Osborne MJ,James R,Moore GR,Kleanthous C.蛋白质-蛋白质识别的特异性:保守的Im9残基是大肠杆菌素E9 DNA酶-Im9复合物稳定性的主要决定因素。生物化学。1998;37(2):476–85.

    CASPubMed文章谷歌学术

  14. 14.

    FRISCH C,FERSHT AR,Schreiber G.晶粒酶和Barstar缔合的过渡状态结构的实验分配。J Mol Biol。2001; 308(1):69-77。

    CASPubMed文章谷歌学术

  15. 15.

    Macpherson Re,Ramos SV,Vandenboom R,Roy BD,Peters SJ。骨骼肌蛋白,ATGL和CGI-58,休息时的相互作用和刺激收缩。AM J Physiol Seng Intent Comp Physiol。2013; 304(8):R644-650。

    CASPubMedpmed中央文章谷歌学术

  16. 16。

    Nakamoto RK, Baylis Scanlon JA, Al-Shawi MK. ATP合酶的旋转机制。中国生物化学学报。2008;476(1):43-50。

    CASPubMedpmed中央文章谷歌学术

  17. 17。

    基于蛋白质-蛋白质相互作用网络的转录调控模块的系统识别。核酸学报2014;42(1):e6。

    CASPubMed文章谷歌学术

  18. 18。

    Pawson T,Nash P.蛋白质相互作用定义了信号转导中的特异性。基因发展,2000年;14(9):1027–47.

    CASPubMed谷歌学术

  19. 19。

    Li Y, Mariuzza RA。NK细胞受体识别细胞和病毒配体的结构基础。Immunol前面。2014;5:123。

    PubMedpmed中央谷歌学术

  20. 20.

    Boyce BF,Xing L.RANKL/RANK/OPG在骨建模和重建中的作用。Arch Biochem Biophys。2008;473(2):139–46.

    CASPubMedpmed中央文章谷歌学术

  21. 21。

    Daghestani HN,Day BW。表面等离子体共振,谐振镜,谐振波导光栅和双偏振干涉术的理论和应用。传感器。2010; 10(11):9630-46。

    CASPubMedpmed中央文章谷歌学术

  22. 22。

    棕色NG,CHOW DC,SankAran B,Zwart P,Prasad BV,Palzkill T.驱动β-内酰胺酶抑制蛋白-II(BLIP-II)与β-内酰胺酶的紧密相互作用的分析。J Biol Chem。2011; 286(37):32723-35。

    CASPubMedpmed中央文章谷歌学术

  23. 23.

    突变蛋白相互作用的结构动力学和能量数据库及其在经验模型中的应用。生物信息学(英国牛津大学)。2012年,28(20):2600 - 7。

    CAS文章谷歌学术

  24. 24.

    王志强,王志强,王志强。蛋白质-蛋白质结合的原子水平表征。美国国家科学院学报。2019年,116(10):4244 - 9。

    CASPubMedpmed中央文章谷歌学术

  25. 25.

    利用分子动力学模拟和马尔可夫模型揭示蛋白质-蛋白质结合动力学的原子细节。Nat化学2017;9(10):1005 - 11所示。

    CASPubMed文章谷歌学术

  26. 26.

    王志强,王志强,王志强。基于布朗动力学的蛋白质-蛋白质关联率研究。Biophys J。2008年,95(11):5030 - 6。

    CASPubMedpmed中央文章谷歌学术

  27. 27.

    溶菌酶二聚反应的布朗动力学模拟。分子模型。2005;12(1):34-41。

    CASPubMed文章谷歌学术

  28. 28。

    Forlemu ny,Njabon en,Carlson Kl,Schmidt es,Waingeh Vf,Thomasson Ka。F-actin和糖酵解酶关联的离子强度依赖性:褐色动力学模拟方法。蛋白质。2011; 79(10):2813-27。

    CASPubMedpmed中央文章谷歌学术

  29. 29。

    陈志强,陈志强,陈志强,陈志强,陈志强。莱茵衣藻氢化酶与铁还蛋白关系的分子动力学研究。Biophys J。2008, 95(8): 3753 - 66。

    CASPubMedpmed中央文章谷歌学术

  30. 30.

    竞争反应的Ermakova E. brown动力学模拟:二聚酶和二聚酶与barstar的结合。Biophys化学2007;130(1 - 2):26-31。

    CASPubMed文章谷歌学术

  31. 31.

    Gabdoulline RR, Wade RC。蛋白质 - 蛋白质协会:利用布朗动力学模拟影响关联率的因素调查。J Mol Biol。2001; 306(5):1139-55。

    CASPubMed文章谷歌学术

  32. 32.

    Frembgen-Kesner T, Elcock AH。来自柔性粗粒布朗动力学模拟的绝对蛋白-蛋白缔合速率常数:分子间水动力相互作用在巴纳斯-巴斯达缔合中的作用。Biophys J。2010, 99 (9): l75 - 77。

    CASPubMedpmed中央文章谷歌学术

  33. 33。

    我们必须在蛋白质的布朗动力学模拟中明确地模拟离子吗?acta Chem Phys. 2012; 36(12):125102。

    PubMed文章CAS谷歌学术

  34. 34。

    7.李志刚,李志刚,李志刚。70S核糖体与延伸因子结合的动力学研究[j] .生物高分子学报,2011;32(9):641 - 646。

    CASPubMedpmed中央文章谷歌学术

  35. 35.

    加文辉,金S.蛋白质缔合反应的加权系综布朗动力学模拟.生物物理杂志,1996;70(1):97-110。

    CASPubMedpmed中央文章谷歌学术

  36. 36.

    RojnuckArin A,Liveay Dr,Subramaniam S.双分子反应模拟使用加权集合布朗动力学和休斯顿布朗动力学计划。Biophys J. 2000; 79(2):686-93。

    CASPubMedpmed中央文章谷歌学术

  37. 37.

    Zou G,Skeel Rd,Subramaniam S.偏见的Brownian Dynamics用于速率恒定计算。Biophys J. 2000; 79(2):638-45。

    CASPubMedpmed中央文章谷歌学术

  38. 38.

    zou g,skeel rd。稳健的偏见布朗动态,用于速率常数计算。Biophys J. 2003; 85(4):2147-57。

    CASPubMedpmed中央文章谷歌学术

  39. 39.

    周HX。静电相互作用与扩散对蛋白质 - 蛋白质关联动力学影响的布朗尼动力学研究。Biophys J. 1993; 64(6):1711-26。

    CASPubMedpmed中央文章谷歌学术

  40. 40.

    Northrup SH, Luton JA, Boles JO, Reynolds JC。蛋白质结合的布朗动力学模拟。中国计算机科学(英文版)1988;1(4):291-311。

    CASPubMed文章谷歌学术

  41. 41.

    Northrup SH, Erickson HP。用布朗动力学计算机模拟解释蛋白质-蛋白质结合动力学。美国国家科学院学报。1992年,89(8):3338 - 42。

    CASPubMedpmed中央文章谷歌学术

  42. 42.

    基于布朗动力学模拟的线性DNA分子的环化动力学研究。acta botanica sinica(云南植物学报);2002;

    CASPubMedpmed中央文章谷歌学术

  43. 43.

    Mereghetti P, Gabdoulline RR, Wade RC。蛋白质溶液的布朗动力学模拟:结构和动力学性质。Biophys j . 2010; 99(11): 3782 - 91。

    CASPubMedpmed中央文章谷歌学术

  44. 44.

    林继,培拉塔顿DN。细胞色素C2与细菌光合反应中心电子转移的模拟:天然蛋白质和双突变体的布朗动力学分析。J Phys Chem B. 2005; 109(15):7529-34。

    CASPubMed文章谷歌学术

  45. 45。

    De Rienzo F, Gabdoulline RR, Menziani MC, De Benedetti PG, Wade RC。黄志强。细胞色素与胞浆色素结合的静电分析和布朗动力学模拟。生物物理学报2001;81(6):3090-104。

    PubMedpmed中央文章谷歌学术

  46. 46。

    Haddadian EJ,Gross EL.莱茵衣藻中细胞色素f结构及其小结构域缺失与细胞色素c6和质体蓝素相互作用的布朗动力学研究.生物物理杂志.2006;90(2):566-77。

    CASPubMed文章谷歌学术

  47. 47。

    hadadian EJ, Gross EL。细胞色素b6f复合物的管腔结构域与质体青苷和细胞色素c6相互作用的布朗动力学研究:Rieske FeS蛋白对相互作用的影响。Biophys J。2006, 91(7): 2589 - 600。

    CASPubMedpmed中央文章谷歌学术

  48. 48.

    Gabdoulline RR,Wade RC.关于扩散和热激活对层粘连磷脒质体花青素和细胞色素f之间电子转移的贡献:非极性去溶剂相互作用和电子转移事件的显式建模的布朗动力学模拟.J Am Chem Soc.2009;131(26):9230–8。

    CASPubMed文章谷歌学术

  49. 49.

    KMIECIK S,Gront D,Kolinski M,Wieteska L,Dawid Ae,Kolinski A.粗粒蛋白模型及其应用。Chem Rev. 2016; 116(14):7898-936。

    CASPubMed文章谷歌学术

  50. 50.

    Urbanc B, Borreguero JM, Cruz L, Stanley HE。蛋白质折叠和聚集的从头计算离散分子动力学方法。方法Enzymol。2006;412:314-38。

    CASPubMed文章谷歌学术

  51. 51.

    Bereau T,Deserno M.蛋白质折叠和聚集的通用粗粒模型。J Chem Phys。2009; 130(23):235106。

    PubMedpmed中央文章CAS谷歌学术

  52. 52.

    白华,杨凯,于东,张超,陈飞,赖林。基于结构性质的蛋白质相互作用动力学常数预测。蛋白质。2011;79(3):720 - 34。

    CASPubMed文章谷歌学术

  53. 53.

    Moal IH, Bates PA。动力学速率常数预测支持蛋白质结合构象选择机制。中国科学:地球科学(英文版),2012;

    CASPubMedpmed中央文章谷歌学术

  54. 54.

    基于粗粒度模拟和机器学习的蛋白质关联率预测。Sci众议员2017;7:46622。

    CASPubMedpmed中央文章谷歌学术

  55. 55.

    陈家,王B,吴Y.胶囊蛋白样折叠中的结构表征及功能预测细胞粘附和细胞信号传导。J Chem Inf模型。2018; 58(2):532-42。

    CASPubMedpmed中央文章谷歌学术

  56. 56.

    汉利是。接受者工作特性(ROC)方法-最先进的。危重诊断影像。1989;29(3):307-35。

    CASPubMed谷歌学术

  57. 57。

    通过比较局部结构环境的相似性来了解蛋白质的功能。生物物理学报。2017;1865(2):142-52

    CAS文章谷歌学术

  58. 58。

    庞旭,周海霞。蛋白质-配体结合的速率常数和机制。生物物理学报。2017;46:105-30。

    CASPubMedpmed中央文章谷歌学术

  59. 59。

    Tetley GJN,MOTT HR,Cooley RN,Owen D.疏水性相互作用驱动的码头和聚结机制治理CDC42与其效应蛋白ACK的结合。J Biol Chem。2017; 292(27):11361-73。

    CASPubMedpmed中央文章谷歌学术

  60. 60

    Barozet A, Bianciotto M, Simeon T, Minoux H, Cortes J.抗体Fab片段结合后构像变化及其对对接算法性能的影响。Immunol。2018;200:5-15。

    CASPubMed文章谷歌学术

  61. 61.

    基于模板的蛋白质相互作用结构模型研究。2014; 24:10-23。

    CASPubMed文章谷歌学术

  62. 62.

    预测球形蛋白质实际价值波动的结构特征。蛋白质。2012;80(5):1425 - 35。

    CASPubMedpmed中央文章谷歌学术

  63. 63.

    周HX。相互作用电位提高蛋白-蛋白关联率:基于局部玻尔兹曼因子预测的准确性。Biophys J。1997年,73(5):2441 - 5。

    CASPubMedpmed中央文章谷歌学术

  64. 64.

    Schlosshauer M,Baker D.从简单的扩散模型忽视远程相互作用,自由能障碍和景观坚固性的简单扩散模型的现实蛋白质 - 蛋白质结合。PROT SCI公共蛋白质SOC。2004; 13(6):1660-9。

    CAS文章谷歌学术

  65. 65.

    齐默尔曼SB,明顿AP。大分子聚集:生化,生物物理和生理后果。生物物理学报1993;22:27-65。

    CASPubMed文章谷歌学术

  66. 66.

    周海霞,Rivas G, Minton AP。大分子聚集与限制:生物化学、生物物理和潜在的生理后果。《生物物理学报》2008;37:375-97。

    CASPubMedpmed中央文章谷歌学术

  67. 67.

    润滑酚K.细胞质结构和细胞质的物理性质:体积,粘度,扩散,细胞内表面积。INT转速cytol。2000; 192:189-221。

    CASPubMed文章谷歌学术

  68. 68.

    Lutz S, Iamurri SM。蛋白质工程:过去、现在和未来。方法Mol Biol (Clifton, NJ)。2018; 1685:1-12。

    CAS文章谷歌学术

  69. 69。

    蛋白-蛋白相互作用药物的设计和开发-第一部分。2019;19(6):393。

    CASPubMed文章谷歌学术

  70. 70。

    Vreeven T,Moal Ih,Vangone A,Pierce BG,Kastritis Pl,Torchala M,Chaleil R,Jiménez-Garcíab,Bates Pa,Fernandez-Reco J,等。综合蛋白质 - 蛋白质交互基准的更新:对接基准版本5和亲和基准2. J Mol Biol。2015; 427(19):3031-41。

    CASPubMedpmed中央文章谷歌学术

  71. 71

    Jankauskaite J,Jimenez-Garcia B,Dapkunas J,Fernandez-Reco J,Moal Ih。Skempi 2.0:蛋白质 - 蛋白质结合能量,动力学和突变热力学变化的更新基准。生物信息学(英国牛津大学)。2019; 35(3):462-9。

    CAS文章谷歌学术

  72. 72

    Kolinski A.蛋白质建模和结构预测,具有降低的表示。Acta Biochim Pol。2004; 51(2):349-71。

    CASPubMed文章谷歌学术

  73. 73.

    De Jong DH,Singh G,Bennett Wf,Arnarez C,Wassenaar Ta,SchäferLV,血料X,Tieleman DP,Marrink SJ。改进马提尼粗粒子力场的参数。J Chem理论计算。2013; 9(1):687-97。

    PubMed文章CAS谷歌学术

  74. 74.

    李军,程建辉,史建宇,黄飞。BP神经网络算法简介及改进。见:靳东,林森,编辑。计算机科学和信息工程的进展。柏林:施普林格;2012.553 - 558页

  75. 75.

    多蛋白复合物模拟的粗粒度模型:泛素结合的应用。中华医学杂志。2008;37(5):1416-33。

    CASPubMed文章谷歌学术

  76. 76.

    Ravikumar km,黄W,阳S.粗粒模拟蛋白质 - 蛋白质协会:能源景观的观点。Biophys J。2012; 103(4):837-45。

    CASPubMedpmed中央文章谷歌学术

  77. 77.

    Kyte J, Doolittle RF。显示蛋白质水解特性的一种简单方法。中华医学会昆虫学分会。

    CASPubMed文章谷歌学术

  78. 78.

    Metropolis N, Rosenbluth AW, Rosenbluth MN, Teller AH, Teller e用快速计算机计算状态方程。acta physica sinica(物理学报),2003;21(6):1087-92。

    CAS文章谷歌学术

下载参考

确认

作者感谢我们实验室的所有成员进行了宝贵的讨论。

资金

出版费用由美国国立卫生研究院资助,资助号为R01GM120238和R01GM122804。这项工作还得到了阿尔伯特爱因斯坦医学院的启动资助。计算支持由阿尔伯特爱因斯坦医学院高性能计算中心提供。

作者信息

从属关系

作者

贡献

K.D和Y.W.设计研究;K.D.和Y.W.进行研究;K.D.和Y.W.分析数据;y.w.写了这篇论文。 All authors have read and approved the manuscript.

相应的作者

对应于英豪吴

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

相互竞争的利益

两位作者宣称没有相互竞争的经济利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充资料

额外的文件1。

支持信息包含了蛋白质-蛋白质关联蒙特卡罗模拟的模型验证;从图S1到图S6的支撑图;支持表S1和表S2。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Dhusia,K.,Wu,Y.基于生物物理信息学的蛋白质 - 蛋白质结合分类。欧宝娱乐合法吗22,408(2021)。https://doi.org/10.1186/s12859-021-04323-0

下载引用

关键词

  • 蛋白质协会
  • 动力学蒙特卡罗模拟
  • 神经网络模型