跳过主要内容

用从片段库中提取的结构信息补充序列衍生的特征,用于蛋白质结构预测

摘要

背景

片段库在基于片段组装的蛋白质结构预测中起着关键作用,蛋白质片段组装形成完整的三维结构。除了片段组装之外,片段库中还没有系统地提取和使用丰富而准确的结构信息。

方法

为了更好地利用蛋白质结构预测的宝贵结构信息,我们从片段文库中提取了七种类型的结构信息。通过将片段文库转化为蛋白质特异性蛋白质折叠和编码片段文库作为蛋白质性能预测的结构特征来扩大这种结构信息的使用。

结果

片段库提高了蛋白质折叠的准确性,并在扭转角度和残差距离等预测特性方面优于最先进的算法。

结论

我们的作品意味着从片段文库中提取的富有结构信息可以补充序列导出的特征来帮助蛋白质结构预测。

同行评审报告

背景

蛋白质结构预测是计算生物学中最具挑战性和最活跃的研究领域之一[123.].经过几十年的研究,片段组装被证明是最成功的从头开始方法之一[24.尽管最新的端到端解决方案AlphaFold2带来了颠覆性的进步[5.].片段组件已广泛应用于许多流行的系统,例如Rosetta [6.和夸克[7.].高品质的片段库是决定因素之一,以片段的成功组装[8.9.].许多片段库构建算法,如NNMake [10.], LRFragLib [8.], Flib-Coevo [11.]和Deepfraglib [12.]已经被提议为目标蛋白的每个位置招募尽可能多的近天然片段。碎片库包含丰富的结构信息,包括二级结构和扭转角等一维结构性质,以及重原子对之间的距离和方向等二维结构性质。虽然片段库在片段组装中被广泛使用,但丰富的结构信息尚未被其他蛋白质结构预测方法系统分析和利用。

alphafold举例说明[13.],trrosetta [14.]和gdfold [15.]最近的研究通过优化来自预测蛋白质特性的潜力,如C,近期使用梯度下降来折叠蛋白质结构,例如C.β−Cβ成对的距离和扭转角。这些方法通常包括两个阶段:在蛋白质性质预测阶段,预测蛋白质序列的多种结构性质;在基于梯度下降的蛋白质折叠阶段,结构是通过最小化由蛋白质性质衍生的能量势来生成的。由于能量势主要来源于预测的蛋白质性质,预测蛋白质性质的准确性在很大程度上决定了最终预测结构的质量。

在蛋白质性质预测的近期研究和工业管道中,如二级结构预测[16.17.扭转角度[16.距离距离距离[18.[源自蛋白质序列,源自蛋白质序列,最广泛使用的特征,包括序列分布和多个序列对准。当与精心设计的算法相结合时,这些特征导致经验良好的预测。然而,这些特征仅利用顺序信息,并将来自已知的蛋白质结构的新特征掺入可以作为补体,因此有益于蛋白质性能预测。此外,最近的一些作品(如[)19.20.]采用其他生物信息学领域的结构信息,相当大的性能增益表明蛋白质结构信息的巨大潜力。

在这项研究中,利用由片段文库提供的结构信息,我们首先直接提取从片段文库和用于评价提出新颖片段级度量的多个结构特性。我们使用DeepFragLib,国家的最先进的片段文库构建方法最近CASPs基准时[21],为后续研究生成片段库。然后我们通过使用片段文库作为基于梯度下降的蛋白质折叠的电位和作为蛋白质性能预测的深层学习模型的输入特征来扩大这种结构信息的使用。对于蛋白质折叠,从片段文库中直接提取的蛋白质性质配有一组加权高斯混合物模型(WGMM),然后作为蛋白质特定电位掺入梯度 - 下降基础的折叠系统,SAMF [22].对于蛋白质属性预测,我们设计了FA-DNN,这是一个使用片段库编码器将片段库编码成特征的深度神经网络,并预测多种蛋白质属性。不同于SPOT-1D和Spider3等先进的蛋白质性质预测器,它们只使用顺序信息预测1D性质,即扭转角和主骨架角,FA-DNN进一步从片段库中提取结构信息,预测1D性质和2D性质(例如,残差间隔距离),具有较高的精度。CASP13 FM(自由建模)、CASP13 TBM(基于模板的建模)的评估,连续自动化模型评估(CAMEO)的“硬”目标[22最新的CASP14 FM表明,掺入片段文库的掺入改善了蛋白质性能预测和蛋白质折叠的性能。

我们总结了我们的研究结果如下。首先,我们对片段图书馆的综合分析清楚地表明了他们促进蛋白质结构相关任务的潜力。其次,我们试图利用片段文库作为基于梯度下降的蛋白质模拟管道的潜在功能,带来了TM评分的小改善,但它在质量评估中适度地帮助。最后,我们提出的FA-DNN采用片段图书馆作为输入显示出扭转角度的卓越预测性能,与四个独立测试集上的最先进的蛋白质性能预测器相比,骨架角度和Cβ距离。

结果

丰富和准确的结构信息片段库

片段库最初设计用于基于片段组装的模拟,片段库是短模板结构(即片段)的列表,被认为类似于目标蛋白结构的连续区域。片段库由数千个片段组成,包含了靶蛋白丰富的结构信息,但这些信息缺乏探索,很少在片段组装之外使用。为了定量了解片段库中嵌入的结构信息,我们构建了CASP13 FM、CASP13 TBM和CAMEO三个独立测试数据集的蛋白质片段库[23]使用三个最先进的算法,Deepfraglib [12.], NNMake [10.]和flib-coevo [11.),分别。整体性能(图。1在三个测试集上,在两个经典度量,精度和覆盖范围内,在不同的RMSD截止值范围为0.1至2.0埃。Deepfraglib优于NnMake和纤维纤维,精度较大,并且在2.0埃截止值下达到约90%的覆盖率,这表明Deepfraglib为靶蛋白的大多数位置征收更多的近似原生片段而不是其他算法。

图。1
图1

在CASP13 FM,CASP13 TBM和CAMEO测试集的所有目标片段库的质量分析。一种B.NNMake(蓝色)、Flib-Coevo(绿色)和DeepFragLib(红色)构建的片段库使用精度(一种)及承保范围(B.)的一系列RMSD阈值。C-F使用片段水平测量来评估片段图书馆,用于七个结构属性,即片段二级结构的准确性,扭转角度,φ,ψ,骨干角误差,θ,τ和c的误差的误差α−Cα距离和Cβ−Cβ距离。见附加文件1:图S1-S3为各个测试集的性能

虽然精确度和覆盖率可以用于评估片段库的总体水平,但它们通常不能反映片段库的详细结构属性的准确性。为了定量分析片段库的结构信息,我们设计了7个新的片段级度量指标,用于对应的结构特性,即片段二级结构的精度、两个扭转角的误差(ϕ和ψ)、两个主角θ和τ [24Cα−Cα和Cβ−Cβ成对的距离(更多细节见方法)。这些片段级指标被定义为目标蛋白所有位置的误差期望值(或片段二级结构的准确性),其中每个位置的期望被定义为该位置所有片段结构属性的误差期望值(或准确性)。因此,与以往的蛋白质性质评价指标(如二级结构的准确性或扭转角的准确性)不同,直接在单个残基上定义并对目标蛋白进行评价,我们提出的指标都是在片段级别上定义的,因此可以更好地评估由不同算法构建的片段库。如图所示。1C-F和附加文件1图S1-S3,我们从片段库中提取了7种结构属性,并使用我们提出的指标进行了分析。所有的片段库在片段二级结构上都实现了较高的精度,在其他属性上的错误值较低,其中DeepFragLib优于其他两种算法,除了ERRϕ.这些结果表明,片段库提供了丰富和高质量的结构信息,这是以往缺乏评价的。为了获得更准确的结构信息进行蛋白质结构预测,我们根据预测的RMSD值,使用T = 0.1的softmax函数对DeepFragLib中的每个片段进行置信评分,构建加权片段库(详见Methods)。如附加文件所示1:表S1,来自加权片段库的所有七种结构信息比Deepfraglib建造的Vanilla片段库更准确,这表明预测的RMSD值可以作为从片段库中提取更准确的结构信息的置信度分数。此外,我们从Rosetta V3.10运行AbinitiorElax [25,分别使用DeepFragLib和NNMake (Rosetta中默认的片段库构建算法)构建基于片段组装的蛋白质折叠管道(详见补充材料)。结果(额外的文件1表S2)显示,DeepFragLib总体上具有较好的片段组装性能。考虑到DeepFragLib在结构信息的准确性和对蛋白质结构预测的适用性方面都优于其他的研究机构,所以我们选择DeepFragLib进行后续的实验。

片段库作为梯度下降蛋白质折叠的潜力

基于梯度 - 血基血液折叠是一种方法,通过直接最小化蛋白质特征来预测蛋白质3D结构。蛋白质特征的质量通常确定预测结构的准确性。考虑到大多数限制,包括残留间成对距离和扭转角度[13.14.,我们建议用从片段库中提取的结构信息来补充这些约束。因此,我们设计了一种方法,将片段库的结构信息转化为蛋白质特异性电位,并利用trRosetta预测的残基间距离电位折叠蛋白质结构。如图所示。2首先,该方法开始于一个“平滑”操作,通过使用滑动窗口将可变长度的片段规范化为一系列长度为7个留数的子片段。然后,提取平滑片段库中不同种类的蛋白质属性,并采用加权高斯混合模型(wGMM)建模。最后,将这些wGMM模型通过负对数似然函数转换为蛋白质特异性电位,并纳入距离电位中进行蛋白质结构预测(详见方法)。

图2
图2.

从片段文库构建WGMM模型和蛋白质特异性潜力的总管道。一种将片段库转换为基于梯度下降的蛋白质折叠电位的整个管道。可变长度的碎片首先通过平滑切割成一系列7个剩余碎片。一个片段的颜色表示它的“源”片段(即第二个子图中三个带有7个蓝色残基的片段,都是从第一个子图中带有9个蓝色残基的片段中切下来的)。从平滑片段库中提取蛋白质属性,并采用加权高斯混合模型(wGMM模型)进行拟合。将wGMM模型转换为电势并在SAMF中使用[22用于蛋白质折叠。B.-E.用于φ的WGMM模型的可视化(B.),ψ(C),θ(D.),τ(E.T0969-D1第67位第一残差。红色的线表示天然蛋白质结构的相应性质

该方法从片段库中提取了6种结构性质,包括两个扭转角(ϕ和ψ)、两个主干角(θ和τ)和片段内两个成对距离(Cα−Cα和Cβ−Cβ).为每个属性和靶蛋白的每个位置构建了WGMM模型。要选择每个WGMM模型中的组件数,我们使用从2到30的一系列组件拟合扭转角度φ上的WGMMS,并使用平均的BIC(贝叶斯信息标准)得分作为评估Casp12FM数据集的标准.如附加文件所示1图S4,四个分量的wGMM模型的BIC得分最低,因此选择四个分量进行wGMM建模。数字2b-e举例说明扭转角和主骨角在wGMM模型中的分布(T0969-D1第67位的第一个残差)。每个用蓝色表示的参数化分布形成一个峰值,对应属性的ground truth用红色表示的与每个模型中的峰值非常接近,说明利用wGMM模型拟合片段库中提取的结构信息是合理的。

为了评估蛋白质折叠结构信息的有用性,我们在所有三个独立的测试集上基准测试这种方法。采用Trrosetta产生的距离约束作为基本电位,为每个靶蛋白分别产生50个诱饵,或者没有分别来自片段WGMM模型的电位的潜在蛋白质,并且所有诱饵按照由所有电位的总和分配的能量排序。的top1 decoys with lowest energies and the best decoys with highest TM-Score values were both picked up, and two metrics including the averaged TM-Score of all targets and the number of targets that have correct topologies, i.e. with TM-Score greater than 0.5 [2627],用于评估。如表所示1,当在所有独立的测试集进行评估时,具有WGMM型号的预测结构优于所有四个度量中没有WGMM模型的结构,尤其是在TOP1诱饵的平均TM分数上实现了8.84%的提高。该结果表明由WGMMS建模的片段文库的结构信息提高了蛋白质结构预测的准确性。由于蛋白质目标在拓扑方面显着变化,因此测试集内的预测蛋白质结构表现出广泛的TM分数值,这导致了适度的标准偏差。为了进一步检查采用片段衍生电位时改善的重要性,然后我们对三个测试集中的所有蛋白质目标进行单面成对的学生T检验(测试集表示为表格中的“整体”1).的P.最佳模型和模型TOP1值分别为0.01315和0.00098,这表明预测的蛋白质结构的改善显著。此外,值得注意的是,从片段文库使用电位变窄最好诱饵和TOP1诱饵之间TM-得分值的间隙从0.1189到0.0827,这表明在预测更准确的是,电势从片段文库的不仅有其值蛋白质结构,也有助于选择预测诱饵之间更天然结构。

表1蛋白质折叠的总体性能与源自片段文库的潜力

片段库作为蛋白质性质预测的特征

除了直接利用片段文库以促进蛋白质结构预测,从片段文库中提取的结构信息也可以用作蛋白质预测的特征。为此目的,我们设计了FA-DNN(辅助深度神经网络),是由片段库编码器模块和结构性预测器模块组成的深神经网络(附加文件1:图S5)。片段库编码器以片段库为输入,通过深度神经网络对其结构信息进行编码。蛋白质属性预测器采用片段库编码器输出的隐藏表示以及序列派生特征作为输入,预测多种蛋白质属性,即主干扭转角(ϕ, ψ, θ和τ)和Cβ−Cβ成对的距离(更多细节见方法)。我们首先通过使用双鱼座从PDB剔除5916高质量链,建立了一个名为HR5916的数据集[28]并随机将它们分成培训集和验证集,其中分别包含90%和10%的链条。所有超参数都在HR5916验证集上进行了优化。为了进行公平比较,我们还通过仅删除片段编码器来设计基线模型。基线模型接受了与控制相同的超级分数。在三个独立的测试集中评估FA-DNN和基线模型的性能,即CASP13 FM,CASP13 TBM和Cableo。还评估了较少的参数模型,其简单地平均来自片段库的属性值。值得注意的是,考虑到该模型仅提供仅用于碎片内残留物对的残留距离的预测,它不能与C上的其他两个模型进行比较β−Cβ距离预测。

我们通过平均绝对误差(MAE)来评估蛋白质性质的实值预测的准确性。如图所示。3.,在CASP13 FM,CASP13 TBM和Comeo测试集的所有目标上进行评估(附加文件中显示的相应评估1:图S6-S8),FA-DNN在所有四个扭转角度的准确性方面具有大边距的基线模型,同时简单地从片段文库中平均蛋白质1D性能实现了最糟糕的性能。用于预测成对c cβ−Cβ距离,片段文库的结合功能导致精度温和的改善。

图3.
图3.

FA-DNN在三个独立测试集上用于蛋白质性质预测的性能分析。FA-DNN由片段库编码器和蛋白质属性预测器组成(红色条)。作为控制,没有片段库编码器的模型使用相同的超参数(蓝色条)进行训练。在三个测试集的所有目标上评价了两种神经网络的性能。此外,简单地从片段库提取的性能也被评估(绿色条)。其中,φ, ψ, θ, τ的扭转角的平均绝对误差(MAE)和Cβ−Cβ左右子图分别显示了成对的距离

我们进一步比较了FA-DNN和最先进的蛋白质性质预测算法的性能。如表所示2,FA-DNN在所有四个1D属性中具有大余量的蜘蛛3。值得注意的是,虽然FA-DNN是一个单一的深度学习模型,但它比SPOT-1D实现了更好的性能,这是多种模型的集合。采用多个FA-DNN的集合可以进一步提高性能。对于2D预测,FA-DNN在C的MAE(平均值)方面表现出两种最先进的算法Raptorx和Trrosettaβ−Cβ距离有很大的差距。

表2在三个独立测试集上FA-DNN和最先进算法之间的预测蛋白质特性的比较

我们还在最新的CASP14 FM测试机上对FA-DNN与SPOT-1D和trRosetta进行了点对点的比较。如图所示。4.,FA-DNN在大多数Casp14 FM目标上对Spot-1D进行了较小的改进,并且通常在Trrosetta超越Trrosetta,两个目标,T1037和T1042具有大的改进。仔细检查预测管道表明,两个目标中的每一个具有非常有限的多个序列对准(MSA),Trrosetta仅使用MSA作为输入,导致其在这两个目标上的简化性能。作为比较,使用FA-DNN中的片段库的结构信息可以在一定程度上补偿有限的序列信息,因此导致更好的预测。

图4.
装具

CASP14 FM目标FA-DNN与最先进的蛋白质性能预测算法的点对点比较

讨论和结论

这项工作,就我们所知,是利用高品质的片段库两种蛋白质性能预测和梯度下降的蛋白质折叠结构信息的第一次尝试。通过明确提取片段库的结构信息,并与wGMM模型设计相应的潜能,我们证明了杠杆片段库导致的性能提升为蛋白质结构预测。因此,它可能会感兴趣找出导致了改进。一个明显的现象是该片段库提供其工作方式超出从顺序信息来预测约束丰富的结构信息。片段库由许多片段对于靶蛋白,其中每个片段是一个局部3D结构的每个位置上,含有几乎全部种结构性质的像蛋白可具有的。从基于序列的信息来预测的限制,诸如成对残基间的距离,它主要提供残基中全局约束不同,片段捕获短程和局部结构信息。因此,约束从片段文库中提取和从序列推导出的信息预测,是彼此互补的。然而,我们发现,这样的局部结构信息只能带来蛋白质折叠有限的改进和差距,在比赛CASP最好的办法仍然较大。在这项研究中,由于片段的数量有限,wGMM模型专为各种蛋白财产,并分别对靶蛋白的每个位置。考虑到不同的相互作用蛋白质性质和不同的位置之间,一个潜在的更好的方法是采用多变量wGMMs到这样的特性进行建模,从而产生更精确的电势为随后的基于梯度的蛋白质折叠。

利用神经网络隐含地提取的信息,片段库也有蛋白质性质预测的差异。考虑到不同蛋白质的片段文库的质量从一个到另一个蛋白质不同,我们进一步估计了片段文库的质量与蛋白质性能预测的性能之间的关系。如附加文件所示1图S9,片段库的精度与三个扭转角的MAE平均值高度相关(ρ =−0.801,没有两个异常值T0955-D1和T1008-D1),表明这两个指标之间呈近似线性负相关关系。因此,为目标蛋白招募更多的高质量片段是提高预测蛋白性质准确性的重要途径。

虽然片段衍生电位和以片段库为输入的FA-DNN各自都显示出了有效性,但如何充分利用这两方面的优势,避免冗余,还需要进一步研究。一个端到端的模型,将这两种方法集成到一个单一的深度神经网络中,同时优化预测性能和三维结构,可以预期在未来。

方法

数据集

为了评估片段库的性能,我们采用了三个独立的测试集,包括Casp13FM中的31个目标(附加文件1:表S3),Casp13TBM中的56个目标(附加文件1:表S4),并且目标137在CAMEO(附加文件1:表S5)。具体来说,CASP13FM和CASP13TBM由从CASP13竞赛官网提取的所有自由建模(FM)域目标和所有基于模板建模(TBM)域目标组成[21),分别。为了测试我们对不同的蛋白质,并在更多的目标进行评价方法的稳健性,我们剔除所有目标中的“硬”类别从CAMEO官方网站[23]在2019年内发布(从2019.01.04至2019.12.28)。对于数据集结构,具有不连续链的目标,丢弃长度小于40个残留物的目标,并且闪烁的Coevo未能构建片段文库的目标,导致比相应官方网站中的目标略微较少。

CASP13FM测试集首先被用来评估Rosetta蛋白结构预测的性能,然后所有三个独立的测试集被用来评估梯度下降蛋白折叠软件SAMF片段库的有效性和贡献[22].此外,为了优化来自SAMF片段库的潜力,我们建立了一个来自CASP12FM蛋白的数据集(附加文件)1:表S6)包括34个FM域目标,从Casp12竞争中提取连续链[29].

为了训练包括片段库编码器和蛋白质属性预测器的深度神经网络,我们从双鱼座筛选了5916条高分辨率蛋白链(称为“HR5916”)[28[链长<400个残基,分辨率<1.5Å,成对序列标识1表S7)也用于FA-DNN与最先进算法的性能比较。值得注意的是,考虑到CASP12FM和HR5916中的所有样本都是在CASP13竞赛之前,训练样本与独立测试集之间没有重叠,确保了评价的公平性。作为一个完整性测试,对于测试集中的每个目标,我们对Lib956 (DeepFragLib从其中招募片段的模板结构库)执行MSA搜索,使用jackhmmer [30.] 3.3.1和1E-3的E值。平均MSA深度(检测到的同源蛋白质的数量),在其他文件如所示1:所有测试集的表S8小于1.0,这向大多数目标表示,在LIB956中没有找到同源结构,从而证实测试集与片段库没有重叠。

片段图书馆建设和综合分析

我们通过Deepfraglib v1.0构建了Casp13FM,Casp13TBM和Comeo测试集的所有目标的片段库[12.].招募了50-200个具有已知结构的片段,针对靶蛋白的每个位置征集。在施工过程中,Deepfraglib查询的所有数据库都严格限制在Casp13竞争之前的时间戳中的归档版本。对于性能评估,我们还通过nnmake构建了这些测试集的片段库[10.]和flib-coevo [11.]分别为其默认参数。不包括闪烁芯片产生的相同位置的重复片段被排除在公平比较中。由不同算法构建的所有片段库被转换为均匀的NnMake格式以进行进一步分析。

我们首先评估了由不同算法构建的片段库的性能,使用两个经典的评估指标,即精度和覆盖率。精度是整个片段库中良好片段的比例,覆盖率是每个蛋白质中至少有一个良好片段跨越的位置的比例。一个好的片段被定义为RMSD小于给定阈值的片段。此外,为了使一个片段库的结构属性综合评价,我们将考虑七个蛋白质结构属性,即1 d属性包括二级结构,扭转角ϕ,ψ,骨干角度θ,即连续三C平面夹角α原子(\({\ text {c}} _ {{\ upalpha}} ^ {{{\ rm i}} - 1}} - {\ text {c}} _ {{\ upalpha}} ^ {{{{\rm i}}} - {\ text {c}} _ {{\ upalpha}} ^ {{{{{\ rm i} +}} 1}}}})和τ,即四个连续的Cα原子(\({\ text {c}} _ {{\ upalpha}} ^ {{{\ rm i}} - 1}} - {\ text {c}} _ {{\ upalpha}} ^ {{{{\{{{{{{\ rm i}}} 1} 1} - {{{{\ rm i}}}} - {\ text {c}}} - {\ text {c}} _ {{\ upalpha}} ^ {{{{{{\ rm i} + 2}}}}}}}}}}})和包括C的2D属性α−Cα和Cβ−Cβ两两距离。虽然这些属性最初是在残差水平上定义的,但我们提出了新的度量标准来描述这些属性在片段水平上的准确性。

与以前的研究类似,片段的二次结构分为四类:主要是螺旋(称为H),主要是链(称为e),主要是线圈(称为C)和其他(称为o)。如果分配了相应的二级结构的片段的大于半残留物,则将片段定义为H或E或C.否则,片段的二次结构定义为O.片段水平上的片段二级结构的准确性定义如下,

数组$ $ \开始{}{* c {20}} {I_{{党卫军}}\离开(f{我}{}\右)= \左\{{\开始{数组}{l * {20}} {1} \ hfill &{\四\;党卫军\离开(f{我}{}\右)=党卫军\离开(f{*}{} \右)}\ hfill \ \ {0 ~} \ hfill &{\四否则}\ hfill \ \ \{数组}}结束\。} \ \ \{数组}$ $
(1)
$$ \ begin {array} {* {20} c} {accss \ left({fl} \ recten)= e _ {{p_ {i}}}左[{e_ {{f_ {{f_ {{f}} \ left[{{\ text {i}} _ {{ss}} \ left({f_ {i}} \ oled)} \ rectle]} \ revally]} \\ \ end {array} $$
(2)

其中fl表示片段库,E表示数学期望,p一世表示我的位置I,F的所有碎片一世表示位于i, f位置的片段*为目标蛋白对应的片段,SS(f)为片段f的片段二级结构。因此,整个片段库片段二级结构的准确性ACC党卫军(FL)被定义为每一个位置,然后将其定义为所有片段的准确性的在该位置的期望的精确度的期望。类似于上述定义,我们进一步提出如下的角度(φ,ψ,θ和τ)的准确性,

数组$ $ \开始{}{* c {20}} {err_{{和}}\离开(f {*} {f{我},}\右)= \压裂{1}{N} \ mathop \总和\ limits_ {{j = 1}} ^ {N} \敏\左\{{\左| {ang_{我}^ {j} - ang_ {*} ^ {j}} \ |, 360 ^ \保监会- \ | {ang_{我}^ {j} - ang_ {*} ^ {j}} \右|}\右\}}\ \ \{数组}$ $
(3)
$$ \ begin {arrow} {* {20} c} {err _ {{ang}} \ left({fl} \ rote)= e _ {{p_ {i}}}左[{e_ {{f_ {i}左[{fr_ {{{ang}} \ left({f_ {i},f _ {*}}} \右]} \ rectle]} \\ \ end {array} $$
(4)

式中|x|为x的绝对值,文本\({\{和}}_ {{{\ rm我}}}^ {{{\ rm j}}} \)为碎片i剩余j的角度值,\({\ text {ang}} _ {*} ^ {\ rm j} \)表示目标蛋白质中相应残留物的角度值和错误(f一世f*)表示片段I的角度的平均绝对误差。片段库的角度误差被定义为所有位置的期望,其中位置的角度误差被定义为在该位置处的所有片段的期望。最后,我们提出了两个2D特性的准确性(Cα−Cα和Cβ−Cβ成对距离),

$$ \ begin {array} {* {20} c} {err _ {dist}} \ left({fl} \ revent)= e _ {{p_ {i}}}左[{e_ {{f_ {i}} \ left [{er_ {dist}} \ left({f_ {i},f _ {*}}} \右]} \ rectle]} \\ \ end {array} $$
(5)

哪里错误经销(f一世f*)表示成对的平均绝对误差(mae)α−Cα或Cβ−Cβ碎片内的距离f一世与原生结构f*.利用这些新指标,我们在三个独立的测试集上对NNMake、Flib-Coevo和DeepFragLib构建的片段库进行了综合评价。

为梯度下降基于蛋白质折叠片段文库

如上所述,我们提取并分析嵌入在片段库中的结构信息。为了进一步利用片段库中丰富的信息进行基于梯度下降的蛋白质折叠,我们建立了一系列的模型来明确表达片段库,然后利用这些模型以可微的方式设计蛋白质特异性电位。如图所示。2每个片段的六个1d和2d属性,包括φ,ψ,θ,τ和c之间的一对距离的角度α−Cα和Cβ−Cβ原子是从碎片库中提取出来的。考虑到碎片的长度是可变的,我们设计了一种“平滑”操作,通过滑动窗口将碎片切割成一系列7余长的碎片。这个操作的结果是所有的片段都有相同长度的7个残基。我们采用高斯混合模型来描述这些性质在每个位置上的分布。考虑到DeepFragLib招募的每个片段都有一个预测的RMSD,我们将此值作为片段的置信评分,并根据相同位置的所有片段分配权重如下:

c数组$ $ \开始{}{}{w_ {{F{我}}}= \压裂{{e ^{{\离开({5.0 - predRMSD_{我}}\右)/ T}}}} {{\ mathop \总和\ nolimits_ {{F {j}}} ^ {F} e ^{{\离开({5.0 - predRMSD_ {j}} \右)/ T }} }}} \\ \ {数组}$ $
(6)

其中F表示相同位置的片段集,F一世表示F, predRMSD中的一个片段一世表示page f的预测RMSD值F.一世T为温度(整个实验使用0.1)。

$$ \ begin {array} {p \ left({y; \ mu; {\ Upsigma}} \ \ \ frac {1} {{\ sqrt {2 \ pi \ left |\ sigma \ light |}}} \ exp \ left({ - \ frac {{\ left({y-\ mu} \ revent)^ {2}}} {{2 \ sigma ^ {2}}}}}}右)}} \\ \结束{array} $$
(7)

此外,高斯分布的概率密度函数在EQ中示出。7.,其中y是某属性的值文本\ ({\ {w}} _{{{文本\ {f}} _{{\文本{我}}}}}\)在方程。6.,µ为加权平均值,σ为加权平均值2为加权方差。然后,我们建立了每个残差的每个属性的加权高斯混合(wGMM)模型,每个残差有四个分量(图)。2).因此,对于每个位置,构造了四个1D特性中的每一个和21个WGMM模型中的每一个的七个WGMM模型,总共产生70个WGMM型号。

然后使用负对数似然函数将WGMM模型转换为电位。值得注意的是,由于蛋白质特异性WGMM模型,为每种蛋白质定制片段衍生的电位。例如,φ角度(1D属性)和残余物间C的蛋白质特异性损失函数β−Cβ距离(2D属性)定义如下,

c数组$ $ \开始{}{}{L_ {\ varphi} \离开(x \右)= - \ mathop \总和\ limits_日志\ mathop \ \ limits_总和{我}{{t = 1}} ^ {K} w_{{我t}} ^ {\ varphi} p \离开({\ varphi _{}; \μ_{{我t}} ^ {\ varphi}, {\ upsigma} _{{我t}} ^ {\ varphi}} \右)}\ \ \{数组}$ $
(8)
c数组$ $ \开始{}{}{L_ {{C_{\β}}}\离开(x \右)= - \ mathop \总和\ limits_ {{j_ < j_{1}{2}}}日志\ mathop \总和\ limits_ {{t = 1}} ^ {K} w_{{我,j_ {1}, j_ {2}, t}} ^ {{C_{\β}}}p \离开({d_ {{j_ {1}, j_ {2}}} ^ {{C_{\β}}};\μ_{{我,j_ {1}, j_ {2}, t}} ^ {{C_{\β}}},{\ upsigma} _{{我,j_ {1}, j_ {2}, t}} ^ {{C_{\β}}}}\右)}\ \ \{数组}$ $
(9)

eq。8.是ϕ, Eq的潜力。9.是C的电位β−Cβ其中,x为预测的蛋白结构,K为wGMM模型中分量的个数,w、µ和σ为wGMM模型中各分量的拟合参数,ϕ一世是x和x的第i个残留物的φ角度\({\ text {d}} _ {\ rm j1,j2} ^ {{\ rm c} _ {{\ upbeta}}}} \)是c之间的距离βJ的原子1残余物和C-βJ的原子2x中的残留物。其他属性的潜力以类似的方式定义,其导致总共六个潜在函数(每个属性一个)。

SAMF是一种基于梯度下降的蛋白质折叠框架,以自适应的方式折叠蛋白质结构[22].为了评估片段库在基于梯度下降的蛋白质折叠中的性能,我们使用SAMF的最基本版本作为基线,该版本仅依赖于Cβ−Cβ由trRosetta预测的成对距离[14.]作为蛋白质特异性约束,基本几何势,以避免立体冲突,以及naïve质量分析模块,总和所有势。我们用组合势函数L在SAMF中实现了片段库的势fl(x)如下,

$$ \开始{阵列} {* {20}℃} {L _ {{FL}} \左右(x \右)= W _ {\ varphi} L _ {\ varphi} \左右(x \右)+ W _ {\P.si } L_{\psi } \left( x \right) + w_{\theta } L_{\theta } \left( x \right) + w_{\tau } L_{\tau } \left( x \right) + w_{{C_{\alpha } }} L_{{C_{\alpha } }} \left( x \right) + w_{{C_{\beta } }} L_{{C_{\beta } }} \left( x \right)} \\ \end{array}$$
(10)

其中lfl(x)定义为六个电位的加权和,W表示每个属性的潜力的重量。计算组合电位,然后最小化以在梯度下降过程的每个步骤期间更新蛋白质结构。所有重量在均衡中。10.通过最大化预测结构的平均TM分数,在CASP12FM上手动调整。然后在Casp13FM,Casp13TBM和Careo测试集上进行蛋白质结构预测的性能。

FA-DNN:片段库编码器和蛋白质特性预测器

为了便于蛋白质属性预测,我们设计了FA-DNN,这是一个具有片段库编码器的深度神经网络,它隐式提取片段库的高级表示,并将其编码到嵌入向量中。片段库编码器与蛋白质属性预测器连接,预测多种蛋白质结构属性(附加文件1:图S5A)。对于每个位置,我们提取预测RMSD值最低的50个片段,提取6种特征,即残差二级结构的一次性表征和扭转角ϕ、ψ、θ、τ的正弦和余弦值。我们将所有可变长度的片段填充到15个残基长,相应的目标蛋白的片段库用L × 50 × 15 × D张量表示,其中L表示蛋白质的长度,D表示特征维数。如附加文件所示1图S5B,片段库编码器有一个层次结构,其中包含三个级别的编码过程。首先,在每个构造块上对输入张量的第三维(碎片长度维数)进行两次一维卷积运算;每个卷积运算采用大小为3和64个滤波器的卷积核,两卷积层之间采用ELU激活层[31].为了充分学习片段内相邻残差之间的相互作用,共对8个block进行了残差连接叠加[32].考虑到一个片段的第一残基的指标对应于目标蛋白的位置,提取每个片段的第一残基的隐藏表示,消除了张量片段长度的维数。最后,将所有50个片段在同一位置的条目平均得到一个L × D’输出张量,其中D’为第一步卷积层滤波器的个数。

然后,我们设计了一种蛋白质性能预测器,其将片段库编码器的输出作为输入。此外,靶蛋白的主要序列,Deepmsa检测到的同源蛋白的位置特异性频率矩阵(PSSM)[33[还馈入预测器中的直接耦合分析(DCA)的成对统计数据。通过水平和垂直平铺,将1D特征以及来自片段库编码器的所有输入以及目标序列和PSSM的单热编码进行转换为两个维度,然后将其与成对统计数据连接到形成总数输入预测器模型。要检查片段库编码器的有用性,我们还建立了一个基线预测器模型,作为控制,该模型仅将基于MSA的功能作为输入。

两个片段的蛋白质与输入属性预测库编码器和基线模型共享相同的骨干架构,即,一个2 d残余神经网络与30残块,每个残块组成的两个卷积层64过滤器,3×3内核大小和ELU激活。为防止过拟合,0.15的丢失率[34使用了两个批量整形层[35],在每个卷积层之后采用(附加文件1:图S5C)。最终残留块的输出对称,然后进入两个相应的分支以预测不同的蛋白质特性。第一个分支开始使用汇集操作来将2D特征映射投影到1D向量中。在该操作之后,采用完全连接的层输出与片段库的原始特征类似的每个残留物的1D预测属性,即四个扭转角φ,ψ,θ和τ。另一个分支直接预测了c的实际值β−Cβ距离分别由全连接层。为了有利于距离较短的残差对的梯度,我们采用了类似于[36)如下,

$$ \ begin {array} {* {20} c} {d _ {{{i,j}}} = tanh \ left({\ frac {{d _ {{i,j}} - 10}} {{2.4}}} \右)} \\ \ end {array} $$
(11)

在维我,我表示两个原子之间的真实距离,\({\ text {d}} _ {{{\ text {i,j}}}} ^ {\ prime}}表示映射距离和Tanh表示双曲​​线切线功能。通过EQ的逆功能映射了预测器的2D输出。11.来得到相应的实值距离。所有性质的平均绝对误差(MAE)的加权和作为损失函数。FA-DNN在HR5916数据集上以1e−5的学习率进行训练。大约花了一天的时间在8个Nvidia V100 gpu上训练模型。基线模型使用相同的超参数进行训练。在CASP13FM、CASP13TBM、CAMEO和CASP14 FM测试机上对所有1D和2D预测的性能进行了评估。

可用性数据和材料

本研究中使用的所有序列数据都是公开的。CASP测试集中的所有数据都可以在CASP的官方网站上下载:https://predictioncenter.org/index.cgi在CAMEO测试数据集可以在CAMEO的官方网站上下载:https://www.cameo3d.org.Deepfraglib产生的测试集的蛋白质结构和片段文库可用https://msracb.blob.core.windows.net/pub/data_for_complementing_with_fraglib.zip.

参考文献

  1. 1。

    Bradley P,Misura Km,Baker D.走向高分辨率的小型蛋白质的Novo结构预测。科学。2005; 309(5742):1868-71。

    中科院文章谷歌学术

  2. 2.

    Kuhlman B,Bradley P.蛋白质结构预测和设计的进步。NAT Rev Mol Cell Biol。2019; 20(11):681-97。

    中科院文章谷歌学术

  3. 3.

    Dill KA, MacCallum JL。蛋白质折叠问题,50年过去了。科学。2012;338(6110):1042 - 6。

    中科院文章谷歌学术

  4. 4.

    Kim de,Blum B,Bradley P,Baker D. De Novo蛋白质结构预测中的抽样瓶颈。J Mol Biol。2009; 393(1):249-60。

    文章谷歌学术

  5. 5.

    Jumper J,Evans R,Pritzel A,Green T,Formurvov M,Tunyasuvunakool K,等。利用深度学习预测高精度蛋白质结构预测。第十四批判性评估蛋白质结构预测技术(抽象书);2020; 22:24。

  6. 6.

    西门子KT,Kooperberg C,黄俄,从使用模拟退火和贝叶斯评分函数相似的局部序列的片段的蛋白质的三级结构的贝克D.装配。J Mol Biol。1997; 268(1):209-25。

    中科院文章谷歌学术

  7. 7。

    徐D,张Y. AB初始蛋白质结构组件使用连续结构碎片和优化的基于知识力领域。蛋白质。2012; 80(7):1715-35。

    中科院文章谷歌学术

  8. 8。

    王T,杨Y,周Y,龚H.LRFRaglib:一种有效的算法识别De Novo蛋白质结构预测的片段。生物信息学。2017; 33(5):677-84。

    PubMed谷歌学术

  9. 9。

    魏G-W。AlphaFold之外的蛋白质结构预测。[j] .计算机科学。2019;1(8):336-7。

    文章谷歌学术

  10. 10。

    Gront D, Kulp DW, Vernon RM, Strauss CE, Baker D.罗塞塔的广义片段挑选:设计,协议和应用。PLoS ONE。2011; 6 (8): e23294。

    中科院文章谷歌学术

  11. 11.

    de Oliveira SHP, Deane CM。结合协同进化和二级结构预测,改进片段库生成。生物信息学。2018;34(13):2219 - 27所示。

    文章谷歌学术

  12. 12.

    王T,乔Y,丁W,毛,周Y,龚H.利用深神经网络改进了AB初始蛋白质结构预测的片段抽样。NAT Mach Intell。2019; 1(8):347-55。

    文章谷歌学术

  13. 13.

    高级AW, Evans R, Jumper J, Kirkpatrick J, Sifre L, Green T,等。利用深度学习的潜力改进蛋白质结构预测。大自然。2020;577(7792):706 - 10。

    中科院文章谷歌学术

  14. 14.

    杨杰,anishchenko I,Park H,Peng Z,Ovchinnikov S,贝克D.改善了使用预测的近似方向的蛋白质结构预测。PROC NATL ACAD SCI。2020; 117(3):1496-503。

    中科院文章谷歌学术

  15. 15.

    Mao W,Ding W,Xing Y,龚H.Amoebacontact和Gdfold作为快速De Novo蛋白结构预测的管道。NAT Mach Intell。2020; 2(1):25-33。

    文章谷歌学术

  16. 16.

    Hanson J,Paliwal K,Litfin T,Yang Y,Zhou Y.通过使用预测的联系地图和复发和残余卷积神经网络的集合来提高蛋白质二级结构,骨干角,溶剂可访问性和接触号的预测。生物信息学。2019年; 35(14):2403-10。

    中科院文章谷歌学术

  17. 17.

    琼斯dt。基于特定位置的评分矩阵的蛋白质二次结构预测。J Mol Biol。1999年; 292(2):195-202。

    中科院文章谷歌学术

  18. 18。

    基于深度学习的基于距离的蛋白质折叠。中国科学院院刊。2019;116(34):16856-65。

    中科院文章谷歌学术

  19. 19。

    PreAIP:整合多种互补特征的抗炎肽的计算预测。麝猫。2019;10:129。

    中科院文章谷歌学术

  20. 20.

    Khatun MS, Hasan MM, Shoombuatong W, Kurata H. ProIn-Fuse:通过融合多种特征表征改进和稳健预测促炎肽。计算机辅助分子生物学学报。2020;34(12):1229-36。

    文章谷歌学术

  21. 21.

    蛋白质结构预测(CASP)方法的关键评估——第13轮。蛋白质。2019;87(12):1011 - 20。

    中科院文章谷歌学术

  22. 22。

    丁W,徐Q,刘S,王T,邵b,龚H,刘T-y,Ponty Y.Samf:一种自适应蛋白质建模框架。生物信息学;2021。

  23. 23。

    王志强,王志强,王志强,等。引入“最佳单模板”模型作为连续自动化模型评估(CAMEO)的参考基线。蛋白质。2019;87(12):1378 - 87。

    中科院文章谷歌学术

  24. 24。

    李志强,李志强,李志强,等。利用层叠稀疏自编码深度神经网络从蛋白质序列预测主链Cα角和二面体。化学学报。2014;35(28):2040-6。

    中科院文章谷歌学术

  25. 25.

    Rohl Ca,Strauss Ce,Misura km,贝克D.使用Rosetta的蛋白质结构预测。酶学方法,VOL。383.阿姆斯特丹:elestvier;2004. p。66-93。

    谷歌学术

  26. 26.

    徐杰,张Y.蛋白质结构与TM分数的相似性如何= 0.5?生物信息学。2010; 26(7):889-95。

    中科院文章谷歌学术

  27. 27.

    张颖,张永强,张志强。基于遗传算法的蛋白质结构模板质量自动评估。蛋白质。2004;57(4):702 - 10。

    中科院文章谷歌学术

  28. 28.

    Wang G,Dunbrack RL Jr.Pisces:蛋白质序列剔除服务器。生物信息学。2003; 19(12):1589-91。

    中科院文章谷歌学术

  29. 29.

    莫尔特J,Fidelis K,Kryshtafovych A,Schwede T,Tramontano A.蛋白质结构预测方法(Casp)的关键评估 - XII。蛋白质。2018; 86:7-15。

    中科院文章谷歌学术

  30. 30.

    涡流SR。加速配置文件嗯搜索。PLOS计算BIOL。2011; 7(10):E1002195。

    中科院文章谷歌学术

  31. 31.

    通过指数线性单元(ELU)快速准确地深度网络学习克雷弗D-A,Unterthin T,Hochreiter S。arxiv预印刷品arXiv: 151107289.2015.

  32. 32.

    他K,Zhang X,Ren S,Sun J.在:IEEE计算机视觉和模式识别(CVPR)的IEEE会议的诉讼程序。内华达州,美国;2016,第770-778页。

  33. 33.

    张超,郑伟,Mortuza S ., Li Y., Zhang Y. DeepMSA:构建深度多序列比对以改进远端同源蛋白的接触预测和折叠识别。生物信息学。2020;36(7):2105 - 12所示。

    中科院文章谷歌学术

  34. 34。

    Dropout:一种防止神经网络过拟合的简单方法。中国机械工程。2014;15(1):1929 - 1958。

    谷歌学术

  35. 35。

    IOFFE S,Szegedy C.批量标准化:通过减少内部协变速转移加速深网络培训。arxiv预印刷品的arXiv:150203167.2015.

  36. 36。

    丁伟,龚红。蛋白质残基间的实值距离预测。难以科学。2020;7:2001314。

    中科院文章谷歌学术

下载参考

确认

我们感谢编辑和匿名审稿人的意见和建议。

资金

这项工作得到了微软研究亚洲和中国国家自然科学基金(U1711262,U1711261,U1811261,U1811261,U1911203,U11203,U2001211),广东基础和应用基础研究基金会(2019B1515130001)和广东省重点研发计划(2018B010107005).

作者信息

从属关系

作者

贡献

S.L.对方法论、形式分析、软件和原始草案的编写做出了贡献。T.W.在方法论、实验设计、形式分析和初稿撰写方面做出了贡献。Q.X.对方法论和形式分析做出了贡献。理学士学位对实验设计和写作有贡献。J.Y.和T.L.参与实验设计和写作。所有作者阅读并批准了最终的手稿。

相应的作者

对应到王王

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

t.w., B.S.和T.L.已经提交了关于从片段库中提取结构信息用于蛋白质折叠和蛋白质性质预测的临时专利申请。其余的作者宣称没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1

.补充方法,图S1-S9和表S1-S8。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

刘,S.,Wang,T.,徐,问:等等。用从片段库中提取的结构信息补充序列衍生的特征,用于蛋白质结构预测。欧宝娱乐合法吗22,351(2021)。https://doi.org/10.1186/s12859-021-04258-6

下载引用

关键词

  • 片段库
  • 结构信息
  • 蛋白质性能预测
  • 蛋白质折叠