跳过主要内容

深度残差卷积网络的实值残差间距离预测

抽象的

背景

由深度学习驱动,残留间接触/距离预测得到显着改善,并且基本上增强了AB初始蛋白质结构预测。目前,大多数距离预测方法将残留物间距分类为多个距离间隔,而不是直接预测实际值距离。前者的输出必须转换成用于在三级结构预测中使用的实际值距离。

结果

为了探索预测实值残差间隔距离的潜力,我们开发了基于新的残差卷积网络架构的多任务深度学习距离预测器(DeepDist),同时预测实值残差间隔距离并将其分类为多个距离区间。在43个CASP13硬域上测试,DeepDist在实值距离预测和多类距离预测方面取得了相当的性能。DeepDist的实值距离预测的平均均方误差(MSE)为0.896 Å2当滤除预测距离≥16 Å时,其小于1.003 Å2的DeepDist的多级距离预测。When distance predictions are converted into contact predictions at 8 Å threshold (the standard threshold in the field), the precision of top L/5 and L/2 contact predictions of DeepDist’s multi-class distance prediction is 79.3% and 66.1%, respectively, higher than 78.6% and 64.5% of its real-value distance prediction and the best results in the CASP13 experiment.

结论

DeepDist可以预测残基间的距离以及与提高二进制接触预测在现有状态的最先进的方法。此外,预测的实值距离可以被直接用于重构蛋白质的三级结构比多类别预测距离更好由于较低的MSE。最后,我们证明了预测在同一时间进行的实值距离图和多类距离图比单独预测实值距离比较好。

背景

近年来,随着残基-残基协同进化分析方法的发展,有效检测蛋白质家族序列中接触残基的直接相关突变,如直接耦合分析(Direct Coupling analysis, DCA) [1],plmdca [2], GREMLIN [3.],ccmpred [4.],及PSICOV [5.].这些方法提取用于接触预测的相关突变信息的能力很大程度上取决于靶蛋白多序列比对(MSA)中有效序列的数量。由于DNA/RNA测序技术的进步[6.7.,许多蛋白质有很多足够多样化的同源序列,这使得它们的接触/距离预测相当准确。然而,对于具有少量有效同源序列(即浅层序列比对)的目标,联合进化评分具有噪声,对接触预测不可靠。这个问题可以在很大程度上通过使用嘈杂的共同进化分数作为高级深度学习技术的输入来解决,这种技术具有很强的模式识别能力,可以预测残差之间的接触和距离。

在2012年引入了深度学习后,在2012年接触预测[8.],设计了不同的深度学习架构,将传统序列特征与残差间协同进化评分相结合,大幅提高接触/距离预测[9.101112],即使对于具有浅MSA的某些目标。

可以将改进的接触预测转换为残留互际距离信息,该信息已成功地与基于距离的建模方法(如Confolz)一起使用[13],confold2 [14]和EVFOLD [15为从头计算蛋白靶点建立精确的三级结构[1617].

在最近的试验CASP13,几组(例如,AlphaFold [18raptorx [19])应用深度学习技术将残留物间距分类为多个细粒距离间隔(即预测距离分布),以进一步提高AB Initio结构预测。然而,属于由多分类方法预测的不同间隔的距离的概率仍然需要转换为用于三级结构建模的距离值。缺乏深度学习回归方法,直接预测残留互际距离的确切实际值。

在本研究中,我们开发了一种深度残差卷积神经网络方法(DeepDist)来预测目标蛋白质的全长实值距离图和多类距离图(即距离分布图)。根据对43个CASP13硬域(即FM和FM/TBM域;FM:自由建模;TBM:基于模板的建模)、37个CASP12个硬(FM)域和268个CAMEO目标,该方法可以有效地预测剩余距离,并且在二元接触预测精度方面优于现有的最新方法。我们进一步证明,同时预测实值距离图和多类距离图比仅预测实值距离图更准确,证明了DeepDist多任务学习框架在改进蛋白质距离预测方面的优势。

结果

就二元接触预测的精度而言,在CASP12和CASP13数据集上将DeepDist与最新方法进行比较

作为多任务预测因子,我们的距离预测器Deaddist不能将每个残留对分类为距离间隔(多分类),而是预测其实际值距离(回归)。我们将预测的距离转换为联系地图,以便使用最广泛使用的评估指标与现有方法进行比较 - 顶部L / 5,L / 2,L远程接触预测的精度(长距离:序列分离残留物≥24)。数字1报告多级距离预测的接触预测精度和Deaddist的实际值距离预测和在两个购物中心测试数据集上的多个最先进的方法(43 Casp13 FM和FM / TBM域以及37 Casp12 FM域)。为了严格比较43 Casp13测试集的距离预测结果,我们提取了Raptorx-Contact的联系精度结果[19],字母折叠[18]和三重级[12]报道他们的论文。用于Trrosetta [20.]中,我们用DeepDist用于预测距离概率分布图相同的服务协定运行它,并转换成内8的阈值的二进制接触地图。在CASP13数据集(图1a) 在CASP13中,DeepDist的接触精度高于三种top方法(Raptrox接触、AlphaFold和Tripleteres)的接触精度,在几乎所有情况下,也高于trRosetta。例如,在CASP13数据集上,DeepDist(多类)和DeepDist(real_dist)的前1/5长距离预测接触的精度分别为0.793和0.786,高于trRosetta的0.751。DeepDist(多类)顶部L/2远程预测触点的精度为0.661,与trRosetta的精度-0.652相似。根据该度量,多类距离预测(DeepDist(multi class))的效果略好于实值距离预测(DeepDist(real_dist))。

图。1
图1

DeepDist和国家的技术具有几个上CASP12和CASP13测试集的方法的接触预测精度。一种43 CASP13 FM和FM / TBM域的深度ist,Raptorx-Contact,Alphafold,Tripletres和Trrosetta的远程接触预测精度。“顶部L / 5”,“顶部L / 2”和“顶部L”代表顶部L / 5,L / 2和L预测触点,其中L是域的长度。B.37 Casp12 FM域的深层和DeepMetapsicov的远程接触预测精度。

我们还比较了DeepDist和DeepMetaPSICOV [11在37个CASP12 FM域上。为了严格评估它们,我们运行了DeepMetaPSICOV,具有相同的基于序列的特征(来自PSI-BLAST的序列配置文件[21]及从PSIPRED取得溶剂的途径[22)和与DeepDist一起使用的MSAs。DeepDist的多类距离预测和实值距离预测均优于DeepMetaPSICOV(图4)。1b)。

同时预测实值距离图和多类距离图与单独预测实值距离图的比较

为了评估预测实际值距离图和多级距离图一起改善了仅通过预测实际值距离图的性能,我们进行了两个实验。实验1同时训练了实际值距离预测和多级距离预测;实验2仅培训了实际值距离预测。为确保公平比较,两个实验使用相同的输入特征(PLM)和相同的模型架构(方法部分中提到的PLM_NET)。

基于几种评估度量远程(残留对分离≥24)接触精度,MSE和Pearson系数,评估了两个实验的实际值距离预测性能。作为表中所示的评估数据1,实验1中同时训练多类距离预测的实值距离预测在各指标上均优于实验2中单独训练的实值距离预测。结果表明,DeepDist的多任务学习框架能够提高实值距离预测的性能。

表1 43个CASP13硬域上同时预测实值距离图和多类距离图的结果与分别预测实值距离图的结果比较

基于四种输入的集合模型和基于一个输入的单个模型的比较

表格2报告DeepDist的性能(合奏多个模型训练的4种输入)在CASP13数据集。在表DeepDist真实值距离预测(DeepDist(实时DIST))和多类距离预测(DeepDist(多级))的准确度2基本上高于表中的实验1的准确性1,一个训练有于一种特征PLM的一个深层模型。例如,顶部L / 5触点预测和Diefdist(Real-Dist)的MSE的精度为0.786和0.896Å2,优于0.699和1.151Å2单模型PLM_网络的。同样的结果也适用于单独接受COV、PRE或其他特征训练的其他单一模型。结果表明,集成方法提高了残差间距离预测的精度。

表2 Deaddist在43 Casp13硬域的表现

3D蛋白质结构折叠方面实值距离预测与多级距离分布预测的比较

为了验证两种距离预测对三维结构折叠的有效性,我们使用了DeepDist和DFOLD预测的实值距离图和多类距离图[23,分别构建43个CASP13硬域的三维模型。表格3.显示了43个CASP13 FM和FM/TBM域上使用实值距离(DeepDist(real-dist))和使用多类距离(DeepDist(multi-class))的前1模型和前5模型的最佳模型的平均tm得分。由实值距离预测生成的前1和前5个模型的平均TM-scores分别为0.487和0.522,说明了应用实值距离预测构建质量适中的蛋白质三级结构的可行性。

表3 CASP13 43 FM和FM / TBM结构域的模型3 TM - 四种方法

数字2说明了Deaddist(Real-Dist)和Deaddist(多级)的43 Casp13域的TM-Score的TM分数的分布。Deaddist(Real-Dist)的分布转向更高的分数(TM-Score> 0.6)。如附加文件所示1:表S1,实际值距离预测有13个TM分数域 > 当两种方法的模型都有TM得分时,从目标到目标的多类距离预测有12 > 0.6,根据实际值距离预测构建的模型往往得分较高。这也与图中观察到的一致。2,当TM-score > 0.6时,实值距离预测的TM-score分布曲线位于多类距离预测曲线之上。预测距离的MSE的减少可能是促进DeepDist(real-dist)比DeepDist(multi-class)在3D建模中的改进的因素之一。预测的真实距离图与真实距离图的平均MSE为0.8964 Å2,这低于平均的MSE(1.0037Å2)的距离图之间的预测多类距离图转换为真实距离图。将多类距离预测转换为实值距离约束的方法以及为构建3D模型设置上、下距离边界的方法可能是影响最终模型质量的另外两个因素。

图2
图2.

顶部的TM-1的分数的模型43 CASP13 FM和FM / TBM结构域,从实值距离预测和多级距离预测内置的分布

在43 Casp13 FM和FM / TBM域上,我们还比较了从DeadDist的预测距离产生的模型,与基于两个流行的AB Initio距离的模型折叠方法:DMPFold [24]和CONFOLD2 [14)(表3.)。对于DMPfold,我们施加DeepDist用作输入DMPfold构建的3D模型相同的基于序列的特征和多序列比对。对于CONFOLD2,我们转换的预测的距离映射到接触地图作为其输入来构建3D模型。如表所示3.,两者DeepDist和DMPfold具有比基于非接触式方法CONFOLD2一个更好的性能,清楚地表明,基于距离的3D建模比基于非接触式三维建模更好。DeepDist(实DIST)的平均TM分数是0.487,高于0.438 DMPfold的,可能是由于由DeepDist作出更准确的距离预测。Considering top 5 models, DeepDist(real_dist) folds 23 out of 43 domains (TM-score > 0.5) correctly, higher than 16 of DMPfold. Figure3.图示了目标T0997的Deaddist距离图和其他四个高质量的CASP13三级结构模型,其构建的具有TM分数≥0.7的预测实值距离。

图3.
图3.

Deaddist预测目标T0997的距离图和CASP13目标的四种高质量的三级结构模型(T0968S2-D1,T0969-D1,T0992-D1,T1000-D2)(TM-SCES≥0.7),来自Deaddist Real-Value距离预测与他们的本机结构。一种来自DeepDist的目标T0997的两种距离输出显示为“real-dist”(用于实值距离预测)和“multi-class”(用于多类距离预测)。T0997的真实距离地图标记为“地面真实”。每个像素的亮度表示t0997每个残差对的距离,像素越亮,距离越短。为了比较两种预测距离图,给出了“多类”和“真实区”预测距离图的差异。每个像素的亮度表示每个残差对中“多类”与“真实距离”的距离差,即像素越亮,距离差越小。3D模型对比显示,褐色为DeepDist实值距离预测建立的模型,蓝色为天然结构。B.模型比较来自Deaddist实值距离预测生成的其他四个高质量CASP13模型(TM分数≥0.7)与其本机结构。布朗:模型;蓝色:原生结构。

从预测实际值距离和多个序列对齐重建的3D模型之间的关系。

与Deaddist一起使用的主要输入功能来自MSA。数字4.将43个CASP13结构域的前1个模型的TM-scores与它们的msa中有效序列数量的自然对数进行对比。两者之间存在中度相关(Pearson’s correlation = 0.66)。T0957s2-D1、T0958-D1、T0986s2-D1、T0987-D1、T0989-D1、T0990-D1为浅对齐(对齐中有效序列数(Neff) < 55)的6个域的三维模型,其TM-score > 0.5(分别为TM-score 0.568、0.644、0.658、0.555、0.545、0.593),这表明DeepDist在一些浅对齐的目标上工作得很好。

图4
图4.

在43个CASP13 FM和FM/TBM域上,前1个模型的质量来自DeepDist实值距离预测与有效序列数(Neff)的对数。红色的6个点表示浅对齐域(Neff < 55),但正确预测了结构褶皱(TM-score > 0.5)

评估Hiveo Targets

为了进一步评估大型数据集的Deepdist,我们在选定的268/31/2018至08/24/2019中选择的268种客串目标。从实值距离预测转换的顶部L / 5或L / 2远程残基接触预测的平均精度分别为0.691和0.598。191中的268个目标具有远程顶部L / 5触点预测精度≥0.7。数字5.从DeepDist构造节目5高质量模型所预测的实值的距离。对于具有有效序列的数目少的14个目标的大于或等于50,平均顶部L / 5和顶部L / 2长程接触的预测精度是0.696和0.515,这是合理的。Using the predicted distance to build 3D structures for the 14 targets, five of them have models with TM-score > 0.5. This further confirms that DeepDist’s predicted distances can fold some proteins with very shallow alignments correctly.

图5
图5.

由DeepDist预测的真实距离构建的5个CAMEO目标的高质量3D模型。模型用棕色表示,原生结构用蓝色表示

讨论

虽然通过将距离划分为多个区间来进行距离预测的深度学习方法很多,但是通过回归来预测实值距离的深度学习方法很少。我们的研究结果表明,利用三维建模方法直接建立蛋白质三级结构的实值距离预测是值得探索的。从二元接触预测的精度来看,单独预测实值距离预测的精度要低于多任务学习框架下同时预测实值距离并将距离划分为多个区间的精度(表)1)。这表明DeepDist的预测两种同时距离的强度,提高预测实值距离的精度。此外,在DeepDist两个距离预测达到比较的结果。DeepDist的距离多分类预测略好于在接触预测的精确度方面实值距离预测,但它是一个有点差于预测的距离MSE的条款。p值(在附加文件显示1通过对DeepDist(real-dist)与DeepDist(multi-class)对应的MSE值对进行配对t检验,可以看出两者的平均MSE值存在显著差异。这些结果表明,实值距离预测可以在距离多分类预测的基础上增加一定的价值。这两种距离预测方法的优缺点在本研究中得到了验证。选择哪种方法可能取决于用户的具体需求和多种因素,如如何将多个分类距离转换为实值距离,如何估计距离误差,以及3D建模工具可以使用哪些距离。此外,实值距离预测是否以及如何直接提高距离多分类预测的性能还需要更多的实验来研究。

结论

我们开发了基于新的深残留卷积神经网络的残基间的距离预测DeepDist给实值距离图和多类距离图同时预测。我们证明,同时预测两者产生的实值距离预测精度更高比单独预测实值距离。DeepDist真实值距离预测和多类距离预测的总体性能根据多个评价标准是可比较的。这两种DeepDist的距离预测比国家的最先进的几对CASP13硬指标方法更准确。此外,DeepDist可以与浅多序列比对一些目标很好地工作。和实值距离预测可以被用来重建3D蛋白结构优于预测多类别预测距离,显示出预测实值残基间的距离可以在现有的距离预测接近顶部添加值。

方法

概述

DeepDist的总体工作流程如图所示。6..我们使用四组2D共同进化和基于序列的特征来培训四个深度残余卷积神经网络架构,以预测蛋白质目标中残留物之间的欧氏距离。四个特征集中的三个主要是基于共同区分的特征,即协方差矩阵(COV)[25],精确矩阵(pre)[26]和伪电弧最大化矩阵(PLM)[4.])从多重序列比对来计算。考虑有时,基于进化的功能不能提供足够的信息,特别是当目标具有浅比对,所述第四组的基于序列的特征(OTHER),诸如由PSI-BLAST产生的序列简档[21],以及从PSIPRED溶剂可接近[22使用)。DeepDist的输出是一个实值L × L距离图和一个多类距离图(L:目标蛋白的长度)。这两种距离图是由两个预测分支生成的。对于每个分支,最终的输出是由四个深度网络模型(COV_Net、PLM_Net、PRE_Net和OTHER_Net)的集合产生的,这些模型以它们的输入特征集(COV、PLM、PRE和OTHER)命名。对于多类距离图的预测,我们将残差距离离散为25个箱:距离< 4.5 Å的1个箱,间隔大小为0.5 Å的4.5 - 16 Å的23个箱,所有距离≥16 Å的最终箱。对于实值距离图,我们简单地使用原生结构的真距离图作为目标来训练深度学习模型,无需离散化。因为大的距离是没有用的,也是不可预测的,我们只能通过过滤≥16 Å的真实距离来预测小于16 Å的残差间距离。

图6
图6.

实际值距离映射预测和多级距离地图预测的深度的整体工作流程。给定序列,调用DeepAln和Deepmsa以将其搜索序列数据库以生成两种多个序列对齐(MSA),其用于生成四组特征(COV,PLM,PRE,其他)。四组功能由四个深网络(COV网,PLM Net,Pre Net等网)使用,以预测实际值距离(Real-Dist)地图和多级距离(多类)地图,分别。各个网络的实值距离图(或多类距离图)平均为产生最终实值距离图(或多类距离图)

数据集

我们从DMPfold中使用的训练列表中选择目标[24],并从蛋白质数据库(PDB)中提取它们的真实结构,以创建训练数据集。将验证数据集和测试数据集按照25%序列识别阈值过滤掉冗余后,训练数据集中剩下6463个目标。验证集包含144个用于验证DNCON2的目标[10].三个盲目测试数据集是37 Casp12 FM域,43个Casp13 FM和FM / TBM域,以及从08/31/2018到08/24/2019收集的268个Careo目标。

输入特征生成

用于搜索特征生成的同源序列的序列数据库包括Uniclust30 (2017-10) [27],Uniref90(2018-04),元集群50(2018-01)[28],将Uniref100(2018-04)和Metagenomics序列数据库(2018-04)和NR90数据库(2016)组合的自定义数据库。在CASP13实验之前构建所有序列数据库。

协同进化特征(即COV,PRE,和PLM)是用于DeepDist,其中COV是从每种氨基酸对边际和对频率所计算的协方差矩阵主要输入要素[25],PRE [26为逆协方差矩阵,PLM为伪似然优化的Potts模型逆耦合矩阵[4.].这三个共同进化特征都是由多序列比对(MSA)产生的。两种方法,DeepMSA [29和我们内部的DeepAln,用来生成目标的MSA。两种MSA生成方法的输出均为HHblits的迭代同源序列搜索[30.]和Jackhmmer [31]在几个序列数据库。这两种方法中使用的序列数据库,结合HHblits和Jackhmmer搜索的输出的策略不同。DeepMSA修剪从Jackhmmer和执行顺序集群,从而缩短了时间,构建HHblits数据库,为下一轮搜索的顺序命中。利用其速度快,我们应用DeepMSA搜索针对由UniRef100和宏基因组序列的大量定制序列数据库。相比之下,DeepAln直接使用全长Jackhmmer命中建设HHblits定制数据库和较慢。它被施加到Metaclust序列数据库。两种MSA generation方法的详细的比较被报告在附加文件1:表S4。除了三种协同进化特征外,还生成了由CCMpred生成的协同进化接触分数、Shannon熵和、平均接触势、标准化互信息、互信息等二维特征。此外,还产生了DNCON2中使用的序列轮廓、溶剂可及性、联合熵、Pearson相关等其他特征,统称为other特征。

以上特性都是针对DeepMSA和DeepAln的MSAs生成的。分别训练一个深度模型对实值距离图和多类距离图进行预测,得到8张预测的实值距离图和8张多类距离图(图4)。6.)。

用于距离预测的深度网络架构

我们开始用一个简单的特征集训练第一个网络(COV_-Net),该特征集由上述协方差矩阵、序列轮廓(PSSM)、接触分数(CCMpred)和皮尔逊相关性组成。受COV_网络的启发,添加了两个网络——PLM_网络和PRE_网络,它们使用了两个相关的共同进化矩阵PLM和由多序列比对生成的PRE,以更有效地利用氨基酸对之间的共同进化关系。由于所有三个网络都高度依赖于MSA的质量,因此第四个网络OTHER_网是通过在MSA较浅的情况下仅添加基于非共同进化序列的特征作为输入来构建的。为了确保每个网络都能正常工作,我们调整了每个功能集的模型架构。DeepDist总共有四个不同的网络,分别称为COV_网、PLM_网、PRE_网和OTHER_网(图。7.),分别。PRE_Net和OTHER_Net共享几乎相同的架构,只是有一些小的差异。四种网络的详细比较见附加文件1:表S5。

图7
图7.

四种深度残差网络模型的深度网络结构。一种COV_Net;B.PLM_Net;CPRE_Net / OTHER_Net。信息网络传播权:归一化层;SE_block: squeeze-and-excitation块

COV_Net(无花果。7.a)使用COV矩阵以及序列轮廓(PSSM),接触分数(CCMPRED)和PEARSON相关作为输入。它从名为RCIN的归一化块开始,其中包含实例归一化(IN)[32]、行归一化(RN)、列归一化(CN) [33]和一个ReLU[34]激活功能,后跟一个卷积层,具有128个大小1×1和一个颤扬[35层将输入通道从483减少到64。Maxout的输出被输入到16个剩余块中。每个残块由两个RCIN归一化块、由64个大小为3 × 3的核组成的卷积层和一个挤压-激励块(SE_block) [36].输出要素从块映射,连同块的输入被加到一起作为输入用于激活RELU函数来生成残差块的输出。最后残余块之后是一个卷积实例正常化层。该层的输出被同时转变成两个输出的地图。One real-value distance map is obtained by a ReLU function through a convolution kernel of size 1 × 1, and one multi-class distance map with 25 output channels is obtained by a softmax function.

PLM_NET(图。7.b)用作输入与序列轮廓(PSSM)和Pearson相关的PLM矩阵。首先将输入馈入实例归一化层,然后是一个卷积层和一个颤音层。然后将MAXOUT的输出送入20个残余块。每个残差块包含三个RCIN块,四个卷积层,具有64个大小的3×3,一个SE_BLOCK和一个丢弃层[37辍学率为0.2。残余块类似于瓶颈残留块,不同之处在于,核尺寸3×3的中间卷积层用三个卷积层3×3,7×1,1,1×7的卷积层替换为分别。最后一个残余块后跟与CoV_Net中的相同的层,以预测实际值距离图和多级距离图。

PRE_Net(图7.c)使用PRE矩阵以及熵分数(联合熵、Shannon熵)和序列剖面(PSSM)作为输入。首先将实例规范化层应用于输入。与COV_Net和PLM_Net不同的是,在实例归一化层之后加入一个卷积层,该卷积层包含64个大小为1 × 1的核和一个RCIN块,进行降维。RCIN块的输出然后通过16个剩余块馈入。每个残差块由两个堆叠的子块组成(每个子块包含64个3 × 3大小的kernel的卷积层、一个RCIN块、一个dropout层(dropout rate为0.2)、一个SE_block和一个shortcut connection)。残差块后的最终输出层与COV_Net中相同。

OTHER_Net使用其他功能作为输入。其结构是基本相同PRE_Net,不同之处在于它具有22个的残余块并且在每个残余块没有下降现象层。

DeepDist的最终输出是一个平均实值距离图和一个平均多类距离图,由四个单独网络模型的输出计算得出,即单个网络集合的输出。

培训

COV_Net输入维数为L × L × 483, PLM_Net输入维数为L × L × 482, PRE_Net输入维数为L × L × 484,输入维数非常大,占用大量内存。因此,我们使用Keras的数据生成器批量加载大的特征数据。批量大小设置为1。普通初始化项[38]用于初始化网络。对于时期≤30,亚当优化器[39初始学习率为0.001。对于时期> 30,随机动量的随机梯度下降(SGD)[40]来代替,以0.01的初始学习速率和0.9的势头。实值距离预测和多类距离分类在两个并行分支的训练。的均方误差(MSE)和交叉熵分别用作其损失函数,。在每个历元,顶部L / 2的精度远距离从平均两个接触的接触衍生预测映射从实值距离图和所述验证数据集的多类距离图来计算转换。间残余实值距离图是通过反演预测距离,以获得相对接触概率转化为接触图(即1 / dij的:相对接触概率分数; dij的:残基,i和j之间的预测的距离)。The multi-class distance map is converted to the binary contact map by summing up the predicted probabilities of all the distance intervals ≤ 8 Å as contact probabilities.

AB Initio蛋白通过预测距离折叠

我们使用DeepDist与我们的内部工具DFOLD [预测距离23]建立在CNS的顶部[41],软件包实现距离几何算法用于基于NMR结构测定,所述距离约束成三维结构模型进行转换。For the predicted real-value distance map, we select the predicted distances ≤ 15 Å and with sequence separation ≥ 3 to generate the distance restraints between Cb-Cb atoms of residue pairs. 0.1 Å is added to or subtracted from the predicted distances to set the upper and lower distance bounds. For the predicted multi-class distance map, we first convert the distance probability distribution matrix to a real-value distance map by setting each distance as the probability-weighted mean distance of all intervals for a residue pair and using the standard deviation to calculate the upper and lower distance bounds. Given a final real-value distance map, we prepare five different subsets of input distance restraints by filtering out distances ≥ x respectively, where x = 11 Å, 12 Å, 13 Å, 14 Å, and 15 Å. For each subset of distance restraints, we run DFOLD for 3 iterations. For each iteration, we generate 50 models and select the top five models ranked by the CNS energy score, the sum of all violations of all distance restraints used to generate a model. The top selected models generated from five subsets are further ranked by SBROD [42]. 最终排名前一的车型是SBROD得分最高的车型。PSIPRED用于预测生成氢键的二级结构以及DFOLD使用的扭转角约束。

数据和材料的可用性

本研究中使用的数据集和Deaddist的源代码可供选择https://github.com/multicom-toolbox/deepdist.

缩写

均方误差:

平均均方误差

DCA:

直接耦合分析

MSA:

多序列比对

调频:

免费建模

TBM:

基于模板的建模

参考

  1. 1.

    重量M, White RA, Szurmant H, Hoch JA, Hwa T.蛋白-蛋白相互作用中直接残留接触的信息传递鉴定。中国科学院院刊。2009;106(1):67-72。

    CAS文章谷歌学术搜索

  2. 2.

    埃克伯格M、勒夫克维斯特C、兰Y、魏格特M、奥雷尔E。改进的蛋白质接触预测:使用伪可能性推断Potts模型。物理修订版E。2013;87(1):012707.

    文章谷歌学术搜索

  3. 3.

    Kamisetty H,Ovchinnikov S,Baker D.评估基于共同级的残留残留的接触预测在序列和结构丰富的时代的效用。PROC NATL ACAD SCI。2013; 110(39):15674-9。

    CAS文章谷歌学术搜索

  4. 4.

    Seemayer S,Gruber M,SödingJ.CCMPRED-CCMPRED-FAST和精确地预测来自相关突变的蛋白质残留物触点。生物信息学。2014; 30(21):3128-30。

    CAS文章谷歌学术搜索

  5. 5.

    基于稀疏逆协方差估计的结构接触精确预测。生物信息学。2012;28(2):184 - 90。

    CAS文章谷歌学术搜索

  6. 6.

    Meyer F, Paarmann D, D 'Souza M, Olson R, Glass EM, Kubal M, Paczian T, Rodriguez A, Stevens R, Wilke A.宏基因组学RAST服务器-一个宏基因组自动系统发育和功能分析的公共资源。BMC Bioinform。2008;9(1):386。

    CAS文章谷歌学术搜索

  7. 7.

    Wilke A, Bischof J, Gerlach W, Glass E, Harrison T, Keegan KP, Paczian T, Trimble WL, Bagchi S, Grama A. MG-RAST宏基因组数据库和门户网站,2015。核酸Res. 2016;44(D1): D590-4。

    CAS文章谷歌学术搜索

  8. 8.

    Eickholt J,Cheng J.使用深网络和升压预测蛋白质残留物触点。生物信息学。2012; 28(23):3066-72。

    CAS文章谷歌学术搜索

  9. 9.

    基于超深度学习模型的蛋白质接触图预测。公共科学图书馆。2017;13(1):e1005324。

    文章谷歌学术搜索

  10. 10.

    Adhikari B,Hou J,Cheng J.DNCON2:改进了使用两级深卷积神经网络的蛋白质接触预测。生物信息学。2018; 34(9):1466-72。

    CAS文章谷歌学术搜索

  11. 11.

    Kandathil SM, Greener JG, Jones DT。CASP13中DeepMetaPSICOV残基间接触的预测蛋白质结构与功能生物信息学。2019;87(12):1092-9。

    CAS文章谷歌学术搜索

  12. 12.

    李源,张C,贝尔EW,俞DJ,张Y. Ensembling多个原始协同进化的特征与在CASP13接触地图预测深残余神经网络。蛋白质结构功能生物素。2019; 87(12):1082至1091年。

    CAS文章谷歌学术搜索

  13. 13.

    阿迪卡里B,巴特查里亚D,曹R,程J。CONFOLD:残基接触引导的从头算蛋白质折叠。蛋白质结构功能生物信息。2015;83(8):1436–49.

    CAS文章谷歌学术搜索

  14. 14

    关键词:CONFOLD2,接触驱动,从头计算,蛋白质结构BMC Bioinform。2018;19(1):22。

    文章谷歌学术搜索

  15. 15

    Sheridan R,Fieldhouse RJ,Hayat S,Sun Y,Antipin Y,Yang L,Hopf T,Marks DS,桑德C:Evfold。ORG:进化偶联和蛋白质3D结构预测。Biorxiv 2015:021022。

  16. 16.

    Michel M, Hayat S, Skwark MJ, Sander C, Marks DS, Elofsson A. pconfold:改进的接触预测改进了蛋白质模型。生物信息学。2014;30 (17):i482-8。

    CAS文章谷歌学术搜索

  17. 17.

    Monastyrskyy B, d’andrea d, Fidelis K, Tramontano A, Kryshtafovych A.评价CASP10的残留-残留接触预测。蛋白质结构与功能生物信息学2014;82:138-53。

    CAS文章谷歌学术搜索

  18. 18.

    高级AW,Evans R,Jumper J,Kirkpatrick J,Sifre L,Green T,Qin C,žídekA,纳尔逊AWR,Bridgland A等。利用深度学习的潜力改善蛋白质结构预测。自然。2020; 577(7792):706-10。

    CAS文章谷歌学术搜索

  19. 19.

    Xu J,王S. CASP13深度学习的距离基蛋白质结构预测分析。蛋白质结构功能生物素。2019; 87(12):1069-81。

    CAS文章谷歌学术搜索

  20. 20.

    杨杰,anishchenko I,Park H,Peng Z,Ovchinnikov S,贝克D.改善了使用预测的近似方向的蛋白质结构预测。PROC NATL ACAD SCI。2020; 117(3):1496-503。

    CAS文章谷歌学术搜索

  21. 21.

    Bhagwat M, Aravind L:冲击波教程。:比较基因组学。施普林格;2007: 177 - 186。

  22. 22.

    琼斯DT。基于位置特异性评分矩阵的蛋白质二级结构预测。中华医学会昆虫学分会。1999;292(2):195-202。

    CAS文章谷歌学术搜索

  23. 23.

    https://github.com/jianlin-cheng/dfold.

  24. 24.

    Greener JG, Kandathil SM, Jones DT。深度学习通过迭代预测结构约束扩展了基因组的从头蛋白质建模覆盖范围。Nat Commun。2019;10(1):1-13。

    CAS文章谷歌学术搜索

  25. 25.

    Jones Dt,Kandathil SM。使用完全卷积神经网络和最小序列特征的蛋白质接触预测高精度。生物信息学。2018; 34(19):3308-15。

    CAS文章谷歌学术搜索

  26. 26

    李勇,胡军,张超,于德军,张宇。基于深度残差神经网络耦合精度矩阵的蛋白质接触预测。生物信息学,2019,35(22):4647 - 55。

    CAS文章谷歌学术搜索

  27. 27

    Mirdita M,Von Den Driesch L,Galiez C,Martin Mj,SödingJ,Steinegger M.聚类和深层注释的蛋白质序列和对准的不可原化数据库。Nucl酸res。2017; 45(D1):D170-6。

    CAS文章谷歌学术搜索

  28. 28.

    Steinegger M,SödingJ.聚集巨大的蛋白质序列集线性时间。NAT Communce。2018; 9(1):1-8。

    CAS文章谷歌学术搜索

  29. 29.

    张C,郑W,Mortuza S,Li Y,Zhang Y:Deepmsa:构建深度多序列对齐,提高远处同源性蛋白的接触预测和折叠识别。生物信息学2019.

  30. 30.

    Remmert男,Biegert A,Hauser的A,瑟丁J. HHblits:由HMM-HMM对准闪电快速迭代蛋白质序列搜索。NAT方法。2012; 9(2):173。

    CAS文章谷歌学术搜索

  31. 31.

    EDDY S:HMMER用户指南。华盛顿大学医学院遗传学系1992年,2(1): 13。

  32. 32.

    Ulyanov D,Vedaldi A,Lempitsky V:实例标准化:快速造型化的缺失成分。预印迹arxiv:1607080222016年。

  33. 33.

    Mao W,Ding W,Xing Y,龚H.Amoebacontact和Gdfold作为快速De Novo蛋白结构预测的管道。NAT Mach Intell。2019年; 2019:1-9。

    谷歌学术搜索

  34. 34.

    Nair V,Hinton GE:整流的线性单位改善受限制的Boltzmann机器。:第27届机器学习国际会议论文集(ICML-10): 2010.807 - 814。

  35. 35.

    Goodfellow Ij,Warde-Farley D,Mirza M,Courville A,Bengio Y:Maxout Networks。预印迹arXiv: 130243892013.

  36. 36.

    胡军,沈磊,孙刚:挤压-激励网络。:计算机视觉与模式识别.7132-7141。

  37. 37.

    Srivastava n,Hinton G,Krizhevsky A,Sutskever I,Salakhutdinov R.辍学:防止神经网络从过度装箱中的一种简单的方法。J Mach Learn Res。2014; 15(1):1929-58。

    谷歌学术搜索

  38. 38

    何克,张X,任S,孙J:深入研究整流器:在imagenet分类上超越人类水平的性能。在:计算机视觉国际会议论文集:2015.1026 - 1034。

  39. 39

    Kingma DP,BA J:亚当:随机优化的方法。预印迹arxiv:141269802014.

  40. 40。

    Qian N.在梯度下降学习算法中的势头。神经网络。1999; 12(1):145-51。

    CAS文章谷歌学术搜索

  41. 41。

    Brünger AT, Adams PD, Clore GM, DeLano WL, Gros P, Grosse-Kunstleve RW, Jiang J- s, Kuszewski J, Nilges M, Pannu NS。晶体学和核磁共振系统:用于大分子结构测定的新软件套件。Acta晶体学学报1998;54(5):905-21。

    文章谷歌学术搜索

  42. 42。

    Karasikov M,PagèsG,林林蛋白S.粗粒蛋白质质量评估的顺利取向依赖性评分功能。生物信息学。2019; 35(16):2801-8。

    CAS文章谷歌学术搜索

下载参考

致谢

我们要感谢CASP组织者和预测者分享了在这项工作中使用的数据。

资金

本出版物中报告的研究部分由两个NSF授予(DBI 1759934和IIS1763246),DOE授权(AWD-001604-G1)和JC的NIH授权(R01GM093123)提供支持。资金机构在这项研究中没有发挥作用。

作者信息

从属关系

作者

贡献

JC构思了该项目。TW,ZG,JH和JC设计了该方法。TW和ZG实现了该方法并收集了结果。TW,ZG和JC分析了结果。tw,zg,jh和jc写了稿件。所有作者都编辑并批准了稿件。TW和ZG同样地贡献了这项工作。所有作者阅读并认可的终稿。

相应的作者

对应于王健林程艘

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有利益冲突。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1。

补充结果和数据。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

经由CROSSMARK验证货币和真实性

引用这篇文章

吴,T.,Guo,Z.,Hou,J.et al。深度残差卷积网络的实值残差间距离预测。欧宝娱乐合法吗22,30(2021)。https://doi.org/10.1186/s12859-021-03960-9

下载引用

关键字

  • 蛋白质距离预测
  • 联系预测
  • 蛋白质结构预测
  • 深度学习
\