跳到主要内容

deepfragment -k:基于片段的深度学习方法,用于蛋白质折叠识别

抽象的

背景

结构生物信息学中最重要的问题之一是蛋白质折叠识别。在本文中,我们设计了一种新的深度学习架构,所谓的DeepFrag-k,其识别片段水平的折叠辨别特征,以提高蛋白质折叠识别的准确性。Deepfrag-k由两个阶段组成:第一阶段采用多模态深度信仰网络(DBN)来预测给定序列的潜在结构片段,表示为片段向量,然后第二阶段使用深卷积神经网络(CNN)将片段向量分类为相应的折叠。

结果

我们的结果表明,Deepfrag-K收益率为92.98预测前100个最流行的片段的准确性,可用于产生判别片段特征向量以改善蛋白质折叠识别。

结论

存在一组碎片,可以用作结构“关键词”区分主要蛋白质折叠。Deepfrag-K中的深度学习架构能够准确地将这些片段识别为结构特征,以改善蛋白质折叠识别。

背景

蛋白质折叠揭示了蛋白质氨基酸序列与其三级结构之间的关系。特定的蛋白质折叠描述了二级结构元素在几乎无限的构象空间中的独特排列,表示蛋白质分子的结构特征。许多蛋白质折叠数据库,包括CATH[1]和scop [2],已开发用于根据结构相似性层次对这些实验确定的蛋白质结构进行分类。在过去的几十年中,由于高通量测序技术,已鉴定的蛋白质序列数量急剧增加;然而,独特构造褶皱的数量在过去七年中保持不变[3.],表明蛋白质结构宇宙几乎完整。高度准确的计算折叠识别方法是桥接序列结构间隙的关键工具。

折叠识别方法可以分为两类:序列对齐方法和机器学习方法[4.].序列对准方法背后的想法是将序列或序列轮廓与具有实验确定的结构的序列或序列轮廓匹配,如模板[5.]识别最合适的折叠。另一方面,机器学习方法旨在识别给定序列的全局或本地特征,然后将其分类为已知折叠类别之一。早期机器学习折叠识别方法使用多层Perceptron和支持向量机[6.].后来,引入了集合分类器和基于内核的方法,以发现序列功能之间的相关性,以克服早期机器学习方法的弱点,提高折叠识别员的可怜性[5.].最近,已经应用了深度学习技术来提取有效特征,例如二级结构[4.]和残留物之间的接触[7.],进一步提高折叠识别。

在这项工作中,我们提出了一种新的深度神经网络架构,所谓的深碎片K,将靶蛋白序列分类为已知的蛋白质折叠。与直接从序列和序列相关的特征预测折叠的大多数折叠识别方法不同,Deep-Frag-K采用两级过程,其中在阶段1中预测片段载体,然后在舞台上预测相应的蛋白质折叠2.深碎片K中的基本思想是预测目标蛋白质序列将形成的潜在结构片段[8.]折叠,表示为片段载体,其包含高辨别特征来区分的蛋白质折叠[期间9.].如果一个蛋白序列被认为是一个文件,片段可以被视为本文档中的单词。所述片段形成的结构基序,其被积木组装蛋白质结构。特别是,某些片段进行重要的蛋白质的功能是至关重要的。这些片段可以被视为“关键词”是能够唯一区分一个与其他折叠功能。

Deep-Frag-k由两个阶段组成。第一阶段使用多模态深度信念网络(DBN)融合多组特征,包括序列组成、氨基酸理化性质和进化信息,精确预测给定序列的潜在结构片段,这些片段表示为片段向量。然后,使用一维卷积神经网络(CNN)将片段向量分类到适当的折叠中。我们在三重识别数据集上评估了DeepFrag-k:Ding和Dubchak(DD)[10.],扩展DD(EDD)[11.],田口和葛米夏(TG) [12.].我们的研究结果表明,DeepFrag-k是比现有的方法,包括PFP-PRED [更准确,灵敏和鲁棒13.],高克[14.],ThePFP-FunDSeqE [15.],dehzangi等。[6.16.],marfold [17.],pfp-rfsm [18.冯和胡锦涛[19.],冯等人。[20.],pfpa [21.],Paliwal等人[22.23.],dehzangi等。[24.],HMMFOLD [25., Saini等人[26.,以及Profold [27.],蛋白质折叠识别。

方法

Deepfrag-K折叠识别架构

数字1介绍Deepfrag-K的两级深度神经网络架构。在第一阶段,我们使用基于多模态DBN的片段预测模型预测目标蛋白质序列的片段载体表示[28.],预测蛋白质折叠过程中靶蛋白质序列将形成的潜在片段。特别是,我们专注于前100个最流行的碎片,长度为4-至20次,在我们的Frag-k片段图书馆中描述了[8.9.].我们以前的结果[9.]表明这些片段可用作结构“关键词”,以有效地区分主要蛋白质折叠。在多模态DBN中,DBN彼此相互作用以学习源自序列组合物,物理化学特性和进化信息的一组特征的片段潜在表示。第一阶段的输出是相对于目标蛋白质序列的片段载体。之后,在第二阶段,该片段向量被馈送到1D卷积神经网络(1D-CNN)[29.分类器,作为目标蛋白质序列的特征载体,预测蛋白质折叠的可能性。Deepfrag-k在Tensorflow平台上实现。泄漏的Relu激活功能用于DBN和CNN层,以避免消失的梯度问题并加速培训。采用随机梯度下降的ADA优化算法用于训练DBN和CNN模型,学习速率为0.0001。Deepfrag-K的培训是在带有3,840个CUDA核心和24GB GDDR5内存的GPU P40服务器上进行的。

图。1
图1

折叠识别架构。两个阶段蛋白质折叠识别架构

片段预测(第1阶段)

蛋白质折叠通过形成某些独特的二级结构和超二级结构基序来区分自身,如β-hairpins,短β-sheet、helix-loop-helix和helix-turn-helix,它们被表示为结构碎片。从给定的序列中正确预测这些片段可以得到有效的褶皱识别特征。然而,预测片段的序列特征具有明显的统计性质,它们之间的相关性是高度非线性的[28.].对于浅模型,难以捕获这些相关性并形成综合的信息性表示。我们的片段预测模型由多模式DBN和完全连接的网络组成。我们对所提出的多模式DBN的动机是通过使用集成表示来解决上述挑战,以增强片段预测精度[28.].数字2总结我们提出的片段预测模型的框架。我们使用破片-K片段库来训练片段预测模型。首先,我们使用所抽取的序列组成,物理化学性质,和进化信息作为特征组学习前100分片-K片段的潜在表示。如图[28.],前100个fragment -k片段能够高精度地对主要SCOP折叠进行分类,也可用于高精度地组装大多数蛋白质结构。dbn学习到的多个特征表示被连接起来训练受限玻尔兹曼机(RBM)模型[28.]融合特征组的潜在特征表示。最后,两个完全连接的1,000×1,000神经网络层,后跟100个输出节点的软MAX层,表示顶-100个FROM-k片段,具有这些潜在特征表示来产生片段预测。这种逐层学习有助于逐渐提取原始特征组的有效特征[30.].多峰DBN获悉判别潜设有作为联合分布确定通过非相关特征组输入的隐变量[28.]. 因此,多模式学习的混合框架融合了抽象层表示,这使得片段预测器能够灵活地集成不同长度片段的不同特征组。

图2
figure2

第一阶段用于碎片预测的多模态DBN体系结构

碎片预测模型的训练采用随机梯度下降法。在训练过程中,Frag-k片段库(每个片段类中有1000个样本)被随机分成批次,每个批次包含500个样本。为了防止过度拟合,在每个隐藏层之后插入退出层,退出率为0.5,并采用提前停止策略。

褶皱预测(第2阶段)

从阶段1产生的片段特征向量被馈送到1D-CNN架构以预测蛋白质折叠,如图2所示。3..所提出的一维cnn由两对卷积和最大池化层(COV1-MP1和COV2-MP2)、两个全连接层FC1和FC2和一个SoftMax层组成。在MP1和COV2之间,我们包含一个堆叠层st。COV1层包含10个卷积滤波器,产生10个滤波版本的片段特征向量作为输出。这些过滤后的版本在最大池化层MP1中进行下采样。堆叠层重新排列MP1的输出,使从COV1生成的特征的2D堆栈发送到第二卷积层COV2。COV2中的卷积滤波器是2D滤波器,与ST层高度相同。这些2D滤波器的目的是捕获COV1中原始片段向量的卷积滤波器产生的潜在特征之间的关系。然后在最大池化层MP2中对生成的输出进行下采样。为了将MP2的扁平输出划分为相应的褶皱,采用了FC1和FC2两个全连接层,然后是SoftMax层。我们在表中总结了深褶识别体系的超参数1

图3.
图3

II.Protein折叠分类1D-CNN模型

表1折叠分类架构的超参数

特征提取

从蛋白质序列构建合适的特征载体是蛋白质片段预测的关键步骤[7.].使用多个特征提取策略,表示序列片段的序列,进化,物理化学信息,最大化折叠识别器的辨别能力[31.].在DeepFrag-K使用片段的序列特征包括官能团的频率,氨基酸和二肽[信息熵32.],分布氨基酸相对位置[31.],以及官能团的转换[33.].物理化学特性包括PseAAC(伪氨基酸组成)[34.]以及片段中氨基酸的疏水性、柔韧性和平均可及表面积的离散小波变换(DWT)。进化特征由不同形式的位置特定评分矩阵(PSSM)描述[35.[包括型材PSSM(P-PSSM),PSSM-二肽组合物(PSSM-DC),Bi-Gram PSSM(Bi-PSSM)和进化差异-SSM(ED-PSSM)。这些功能总结在表中2

表2蛋白质序列特征

结果

数据集

三个数据集,包括DD [10.],TG [12.],及EDD[11.[用于将Deepfrag-K的有效性与现有的折叠识别方法进行比较。这些数据集中的序列涵盖了SCOP数据库中的大部分序列。DD DataSet由训练集和测试集组成,其中SCOP数据库中的覆盖27蛋白折叠,属于包含的不同结构类α.βα./β, 和α.+β,全面地。DD训练集包含311个蛋白序列,≤40残留物标识和测试组包含383个蛋白序列,≤35残留物身份。此外,训练集中的序列具有标识≤35与测试数据集中的那些,确保提供无偏性的性能评估。TG数据集包含1,612个蛋白序列,≤25在SCOP 1.73中属于30个不同折叠的序列标识[12.].EDD数据集是DD数据集的扩展版本,包含3418条≤40条的蛋白质序列序列标识[11.].

片段预测模型

将FROM-k片段的提取的序列组成,物理化学性质和进化信息特征馈送到片段预测模型,以预测其潜在的相应碎片类。我们调查分类器通过特异性,灵敏度和准确度测量的分类器的性能,这些性能被定义为预测的片段类的百分比,这是真正的阳性的百分比,正确预测的真实阳性的百分比以及正确分类的片段的分数, 分别。

我们首先检查相同长度的序列片段的分类。数字4.显示10倍交叉验证结果的精度,特异性和敏感性,对于从4至20个残留物的长度范围的前100个Frag-k片段靶标。人们可以发现,较长的片段(≥10个残留物)的预测精度优于较短的碎片(≥10个残留物),其中特异性和灵敏度均超过80. 这是因为较长的片段包含更丰富的鉴别信息。然而,当使用长度可变的前100个Frag-k片段作为目标类时,预测精度达到90%以上,因为这些长度可变的前100个Frag-k片段是蛋白质结构领域中更具代表性的结构关键词,正如我们之前的研究所示[9.].

图4.
装具

应用不同特征组及其组合时可变长度FROM-K片段预测的精度

我们分析了三个特征群体的有效性(表2)用于表示可变长度FROM-K片段预测精度的序列片段。我们撰写个人和组合的序列组成,物理化学特性和进化信息特征向量,以训练图2中所示的片段预测模型。2.十倍的交叉验证精度结果在图2中示出。5.. 进化信息起着最重要的作用;然而,所有这些特征组都有助于整体碎片精度的提高。

图5.
figure5

片段库模型的准确性、特异性和敏感性

折叠分类模型

如我们以前的工作所示[9.],具有可变长度的Frag-k片段库比固定长度的折叠分类精度达到更高的折叠分类精度。此外,我们在前一节中的结果表明,比单个固定长度碎片的可变长度碎片片段上的预测精度。因此,我们使用基于来自折叠识别模型的片段预测模型的可变长度片段预测的片段向量。

我们使用DD,EDD和TG数据集的序列来评估DeepFrag-k的性能。首先,对于给定的序列中,我们使用的4至20个残基至连续段它的滑动窗为一组重叠片段,其中间隙和非蛋白残基被排除在外的。数字6.总结DD数据集上DEDFRAG-K和其他折叠识别方法的十倍交叉验证结果。Deepfrag-k通过屈服85.3来突出其他方法准确度是9.1高于第二高,普美(76.2)。表中列出了Deepfrag-K之间的更详细比较和每个单独的蛋白质折叠的额外比较3..人们可以发现,DeepFrag-K证明比ProFold更好的折叠识别精度在18出27个蛋白质折叠。它也注意到DeepFrag-k表示更平衡的预测精度非常重要的。特别地,对于折叠,如b.34,b.47,C.3 C.37和D.15,即ProFold表现出较差的预测结果,DeepFrag-K产量显著精度的改进。

图6.
figure6

与DD-DataSet上的现有折叠识别方法进行比较

表3 DD数据集的DeepFrag-k和ProFold褶皱分类精度

我们进一步评估了EDD和TG数据集的Deepfrag-K的性能。与其他方法相比,十倍交叉验证结果如图4所示。7..Deepfrag-K产生96.1和97.5在EDD和TG数据集上的准确性,其分别高于其他折叠识别方法。由于具有显着更多的样品在EDD和TG数据集中可用,这对于我们的深度学习模型特别有所帮助,以捕获序列空间中蛋白质折叠的鉴别特征,Deepfrag-K在EDD和TG数据集中产生更好的折叠识别精度而不是在DD数据集中。

图7.
figure7

在TG和EDD数据集上,将DeepFrag-k与其他褶皱识别方法进行了比较

数字8.描绘了类激活图(CAM)[36.,展示了如何根据来自蛋白质序列的片段特征向量对蛋白质折叠进行分类。识别出对褶皱分类最具鉴别性的激活单元,其权重很高。这些特定类别单位的组合指导DeepFrag-k区分每个褶皱。可以观察到,折叠分类模型使用了更多的激活单元进行分类α./β或者α.+β蛋白质(C.1至C.93),与所有人相比α.(A.1至A.39)和所有β蛋白质(B.1至B.60)。然而,在小蛋白质的折叠中,如G.3,只有少数激活单元在折叠识别过程中有效。

图8
figure8

类激活的地图为在DeepFrag-K EDD倍分类

讨论

在我们之前的工作中[9.[我们开发蛋白质结构片段文库(Frag-K),由约400个骨架片段的范围为4-20个残基,作为蛋白质结构宇宙中的结构“关键词”。使用这些片段作为关键字的结构字典可以将主要蛋白质折叠分类为高精度。DeepFrag-K的成功是识别这些关键字,以高精度为具有有效折叠识别的结构特征。Deepfrag-K中的深度学习架构在准确地识别这些碎片方面发挥着重要作用。

当前版本的DeepFrag-k有其局限性。在DeepFrag-k的第2阶段训练中使用的CNN可以有效地捕获碎片之间的局部相互作用模式,但难以学习其高阶远程相互作用,这对于形成稳定的空间结构至关重要。这个问题可以通过结合深度学习技术来解决,例如递归神经网络(RNN),它可以将序列数据学习为时间序列并捕获长期相关性。

结论及未来研究方向

在本文中,我们设计Deepfrag-K,这是一个两级深度学习神经网络架构,用于折叠识别。片段预测阶段通过熔化序列组合物,物理化学性质和进化信息特征序列片段的序列片段组到折叠识别阶段来衍生有效的片段特征向量。由于片段特征向量的高度辨别能力,与DD,EDD和TG数据集上的其他折叠识别方法相比,Deepfrag-K产生了显着的精度增强。

我们将使用RNN进行调查以捕获结构片段之间的高阶,远程相互作用,以进一步改善Deepfrag-K。此外,衍生在Deepfrag-K中的特征基于序列片段。它们可以与其他序列或结构特征结合,例如残基相互作用[7.],进一步提高折叠识别。此外,精确的折叠识别允许协同拟合序列成已知的三维折叠,通过检测非常偏远的同源性来增加成功率。公认的折叠可用作高质量模板,以预测高分辨率的三级结构。这些将是我们未来的研究方向。

可用性数据和材料

Deepfrag-K包可以下载https://github.com/yaohangli/deepfragk.

缩写

CNN:

卷积神经网络

RNN:

经常性神经网络

DBN:

深度信仰网络

RBM:

受限制的Boltzmann机器

PSSM:

特定位置的评分矩阵

DWT:

离散小波变换

PSEACC:

伪氨基酸组成

DD:

丁和dubchak dataset

edd:

扩展Ding和Dubchak数据集

TG:

Taguchi和Gromiha DataSet

参考

  1. 1

    奥伦戈C、米奇A、琼斯S、琼斯D、斯温德尔M、桑顿J。Cath–蛋白质结构域的层次分类。结构。1997; 5(8):1093.

    CAS.文章谷歌学者

  2. 2

    Murzin A,Brenner S,Hubbard T,Chothia C. SCOP:蛋白质数据库的结构分类,用于调查序列和结构。J Mol Biol。1995年;247(4):536。

    CAS.PubMed.谷歌学者

  3. 3.

    由SCOP定义的每年的独特折叠的增长。http://www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=fold-scop.2019年2月22日访问。

  4. 4.

    羊Y,赫弗南R,Paliwal K,里昂Ĵ,Dehzangi A,夏尔马A,王阶,萨塔尔A,周Y. Spider2:一个包来预测二级结构,可及表面面积,并通过深神经网络的主链扭转角.方法Mol Biol。2017年;1484:55。

    CAS.文章谷歌学者

  5. 5.

    基于hmm-hmm对齐和动态规划的蛋白质折叠识别。《生物学杂志》2016;393:67。

    CAS.文章谷歌学者

  6. 6.

    Dehzangi A,Phon-Amnuaisuk S,Dehzangi O.使用随机林进行蛋白质折叠预测问题:实证研究。J INF SCI ENG。2010;26(6):1941。

    谷歌学者

  7. 7.

    朱Ĵ,张辉,李S,汪C,港L,孙S,郑W,卜D.由预测残渣残留接触提取倍的特定功能提高蛋白质折叠识别。生物信息学。2017年;33(23):3749。

    CAS.文章谷歌学者

  8. 8.

    ElheFnawy W,Li M,Wang J,Li Y.使用随机谱聚类算法在大蛋白质组上构建蛋白质骨干碎片库。在:生物信息学研究与应用国际研讨会(ISBRA)。纽约:Springer International Publishing:2017。

    谷歌学者

  9. 9.

    王建新,李勇。蛋白质结构域中结构关键字的解码。计算机科学与技术专业。中国计算机科学(英文版);34(1): 3。

    文章谷歌学者

  10. 10.

    Tan A,Gilbert D,Deville Y.使用新的集合机学习方法进行多级蛋白质折叠分类。基因组通知。2003;14:206。

    CAS.PubMed.谷歌学者

  11. 11.

    基于自交叉协方差变换的蛋白质折叠识别方法。生物信息学。2009;25(20): 2655。

    CAS.文章谷歌学者

  12. 12.

    关键词:蛋白质折叠,氨基酸分布,蛋白质折叠类型欧宝娱乐合法吗BMC生物信息学。2007;8:404。

    文章谷歌学者

  13. 13.

    沉H,周K.集成分类为蛋白质折叠模式识别。生物信息学。2006;22(14):1717。

    CAS.文章谷歌学者

  14. 14.

    郭某,高某。一种新的用于蛋白质折叠识别的层次集成分类器。蛋白质工程。2008; 21(11):659.

    CAS.文章谷歌学者

  15. 15.

    沉h,陈氏。预测蛋白质折叠模式与功能域和顺序演化信息。J Worl Biol。2009;256(3):441。

    CAS.文章谷歌学者

  16. 16.

    Dehzangi A,Phon-Amnuaisuk S,Manafi M,Safa S.使用旋转森林进行蛋白质折叠预测问题:实证研究。在:生物信息学中的进化计算,机器学习和数据挖掘会议。柏林,海德堡:Springer Berlin Heidelberg:2010。

    谷歌学者

  17. 17.

    杨T,Kecman V,曹L,章C,黄J.保证金为基础的蛋白质折叠识别集成分类。专家系统与App。2011;38(10):12348。

    文章谷歌学者

  18. 18.

    Li J,Wu J,Chen K.PFP-RFSM:通过使用随机森林和序列图来预测蛋白质折叠预测。j生物化sci eng。2013;6(12):1161。

    文章谷歌学者

  19. 19.

    Feng Z,Hu X.通过添加段和图案信息的相互作用来识别27级蛋白质折叠。BioMed Res Int。2014;2014年:262850。

    PubMed.pmed中央谷歌学者

  20. 20.

    冯志强,胡晓霞,蒋志强,宋海涛,等。基于二级结构元素平均化学位移的蛋白质折叠识别。沙特生物学杂志2016;23(2): 189。

    CAS.文章谷歌学者

  21. 21.

    魏磊,廖敏,高旭,邹强。一种基于特征提取的蛋白质折叠预测方法。2015;14(6): 649。

    文章谷歌学者

  22. 22.

    Paliwal K,Sharma A,Lyons J,Dehzangi A.一种基于三克的特征提取技术,使用位置特异性评分基质的线性概率进行蛋白质折叠识别。IEEE Trans NanobioScience。2014;13(1):44。

    文章谷歌学者

  23. 23.

    Paliwal K,Sharma A,Lyons J,Dehzangi A.使用基于进化和结构的信息的融合来改善蛋白质折叠识别。欧宝娱乐合法吗BMC生物信息学。2014;15(S12):16。

    谷歌学者

  24. 24.

    Dehzangi A,Paliwal K,里昂Ĵ,沙尔马A,萨塔尔A.一种基于分割的方法,以提取蛋白质折叠识别结构和进化的特征。IEEE / ACM跨COMPUT生物学Bioinform。2014;11(3):510。

    CAS.文章谷歌学者

  25. 25.

    Lyons J,Dehzangi A,Heffernan R,Yang Y,周Y,Sharma A,Paliwal K.通过利用隐马尔可夫模型的曲线来推进蛋白质折叠识别的准确性。2015;14(7):761。

    文章谷歌学者

  26. 26.

    Saini H,Raicar G,Sharma A,Lal S,Dehzangi A,Lyons J,Paliwal K,Imoto S,Miyano S.空间变化的氨基酸二聚体的概率表达为蛋白质折叠识别的一般形式的蛋白质伪氨基酸组合物。J Worl Biol。2015;380:291。

    CAS.文章谷歌学者

  27. 27.

    陈德,田X,周B,高J。Profold:具有额外结构特征的蛋白质折叠分类和一个新的集成分类器。生物医药研究院,2016年;2016:6802832.

    PubMed.pmed中央谷歌学者

  28. 28.

    Srivastava N,Salakhutdinov R. Deep Boltzmann机器的多模式学习。adv神经户流程系统。2014;15(1):2949-80。

    谷歌学者

  29. 29.

    Min S,Lee B,Yoon S.深入学习生物信息学。简短生物形式。2017年;18(5):851。

    PubMed.谷歌学者

  30. 30.

    Goodfellow I,Bengio Y,Courville A.深入学习。自适应计算与机器学习系列。麻风机;2016年。

  31. 31.

    蛋白质的进化变化模型。蛋白质序列和结构图谱。1978;22:345。

  32. 32.

    海峡B,Dewey T. Shannon信息蛋白序列熵。Biophys J. 1996;71(1):148。

    CAS.文章谷歌学者

  33. 33.

    基于氨基酸序列全局描述的蛋白质折叠类预测。美国国立科学院学报1995;92(19): 8700。

    CAS.文章谷歌学者

  34. 34.

    一种用于生成各种蛋白质伪氨基酸组成的柔性web服务器。学生物化学肛门。2008;373(2): 386。

    CAS.文章谷歌学者

  35. 35.

    阿尔特舒尔S,马登T,谢弗A,张J,张Z,米勒W,利普曼D。间隙blast和psi blast:新一代蛋白质数据库搜索程序。核酸研究,1997年;25(17):3389.

    CAS.文章谷歌学者

  36. 36.

    周B,Khosla A,Lapedriza A,Oliva A,Torralba A.对象探测器出现在深场景中CNNS。Arxiv 1412.6856。2014年。

下载参考

致谢

不适用。

关于这个补充

本文已作为BMC生物信息学的一部分发布21卷补充6,2020:第15届生物信息学研究和欧宝娱乐合法吗应用中的第15次国际研讨会(ISBRA-19)的选定文章:生物信息学。补充的完整内容可在线提供//www.christinemj.com/articles/supplements/volume-21- supplement-6

资金

国家自然科学基金面上项目(no . 61728211, no . 61832019)。美国国家科学基金会为文章的加工费和作者的研究工作提供了资金。

作者信息

隶属关系

作者

贡献

我们。实现了Deepfrag-K包。Y.L.构思了预测关键碎片的想法,作为折叠识别的特征,并开发了理论形式主义。W.E.,M.L.,J.W.和Y.L.讨论了结果并促成了稿件。作者读并批准了最终的稿件。

通讯作者

对应于姚明李

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

所有作者阅读并认可的终稿。

利益争夺

作者声明他们没有相互竞争的利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。本文中的图片或其他第三方的材料都包含在文章的Creative Commons许可,除非在信用额度的材料中另有说明。如果不包含在文章的Creative Commons许可材料和用途而不是由法律法规允许或超过允许的使用,您将需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Elhefnawy,W.,Li,M.,Wang,J.et al。Deepfrag-K:基于片段的蛋白质折叠识别的深度学习方法。欧宝娱乐合法吗21,203(2020)。https://doi.org/10.1186/s12859-020-3504-z.

下载引用

关键字

  • 折叠识别
  • 蛋白质片段
  • 深度学习
\