跳过主要内容

基于图卷积网络的玉米蛋白预测函数

抽象的

背景

玉米(玉米ssp。玉米(mays L.)是世界上种植最广泛、产量最高的作物,也是基因功能基础研究的重要模式生物。玉米蛋白的功能是使用基因本体(GO)注释的,它有40000多个术语,并将GO术语组织在一个直接无环图(DAG)。从如此多的候选GO项中准确标注相关的GO项到玉米蛋白是一个巨大的挑战。一些深度学习模型已经被提出用于预测蛋白质功能,但这些方法的有效性并不令人满意。一个主要原因是它们没有充分利用GO层次结构。

结果

若要在GO分层编码的知识,我们提出了一个深刻的图形卷积网络(GCN)基于模型(DeepGOA)来预测蛋白质的GO注解。DeepGOA首先量化的GO术语之间的相关性(或边缘),并通过利用GO注解和层次更新DAG的边缘的权重,然后学习语义表示和由所述更新的DAG施加GCN的方式GO术语潜相互关系.同时,卷积神经网络(CNN)用于学习的氨基酸序列的特征表示相对于所述语义表示。在此之后,DeepGOA计算两种表示,这使连贯训练全网终端到终端的点积。大量的实验表明,DeepGOA能有效地整合GO的结构信息和氨基酸信息,然后准确地诠释蛋白质。

结论

玉米PH207自交系和人蛋白序列数据集的实验表明,DeepGoa优于基于最先进的深度学习方法。消融研究证明,GCN可以采用Go的知识并提高性能。代码和数据集可用http://mlda.swu.edu.cn/codes.php?name=DeepGOA

背景

玉米(玉米ssp。梅斯L.自过去10,000年以来一直遭受培养和选择[12].在测序技术进展导致玉米蛋白质组数据(即,氨基酸序列和相互作用网络)的一个大的,迅速增加量。蛋白质序列的知识对许多应用,如产量和质量的提高,疾病抗性等是有用的。此外,理解的生物系统的行为也需要确定所述蛋白质的功能[3.4.].蛋白质的功能性注释不会随着序列数据的爆炸式增长而增加。因此,准确诠释玉米蛋白的功能对于各种形式的基础和应用研究至关重要[4.-6.].然而,由于的植物学家的研究兴趣的偏置,以及识别蛋白的功能总是需要在体外​​或在体内实验中,只有新获得的序列的非常小的部分已经实验证实GO注解[7.-9.].通过湿实验室技术(即基因敲除和iRNA)注释蛋白质是低通量的,不能跟上蛋白质组学数据的快速流入。因此,自动化方法变得越来越重要[4.10.].

基因本体(GO)是一个受控词汇表,用于描述基因及其产物的生物学作用[11.],它已被广泛用作金标准[12.].蛋白质的注释最初由GO策展人发布(或未发表的)实验数据收集。Go包括大量GO术语,每个GO术语描述了一个不同的生物学概念[13.].如果一个蛋白与GO术语注释的,它指的是蛋白质具有由GO术语表示的函数。此外,许多蛋白不仅具有单一的功能,但可具有多个不同的功能,使得自动化功能预测(AFP)成为多标签的问题。此外,GO包含需要预测蛋白质的功能中考虑到这些GO术语之间的强,正式确定关系。至今,GO包含超过40000点而言,覆盖三个不同的子本体,即生物过程(BP),分子功能(MF)和细胞组分(CC)。GO结构组织在直接非循环图(DAG)的每个子本体GO术语。在DAG中,每个节点对应于GO术语,并且每个边描述术语之间的关系。如果蛋白质与项注释,那么蛋白质也与它的祖先注释(如果有的话)条款。在另一方面,如果蛋白质不与GO项注解,蛋白质将不会与任何其子项的注释。这条规则被称为正确道路规则[11.14.]:儿童课程是进一步改进其父母术语的功能。数字1给出玉米蛋白“Zm00008a000131-P01”的GO注解的一个例子。

图1
图1

蛋白质的分层GO注释示例。”Zm00008a000131-p01'是一种玉米蛋白,其注释为'GO:0005886'。根据真路径规则,蛋白质“Zm00008a000131-p01”也用其祖先术语(“GO:0071944”、“GO:0044464”、“GO:0005623”、“GO:0016020”和“GO:0005575”)进行注释

蛋白质通常同时用多种GO术语注释,因为它通常参与不同的生命过程并执行多种生物学功能。蛋白质的功能不是分离的。多种蛋白质形成生物途径以实现生物学功能,例如凋亡和神经冲动。因此,蛋白质函数预测可以被视为多标签学习问题[15.-18.].然而,由于蛋白质的大量未经验证的GO注释,现有的基于多标签学习的功能预测方法面临着不足的注释和大规模候选的术语问题。此外,Go DAG中的深度术语描述了更精细的生物功能,浅薄术语描述了广泛的功能。蛋白质的缺失的GO注释通常对应于深度术语,这使得精确预测蛋白质的蛋白质的注释比传统的多标签学习更困难。有些努力利用了Go的知识。valentina的名字[14.]调整通过使用GO的层次结构由二元分类器对于每个GO术语作出的预测。潘迪等人。[19.]首先定义通过GO层次结构的知识分类的相似性,并用它来测量的GO术语之间的相关性,然后通过GO术语的相关改进的深GO术语的预测。Yu等人[18.]享有GO结构作为图和施加在GO层次结构向下随机游动(DRW)。该方法中使用已注释的蛋白作为初始步行者的条款来预测该蛋白质的新的GO注释和鉴定这种蛋白的负GO注解[20.].Yu等人[21.]提出了一种基于dRW的混合图,由两种类型的节点(蛋白质和GO项)组成,对蛋白质之间的相互作用、GO层次和蛋白质的可用注释进行编码,然后通过在混合图上提出的双随机游走算法预测蛋白质的GO注释。最近,Zhao等人[22.23.]采用层次保持哈希技术,保持GO项之间的层次顺序,优化一系列哈希函数,通过紧凑的二进制编码对大量GO项进行编码,然后在压缩的哈希空间中进行蛋白质功能预测,获得了较好的蛋白质功能预测精度。

以上方法均可视为浅层解,难以挖掘蛋白质与GO项之间的深层(非线性)关系。近年来,深度学习极大地推动了图像识别和语音识别的发展[24.].庞大而复杂的输出空间是蛋白质功能预测所面临的深学习模式的一大挑战。Wehrmann等人。[25.]为GO层次中不同层次的GO项建立了一系列全连接神经网络。他们使用每个完全连接的神经网络作为分类器,分别预测一定数量的GO项目。由于GO术语注释蛋白质在同一水平上的频率也不同,这将影响深度模型的性能,Zilke等[26.]基于GO级别和注释数量进行分组。对于每个组,它们为功能预测建立了完全连接的神经网络。基于完全连接的神经网络,RIFAIOGLU等。[27.]使用连音三和弦[28.],伪氨基酸组成[29.]和随后的配置文件图[30.],得到的蛋白质序列特征,这进一步提高蛋白质预测的精度。这两个深学习基础的方法分离的GO术语,因此它们不能很好地尊重GO术语,这是不相同的基团之间的连接。Kulmanov等人[31]首先利用卷积神经网络对氨基酸进行编码,并将GO结构纳入输出层。他们为每个GO项生成一个完全连接的层,具有Sigmoid激活功能,用于预测该蛋白是否应该用该GO项注释。此外,他们使用最大合并层,输出所有子节点和内部节点的分类结果的最大值来预测GO DAG中的非叶项。Kulmanov等人[32]进一步去除最大合并层,增加卷积核的数量,以获得更好的预测精度。上述深度模型乐观地假设其模型适用于多个GO术语。但事实上,它们没有很好地利用GO术语之间的层次关系,并且仍然存在氨基酸和GO注释之间的差距,这通常被类似地称为图像分类中的语义差距[33].

本文利用深度神经网络学习基因本体知识,缩小氨基酸与基因本体和注释之间的语义鸿沟。特别是,该算法利用卷积神经网络(CNN)提取氨基酸的特征向量,并利用图卷积网络(GCN)学习GO术语的语义表示[34]指的是GO层次结构和与这些GO术语相关的已知注释。然后,DeepGOA学习从序列特征到GO术语语义空间的映射。该映射由多层神经网络学习,并由已知的蛋白质GO注释反向引导。我们观察到DeepGOA优于现有的最先进的方法[27.313235]对玉米PH207自交系与人类蛋白序列数据集。此外,DeepGOA保留更多GO结构的信息。需要强调的是结合基因本体结构,在我们所知的深度学习模式,仍然是少的计算基于模型的蛋白质功能预测研究是非常重要的。DeepGOA的会议和短版[36作为CNN和GCN在氨基酸挖掘和基因本体论用于蛋白质功能预测的展示,发表在IEEE生物信息学和生物医学国际会议(BIBM 2019)上。在扩展版本中,我们更新了背景、问题定义、方法描述、结果及其分析。

结果和讨论

在本节中,我们简要介绍几种常用的蛋白质功能预测评价标准,用于性能比较和推荐的实验配置。然后,我们分析和讨论实验结果,并将我们的结果与相关和竞争的方法进行比较。

评价指标

对于综合评估,我们使用五种广泛使用的评估指标:AUC、AUPRC、PR50、,F马克斯年代37].广泛采用B分类,广泛采用Auprc(精密召回曲线下的区域)和接收器操作员特性曲线下的区域)。在这里,我们计算每个术语的AUPRC和AUC,然后占据所有术语的平均Auprc和Auc。AUPRC比AUC对类不平衡更敏感。PR50是当召回率等于50%时所有GO术语的平均精度。F马克斯在预测的蛋白项关联矩阵上,所有可能阈值的精度和召回率的最大调和平均值是多少\(\帽子{Y} \)年代使用基于GO层次结构的精密和召回信息的信息化学模块来测量所有可能阈值的预测和地面真相之间的最小语义距离。前三项评估度量是以期为中心的,最后两种是蛋白质为中心的。这些指标量化了蛋白质函数预测的性能,从不同的角度来看,难以在所有度量的所有度量方面一致地占用另一个方法。与其他评估度量不同,值得注意的是,值越小年代,更好的性能。

F马克斯是在所有预测阈值上计算的以蛋白质为中心的F-度量。首先,我们使用以下公式计算平均精度和召回率:

$ $ {p_{我}}= \压裂{{\ mathcal {T} {p_{我}}}}{{\ mathcal {T} {p_{我}}+ F {p_{我}}}}$ $
(1)
$ $ {r_{我}}= \压裂{{\ mathcal {T} {P_{我}}}}{{\ mathcal {T} {P_{我}}+ F {N_{我}}}}$ $
(2)
$$ \镨ecision = \压裂{1} {N} {\总和\ nolimits} _ {i = 1} ^ {N} {{P_ {I}}} $$
(3)
$ ${你}\文本电话= \压裂{1}{N}{\总和\长成具}_ {i = 1} ^ {N} {{r_{我}}}$ $
(4)

我们定义\(\ mathcal {t} \)P.代表蛋白的蛋白质的真实和预测功能。\(\ mathcal {t} _ {i} \)P.的真实值和预测值th蛋白质功能。在哪里\({\mathcal{T}{P{i}}}\)是真阳性的数量,也就是说,出现的总次数\(\ mathcal {t} _ {i} = p_ {i} = 1 \)FP.是假阳性的数量,即,出现的总数\(\ mathcal【T} _ {I} = 0 \)P.=1.FN是不是假阴性的次数,就是总出现次数\(\ mathcal【T} _ {I} = 1 \)P.=0.N是蛋白质的总数。PR.ec年代on\(\ {文本重新}通话\)是所谓的精度和召回。然后,我们计算F马克斯所有可能的阈值:

$$ {f _ {\ max}} = \ unterset {\ theta \在[0,1]} {\ max} \ frac {{2p(\ theta)r(\ theta)}} {{p(\ theta)中+ r(\ theta)}} $$
(5)

在哪里\(P(\ THETA)= \压裂{1} {{M(\ THETA)}} {\总和\ nolimits} _ {i = 1} ^ {米(\ THETA)} {{P_ {I}}(\ THETA)} \)θ.)是其预测的至少一个功能标签的概率大于或等于阈值蛋白的数量θ.,表示的平均精度θ.)蛋白质的阈值θ.r(\ \(θ)= \压裂{1}{{m(\θ)}}{\总和\长成具}_ {i = 1} ^ {m(\θ)},{{r_{我}}(θ)\}\)是阈值下所有蛋白质的平均召回θ.

年代计算基于的类的信息内容真实和预测的注释之间的语义距离。信息内容一世Ct)由公式进行计算。(14.).年代计算利用下式:

$$ {s _ {\ min}} = \ unterset {\ theta \在[0,1]}} {\ min} \ sqrt {ru {{(\ theta)} ^ {2}} + mi {{(\ theta}} ^ {2}}} $$
(6)
$$ RU(\ THETA)= \在压裂{1} {N} {\总和\ nolimits} _ {i = 1} ^ {N} {{\总和\ nolimits} _ {吨\ {{{\ mathcal {P}}} _ {I}}(\ THETA) - {{\ mathcal【T}} _ {I}}} {IC(T)}} $$
(7)
$ $ mi(\θ)= \压裂{1}{N}{\总和\长成具}_ {i = 1} ^ {N}{{\总和\长成具}_ {t \ {{\ mathcal {t}} _{我}},{{\ mathcal {P}} _{我}}(\θ)}{IC (t)}} $ $
(8)

在哪里\({{{\ mathcal {P}} _ {I}}(\ THETA)} \)表示一组预测概率大于或等于的函数标签θ.\({{{\ mathcal【T}} _ {I}}} \)是一组真正的注释。

实验装置

我们的方法是在Pytorch平台上实现的https://pytorch.org/.我们的GO注释和氨基玉米和人类的氨基酸进行实验。我们首先排序GO基于注释的GO术语蛋白的数量降序排列条款。然后,我们选择了最常见的条款我们的实验。特别是,我们选择在BP,CC和MF用于对玉米实验117,251和112的GO术语;在BP,MF和1190,661和540的GO术语和CC上的人体实验。在那之后,我们用每个GO项的信息内容和条款注释的频率,以这些选定的GO术语转换成术语矩阵和邻接矩阵。同时,我们首先每个氨基酸转换成一个热编码和使用一个热矢量的组合来表示蛋白质序列。在那之后,我们训练CNN和GCN与graphisc处理单元(GPU)。最后,我们融合这两个网络来预测关联的概率,并通过培训蛋白质序列的注释信息培训这些网络。 In the following experiment, we randomly partition the proteins into a training set (80%) and a validation set (20%). All the experiments are performed on a server with following configurations:CentOS 7.3, 256GB RAM, Intel Exon E5-2678 v3 and NVIDIA Corporation GK110BGL [Tesla K40s].

蛋白质功能预测结果

为了进行实验验证,我们比较了DeepGOA和Naive [4.10.], 爆破 [35], 深红色 [27.],Deepgo [31]和深层[32].Naive为基于注释频率的所有蛋白质分配相同的GO术语。爆炸的想法是从培训数据中找到类似的陈后生,并从最相似的情况下传输GO条款。所有输入参数都与作者报告的输入参数相同或在推荐范围内优化。由于DeepGoplus在我们的实验环境中运行了太多参数,因此减少了512至128的卷积内核数量。表1揭示DeepGOA的预测结果和那些在10轮独立分区的比较方法。

表1预测玉米和人类基因组的GO注解的实验结果

在这五个评价指标中,DeepGOA始终比这些方法取得更好的性能。DeepGOA相对于其他比较方法在AUPRC和PR50方面的改进更为突出,说明DeepGOA可以通过引入GO结构实现对GO项不平衡的有效处理。此外,DeepGOA在玉米蛋白数据集上的性能优于人类蛋白数据集,因为玉米蛋白的注释比人类蛋白的注释更稀疏。通过引入GO结构,与其他方法相比,DeepGOA可以在相对稀疏的数据上取得更好的性能。GO术语的语义表示有助于提高这种有效性。DeepGO在最终输出层使用了父项和子项之间的结构,但仍然落后于DeepGOA,这表明我们选择的GO层次表示学习的GCN更加有效。DeepGOPlus不使用任何GO结构信息,但它的性能比DeepGO更好。这说明DeepGO最后一层的结构正规化并没有充分利用GO层次。DeepGOA和DeepGOPlus之间的性能差距再次表明了我们的连贯学习对GO术语的语义表示和氨基酸的特征表示的有效性。Deepred没有使用卷积结构来学习序列的局部特征,而是使用完全连接层来学习蛋白质序列。 Due to the sparseness of protein annotations, there are many false-negative predictions in this method, resulting in a higher AUC, but it does not perform well in AUPRC. The AUC value of Naive is always lower than 0.5, since it predicts the GO annotation of a protein based on the frequency of GO terms, and tends to assign the most frequent GO terms to a protein. Mostly, BLAST is inferior to other comparing methods (except Naive). This fact proves the effectiveness of learning the representation of amino acids by CNN for protein function prediction.

我们从我们的玉米蛋白数据集中选择一种蛋白质(名称:ZM00008A011322-P01),以说明DeepGoa在CC子本体论中的有效性。桌子2列出DeepgoA和其他深度学习竞争方法预测的Go注释。真正的注释已被真正的路径规则补充。DeepoGo注释对蛋白质的术语,并且由于最大合并层而自动将该术语的所有祖先的术语同时注释给蛋白质。但是Deepgo的最大合并层将增加模型的假阳性率。与DeepoG相比,DeepGoplus使用更合理的卷积结构,可以挖掘深处。但是,这种方法无法在强相关的GO条款上达到预期的性能,因为它忽略了GO结构信息。Deepry尝试基于完全连接的网络学习序列的整体特征,这导致了无法预测许多注释的情况。这些结果再次证实DeepGoa比其他比较方法更好。

表2中的玉米蛋白与不同方法的预测(Zm00008a011322-P01)

组件和超参数分析

为了调查Deepgoa的哪个部件有助于DeepGoa的改善性能,我们介绍了三种变种:Deepgoa-Go只使用Go层次结构;DeepGoa-Label只使用没有转层等的共同注释模式;DeepGoa-CNN直接使用氨基酸和圆点产品的表示来使功能预测,而不使用GO术语的语义表示。桌子3.列出了DeepGOA及其在人类基因组上的三种变体的结果。实验配置与前一节相同。

表3 DeepGOA及其变体的预测结果

由于提供了更有效的信息,DeepGOA通常比它的三个变体具有更好的性能。在相同的实验设置下,DeepGOA-GO和DeepGOA-Label的性能优于DeepGOA-CNN。这证明了学习GO术语的语义表示以及优化氨基酸特征表示到语义表示的映射是重要的和有益的。DeepGOA-GO取得了比DeepGOA-Label更好的结果年代,因为它使用的是GO层次结构,而DeepGOA-Label主要使用的是GO术语对相同蛋白质的共同注释模式年代是根据GO层次结构定义的。另一方面,DeepGOA-Label通过建模GO项的共标注,在AUPRC和AUC上取得了较好的结果。DeepGOA利用了GO层次结构和GO术语的协同注释模式,从而获得了比三种变体更好的结果。该烧蚀研究进一步证实了引入GCN的必要性,以探索和利用GO项之间潜在的层次关系,从而提高预测精度。

DeepGOA通过氨基酸序列的低维表示和GO术语的低维表示的点积给出了预测的关联概率。如果低维表示的维数过低,会导致有效信息的丢失。在另一方面,如果过高,就会产生许多参数,降低训练效率。数字2揭示了当低维向量维数从16增加到256时,DeepGOA预测结果的AUPRC和AUC将相应增加,直到稳定在玉米数据的CC子本体中。在我们的实验中,为了使实验适应更多的GO项,避免计算资源的浪费,我们选择128作为低维向量维数。

图2
figure2

下低维向量维度的不同的值的AUC和AUPRC

结论和未来的工作

蛋白质功能预测是后基因组时代的基本挑战之一。GO结构中所包含的函数之间的紧密形式化定义关系可以提高预测性能。为此,我们开发了基于GCN和CNN的DeepGOA。DeepGOA利用GCN通过GO层次结构和GO术语相关标注学习GO术语的语义表示,利用CNN结合氨基酸序列的长程和短程特征学习氨基酸的表示。然后DeepGOA共同寻找从氨基酸特征表示到GO术语语义表示的映射,以端到端连贯的方式完成蛋白质功能预测。在存档的玉米和人类GO注释数据集上的实验结果表明,DeepGOA优于现有的基于深度学习的蛋白质功能预测模型。我们的消融研究进一步证实,学习GO术语的语义表示有利于功能预测。我们将扩展我们的工作,以预测不同的蛋白质异构体和非编码rna的功能作用。

方法

在蛋白质功能预测中,有效挖掘GO层次结构和已知注释是重要的[12.13.22.23.]. GO的语义和结构信息在很大程度上可以帮助计算模型确定蛋白质的功能。近年来,深度学习在蛋白质功能预测领域得到了广泛的应用[25.26.31].然而,如何在深度模型中正确地使用GO的知识一直是一个巨大的挑战。大多数深度模型只是尝试直接学习蛋白质序列到GO项的映射,在优化映射时不考虑GO层次。与这些方法不同的是,DeepGOA首先通过GCN学习基因本体的语义表示,同时通过CNN优化蛋白质序列的表示。之后,DeepGOA计算上述两个子网的点积,以端到端方式学习从特征表示到语义表示的映射。同时,利用收集到的蛋白质注释和反向传播来细化映射系数,获得相干表示。数字3.说明模型的基本架构。

图3.
图3

DeepGOA的网络架构。上部黄色子网是卷积网络部分。氨基酸是由不同尺寸的卷积核萃取,将完全连接层是用来学习从序列特征到GO术语语义表示的映射。较低的蓝色子网是图卷积部分,它采用了GO层次\({h ^ {0}} \ in {\ mathbb {r} ^ {{\ left | {\ mathcal {t}} \ \ time {\ left | {\ mathcal {t}} \}}}存储在的GO项之间的经验相关性\(A \在{\ mathbb {R} ^ {\左| \ mathcal【T} \右| \倍{\左| {\ mathcal【T}} \右|}}} \)学习每个GO项的语义表示。最后用点积来指导蛋白质和GO项之间的映射,并反向调整蛋白质和GO项的表示。以这种方式,氧化石墨烯术语和蛋白质之间的关联也被预测

数据集

在我们的实验中,我们从GO官方网站下载了基因本体数据(2019年6月)脚注1.GO数据有三个分支,44,786项,其中CC 4169项,BP 29,462项,MF 11,155项。我们使用玉米PH207自交系[38]序列数据集来评估我们的方法。为了证明我们模型的普遍性,我们也使用了人序列蛋白质数据集。从植物血红素组收集玉米PH207近交系的蛋白质序列和液相释录数据脚注2.玉米PH207自交系蛋白质数据包含注释的一个或多个的GO术语18533个蛋白质序列。我们收集了来自SwissProt登录人的GO注释的审查和手动注释的蛋白质序列,脚注3.它含有20431个蛋白质序列。

对于每个次生学,我们都培养了一种模型来学习Go结构的知识。特别是,我们通过它们的注释数排列术语,并选择具有CC,BP和MF的最小注释25,150和25的术语。所采用的截止值只有Deepgo使用的一半[31[因此,我们的数据集包括更深入的术语,描述了更精细的生物功能。然后,我们通过应用真正的路径规则传播注释。例如,如果用GO术语注释蛋白质,它将被所有祖先术语注释。我们将蛋白质的注释转换为二元标签向量。如果从我们所选术语列表中使用GO术语注释蛋白质序列,我们将为二进制向量中的术语位置分配1,并将其用作此GO术语的正示例。否则,我们将分配0并将其用作否定样本。在我们的模型培训过程中,我们排除未被选定的任何选定术语注释的蛋白质。在本文中,n代表在训练集中蛋白的数量,\(\ mathcal {t} \)表示所研究的GO项的集合,\(\左| {mathcal {T}} \右|\)计数选择GO项数。

通过CNN提取氨基酸特征

计算机不能直接识别氨基酸序列。此外,不同的蛋白质具有不同的肽链结构和氨基酸数目。我们需要对每个氨基酸序列进行数字编码,同时保留它们的特征。Kulmanov等人[32]确认,利用深网络中的一次热编码可以实现良好的预测效果。因此,我们模型的输入是氨基酸的单热编码。每个氨基酸可以通过单热编码的长度的载体表示21.有20种氨基酸。一些氨基酸序列在某些位置具有未确定的氨基酸。我们专门使用额外的单热点来表示它们。我们将每种氨基酸转化为单热编码,并利用单热量载体的组合来表示蛋白质的一阶结构。为了确保模型输入载体的长度相等,我们将前2000个氨基酸用于长于2000氨基酸的蛋白质载体,并且零填充蛋白质载体小于2000氨基酸。我们最终得到了氨基酸序列,具有尺寸为2000×21的传染料。每个氨基酸序列可以通过基质提出:

$$ \ boldsymbol {x} _ {i} = [\ boldsymbol {x} _ {i1},\ boldsymbol {x} _ {i2},\ ldots,\ boldsymbol {x} _ {i2000}。$$
(9)

在哪里\(\ boldsymbol {x} _ {i} \ in \ mathbb {r} ^ {2000 \ times 21} \)代表-数据集中的第th个蛋白质,xij是的所述一个热编码j-的氨基酸个蛋白。

对于每个蛋白质序列特征向量,我们利用CNN来学习其低维表示。卷积神经网络(CNN)是一种具有卷积计算和深结构的前馈神经网络。它是深度学习的代表性算法之一,并且在处理固定尺寸数据时具有强大提取特征的能力。因此,我们使用卷积网络从氨基酸序列中提取特征,并挖掘序列中包含的深层信息。此外,氨基酸序列不仅具有初级结构,还具有二级结构(α.- 谢里克斯和β- 表格)和三级结构。这使得相邻的氨基酸不一定在一起参与某些生物学功能。为了挖掘蛋白质二次和三级结构对功能的影响,我们选择四种不同尺寸的卷积粒,分别为8,16,24,32,并设置不同的滑动步骤。卷积部分需要X作为输入,通过一系列大小不同的一维卷积核提取蛋白质序列特征。卷积核是\(\boldsymbol {w} \in \mathbb {R}^{21 \times h}\)h是滑动窗长。卷积操作定义如下:

$$ {\ boldsymbol {c} _ _ {im}} = f \ left(\ boldsymbol {w} * {x_ {im:m + h}} \ rectle),m \在[1,k - h] $$中
(10)

在哪里*是卷积运算,w是一个卷积核,f(·)是一个非线性操作,x是我们的模型输入向量,k是输入特征向量的长度。的新特征向量c被定义为:

$$ \ boldsymbol {C} _ {I} = \左[\ boldsymbol {C} _ {I1},\ boldsymbol {C} _ {I2},\ ldots,\ boldsymbol {C} _ {IP} \权利]$$
(11)

在哪里p=k-h+1。为此,我们得到每种蛋白质的特征表示。

由于我们的深网络具有大量参数并且损失功能用于优化培训数据,因此神经网络非常容易在训练数据上获得更高的精度,但较差的结果对测试数据。由于蛋白质序列和巨大的输出空间的长度,易于引起过度拟合。为了解决这个问题,我们在卷积模块的完全连接层中添加了两个丢弃层。辍学层的作用是停止具有一定概率的某个神经元的激活p在前向传播中,这使得模型更广泛地依赖于某些本地特征。蛋白质功能预测是一种多标签学习问题,并且易于落入饱和区域的激活功能,导致梯度消失。为了解决这个问题,在卷积层之后加入批量归一化层。批量归一化层旨在归一化卷积层生成的特征图,并引导遵守正态分布的参数。

图卷积网络

许多现有的蛋白质功能预测方法利用不同的技术来利用术语之间的GO结构(或相关性),并显示改进的per [21.22.31].然而,结合GO结构进深模型是一个非常具有挑战性的问题。对于图形结构的学习,传统的深度学习模型不能得到很好的表现,因为他们是专为网格或简单的序列,如图像和文字。图表卷积网络(GDN)[34]可以使用图形结构学习图形(或网络)的节点表示。GCN的核心思想是通过使用GO术语的邻域在GO术语之间传播信息来生成GO术语的表示。与固定大小输入操作的标准卷积不同,GCN采用特征描述\({\ boldsymbol {H} ^ {0}} \在{\ mathbb {R} ^ {{\左| {\ mathcal【T}} \右|} \倍{\左| {\ mathcal横置} \右|}}} \)与一个热的编码和相应的相关矩阵\(\ boldsymbol {A} \在{\ mathbb {R} ^ {{\左| {\ mathcal【T}} \右|} \倍{\左| {\ mathcal【T}} \右|}}} \)将GO术语作为输入,并更新表示形式\({\ boldsymbol {H} ^ {1}} \在{\ mathbb {R} ^ {{\左| {\ mathcal【T}} \右|} \倍{D_ {1}}}} \)\(\左| {mathcal {T}} \右|\)GO条款。GCN层的操作定义如下:

$ $ {\ boldsymbol {H} ^ {l + 1}} = f \离开({\帽子{\ boldsymbol{一}}}{\ boldsymbol {H} ^ {l}} {\ boldsymbol {W} ^ {l}} \右)$ $
(12)

在哪里\({\hat{\boldsymbol{A}}\in{\mathbb{R}{{\left}{\mathcal{T}}}\right}}\times{\left}{\mathcal{T}\right}}是相关矩阵的标准化版本一种,稍后将给出。f(·)是一个非线性操作,并且\ ({\ boldsymbol {W} ^ {l}} \在{\ mathbb {R} ^ {d_ {l} \ * d_ {l + 1}}} \)是要学习的变换矩阵。通过叠加GCN层,我们可以在GO DAG上了解GO术语的深层信息。

通常用标注到同一蛋白质的两个词的频率来估计GO词之间的相关性,在基于多标签学习的蛋白质功能预测中被广泛采用[15.-17.].然而,这种简单的估算不能很好地反映GO项之间的相关性底层因为蛋白质的可获得的注释是不平衡和不完整的。此外,GO术语之间的GO层次是独立于已知的物种。然而,它有准确的蛋白质的功能,这是在这个简单的估算过程中忽略了重要的指导意义。在基因本体,深术语描述更细化的生物学功能。因此,GO术语之间的不同的信息内容也以估计的GO术语之间的相关性的密钥信息。蛋白质鉴于此,我们结合GO层次和集解估计父母项之间的相关性t和它的子项年代如下

$ $ (t, s) = \压裂{{{n_{年代}}}}{{{n_ {t}}}} + \压裂{{IC (s)}}{{{\总和\长成具}_{年代的ch (t)} {IC \ \左(s \右)}}}$ $
(13)

在哪里cht)是所有直接儿童条款的汇总tn年代nt代表术语注释的蛋白质数量年代t, 分别。一世Ct)是信息内容t并且它被测量为:

$$ ic(t)= 1 - \ frac {{\ log(1 +左)| {desc(t)} \ light |)} {{\ log \ left |{\ mathcal {t}} \ light |}}} $$$
(14)

在哪里de年代ct)包括所有的后代t而且本身。Go术语之间的语义相似性被广泛测量利用此类信息内容进行测量[20.3940].显然,自从t有大量的GO衍生词,它们比t,愈大de年代ct),则信息内容越小t有。这种基于氧化石墨烯结构的测量方法独立于已知的蛋白质氧化石墨烯标注。因此,蛋白质GO注释的不完全性和稀疏性对其影响较小。通过这种方式,我们可以区分父母术语和孩子术语之间的边界。

DeepGOA分类器学习

到目前为止,我们可以获得代表性\(\ boldsymbol {H} \在{\ mathbb {R} ^ {{\左| {\ mathcal【T}} \右|} \倍D}} \)通过GCN和表示,对于GO条款\(\boldsymbol {Z}\in {\mathbb {R}^{n \times d}}\)n蛋白质序列(密集层后C无花果。3.) 在里面d-维语义空间编码H.最后,我们得到HZ作为预测关联的概率如下:

$ $ \帽子{\ boldsymbol {Y}} = \ boldsymbol {H} \ boldsymbol {Z} ^ {\ mathrm {T}} $ $
(15)

由于预测GO项与蛋白质之间的关联是一个二元问题,语义表示已经编码了GO项之间的潜在关系,因此我们的多标签损失函数可以用交叉熵定义为:

$ $ =损失总和\ \ limits_ {s = 1} ^ {| \ mathcal {T} |} {{y_{年代}}\ log \离开(σ\ \左({{\帽子y} _{年代}}\)\右)}+ \离开(1 - {y_{年代}}\)\ log \离开(左1 -σ\ \({{\帽子y} _{年代}}\)\右)$ $
(16)

在哪里\(\ mathbf {y} \ in {\ mathbb {r} ^ {\ left | {\ mathcal {t}} \ reval |}} \)存储蛋白质的真相注释,y年代{0,1}表示是否为GO项年代是否被注释到蛋白质上,σ.(·)为s型激活函数。

通过最小化上述损失,并将损失反向传播到学习子网络H并向学习的子网Z,我们可以实现的优化HZ和蛋白功能预测在以相干端至端的方式语义空间。

可用性数据和材料

DeepGoa的源代码和数据集可用http://mlda.swu.edu.cn/codes.php?name=DeepGOA

笔记

  1. 1。

    http://geneontology.org/page/download-ontology.

  2. 2。

    https://phytozome.jgi.doe.gov/pz/portal.html

  3. 3。

    http://www.uniprot.org/uniprot/

缩写

Deepgoa:

一个用于预测基因本体注释的深度学习框架

走:

基因本体论

CNN:

卷积神经网络

GCN:

图卷积网络

表演:

向无环图

参考

  1. 1

    钳夹PS,洁具d,Fulton的RS,斯坦因JC,卫楼帕斯捷尔纳克S,梁C,张健,Fulton的L,格雷夫斯TA,等人。在B73玉米基因组:复杂性,多样性和动态。科学。2009;326(5956):1112-5。

    CASPubMedpmed中央谷歌学者

  2. 2

    Wright SI, Bi IV, Schroeder SG, Yamasaki M, Doebley JF, McMullen MD, Gaut BS。人工选择对玉米基因组的影响。科学。2005;308(5726): 1310 - 4。

    CASPubMedpmed中央谷歌学者

  3. 3.

    马科特EM,佩莱格里尼男,吴H-L,水稻DW,Yeates TO,从基因组序列艾森伯格D.检测蛋白质功能和蛋白质 - 蛋白质相互作用。科学。1999;285(5428):751-3。

    CASPubMed谷歌学者

  4. 4.

    radiovojac P, Clark WT, Oron TR, Schnoes AM, Wittkop T, Sokolov A, Graim K, Funk C, Verspoor K, Ben-Hur A.计算蛋白功能预测的大规模评估。Nat方法。2013;10(3): 221。

    CASPubMedpmed中央谷歌学者

  5. 5.

    Shehu A,Barbarád,Molloy K.蛋白质功能预测计算方法调查:Wong KC,编辑器。基因组学中的大数据分析。Cham:Springer:2016. p.225-98。

    谷歌学者

  6. 6.

    焦毅,佩鲁索P,石杰,梁T,斯蒂策MC,王B,坎贝尔MS,Stein JC,魏X,Chin C-S,等。利用单分子技术改进玉米参考基因组。自然。2017; 546(7659):524–7.

    CASPubMedpmed中央谷歌学者

  7. 7.

    Schnoes Am,Ream Dc,Thorman Aw,Babbitt PC,Friedberg I.偏出蛋白质功能的实验注释及其对我们对蛋白质功能空间的理解的影响。PLOS计算BIOL。2013;9(5):1003063。

    谷歌学者

  8. 8.

    个人电脑杂志。基因本体论参考基因组计划:跨物种功能注释的统一框架。《公共科学图书馆·计算机生物学》2009;5(7): 1000431。

    谷歌学者

  9. 9.

    托马斯PD,木材V,Mungall CJ,刘易斯SE,布雷克JA。关于使用基因本体注解来评估直向同源物和旁系同源物中功能相似性:一个短报告。PLOS计算BIOL。2012;8(2):1002386。

    谷歌学者

  10. 10.

    姜Y,奥龙TR,克拉克WT,Bankapur AR,D'安德烈d,莱波雷R,芬克CS,Kahanda I,Verspoor KM,宾虚A,等人。的蛋白功能预测方法扩展的评估显示了在精度的提高。基因组Biol。2016;17(1):184。

    PubMedpmed中央谷歌学者

  11. 11.

    联盟GO。基因本体论2010年:扩展和改进。核酸RES。2009;38(S1):331-5。

    谷歌学者

  12. 12.

    Huntley RP,Sawford T,Martin Mj,O'Donovan C.了解基因本体和其注释的理解如何以及为何进化:在Uniprot中的进展。傻瓜。2014;3(1):4。

    PubMedpmed中央谷歌学者

  13. 13.

    Dessimoz C,Škuncan.该基因本体手册。纽约:斯普林克;2017年。

    谷歌学者

  14. 14.

    Valentin G.基因组基因功能预测的真实路径规则分层组合。IEEE / ACM反式计算BIOL BIOINFORMA。2011;8(3):832-47。

    谷歌学者

  15. 15.

    yu g,rangwala h,domeniconi c,张g,yu z.蛋白质功能预测不完全注释。IEEE / ACM反式计算BIOL BIOINFORMA。2014;11(3):579-91。

    CAS谷歌学者

  16. 16.

    张善福,戴德清。将功能相互关系纳入蛋白质功能预测算法的框架。IEEE/ACM跨计算机生物信息学。2012; 9(3):740–53.

    谷歌学者

  17. 17.

    yu g,rangwala h,domeniconi c,张g,yu z.蛋白质功能预测使用多标签集合分类。IEEE / ACM反式计算BIOL BIOINFORMA。2013;10(4):1045-57。

    CAS谷歌学者

  18. 18.

    Yu G,朱H,Domeniconi C.预测使用不完整的分层标签的蛋白质功能。欧宝娱乐合法吗BMC生物信息学。2015;16(1):1。

    PubMedpmed中央谷歌学者

  19. 19.

    Pandey的G,CL迈尔斯,库马尔V.收纳功能相互关系成蛋白功能预测算法。欧宝娱乐合法吗BMC生物信息学。2009;10(1):142。

    PubMedpmed中央谷歌学者

  20. 20.

    付光,王军,杨斌,于国栋:基于本体结构的负向标注选择。生物信息学。2016;32(19): 2996 - 3004。

    CASPubMed谷歌学者

  21. 21.

    于光,付国光,王军,赵玉果:基于混合图的双随机游动预测蛋白质的新围棋注释。IEEE/ACM跨计算机生物信息学。2018;15(4): 1390 - 402。

    CAS谷歌学者

  22. 22.

    郭赵Y,傅G,王J, M, Yu G基因功能预测基于本体层次结构保留哈希。基因组学,2019;111(3): 334 - 42。

    CASPubMed谷歌学者

  23. 23.

    于庚,赵烨,陆聪,王杰。Hashgo:用于蛋白质功能预测的哈希基因本体。计算机生物化学。2017; 71:264.

    CASPubMed谷歌学者

  24. 24.

    邓L,Yu D.深入学习:方法和应用。发现趋势SIG过程。2014;7(3):197-387。

    谷歌学者

  25. 25.

    王志强,王志强,王志强。基于神经网络的多标签分类。见:ACM应用计算研讨会论文集。纽约:ACM出版社:2017。790 - 5页。

    谷歌学者

  26. 26.

    里法约格鲁AS、多安T、马丁MJ、塞廷阿塔莱R、阿塔莱MV。蛋白质功能自动预测中的多任务深层神经网络。arXiv预印本arXiv:1705.04802。2017

  27. 27.

    Rifaioglu AS,多甘T,马丁MJ,切廷-阿塔莱R,阿塔莱V. Deepred:自动化蛋白功能预测与多任务前馈深神经网络。SCI代表2019。9(1):1-16。

    谷歌学者

  28. 28.

    沈军,张军,罗昕,朱伟,陈凯,李勇,姜华。基于序列信息的蛋白质相互作用预测。中国科学院学报2007;104(11): 4337 - 41。

    CASPubMed谷歌学者

  29. 29.

    周K-C。使用伪氨基酸组成的蛋白质的细胞的属性的预测。蛋白质结构功能该Bioinforma。2001;43(3):246-55。

    CAS谷歌学者

  30. 30.

    Sarac OS,Gürsoy-YüzügüllüO,切廷-阿塔莱R,基于子序列-阿塔莱V.特征的地图为蛋白质功能分类。计算Biol Chem。2008;32(2):122-30。

    CASPubMed谷歌学者

  31. 31

    Kulmanov男,汗MA,Hoehndorf R. Deepgo:使用深本体感知的分类器预测从序列和相互作用蛋白的功能。生物信息学。2017年;34(4):660-8。

    pmed中央谷歌学者

  32. 32

    Kulmanov M, Hoehndorf R. Deepgoplus:改进的蛋白质功能预测序列。生物信息学。2020;36(2): 422 - 9。

    CASPubMed谷歌学者

  33. 33

    王C,张L,张H-J。学习减少web图像检索和注释中的语义差距。摘自:第31届国际ACM SIGIR信息检索研究与开发会议论文集。纽约:ACM出版社:2008年。355–62.

    谷歌学者

  34. 34

    基于图卷积网络的半监督分类。arXiv预印本arXiv: 1609.02907。2016.

  35. 35

    Altschul SF,马登TL,谢弗AA,张健,张Z,米勒W,李普曼DJ。缺口BLAST和PSI-BLAST:新一代的蛋白质数据库搜索程序。核酸RES。1997年;25(17):3389-402。

    CASPubMedpmed中央谷歌学者

  36. 36

    周G,王建,张X,俞G. Deepgoa:通过图形卷积网络预测基因本体蛋白质的注解。在:生物信息学和生物医学2019 IEEE国际会议(BIBM)。圣地亚哥:IEEE:2019页。1836年至1841年。

    谷歌学者

  37. 37

    预测本体注释的信息论评价。生物信息学。2013;29日(13):53 - 61。

    谷歌学者

  38. 38

    Hirsch CN, Hirsch CD, Brohammer AB, Bowman MJ, Soifer I, Barad O, Shem-Tov D, Baruch K, Lu F, Hernandez AG, et al.;优秀自交系ph207的初步装配为玉米基因组和转录组多样性提供了深刻的见解。植物细胞。2016;28日(11):2700 - 14所示。

    CASPubMedpmed中央谷歌学者

  39. 39

    陶毅,山姆L,李杰,弗里德曼C,卢西耶。将信息论应用于稀疏基因本体标注网络,预测新的基因功能。生物信息学。2007; 23(13):529–38.

    谷歌学者

  40. 40

    Teng Z,Guo M,Liu X,Dai Q,王C,Xuan P.测量基因功能相似性基于GO术语的群体比较。生物信息学。2013;29(11):1424-32。

    CASPubMed谷歌学者

下载参考

确认

作者要感谢匿名审稿人的批判性阅读和有益的评论和建议,这使我们能够提高这篇手稿的质量。

关于这个补充

本文已作为BMC生物信息学的一部分发布21卷补充16,2020:来自生物本体和知识库研欧宝娱乐合法吗讨会的选定文章2019年。补充的全部内容可在线获得//www.christinemj.com/articles/supplements/volume-21-supplement-16

资金

出版成本由中国自然科学基金资助(61872300)。没有资助机构在研究中,在数据的收集,分析和解释中或在稿件中的撰写中扮演了研究的任何部分。

作者信息

隶属关系

作者

贡献

GY初始化了项目和方案,构思了整个流程,修改了稿件。GZ进行了实验,分析了结果并起草了手稿。JW, MG和XZ对方法进行了讨论,对结果进行了分析,并对手稿进行了修改。所有作者阅读并批准了最终手稿。

通讯作者

对应于Maozu郭或者俞国贤

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

作者声明他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过交叉标记验证货币和真实性

引用这篇文章

周,G.,王,J.,张,X.等等。预测使用图形的卷积网络玉米蛋白的功能。欧宝娱乐合法吗21,420(2020)。https://doi.org/10.1186/s12859-020-03745-6

下载引用

关键词

  • 基因本体论
  • GO术语
  • 玉米
  • 蛋白质功能预测
  • 图卷积网络
  • 卷积神经网络