跳到主要内容

结合序列和网络信息增强蛋白质相互作用预测

摘要

背景

蛋白质-蛋白质相互作用(PPI)在生物体的细胞系统中非常重要,因为它们是细胞结构和功能的基础,许多重要的细胞过程与此相关。大多数蛋白质通过与其他蛋白质相互作用发挥其功能,因此准确预测PPI对于理解细胞生理学至关重要。

结果

最近,人们提出了图卷积网络(GCN)来捕获图的结构信息并生成图中节点的表示。本文利用GCNs学习蛋白质在PPIs网络图中的位置信息,在一定程度上反映了蛋白质的性质。结合氨基酸序列信息和位置信息,使蛋白质具有更强的表示性,提高了PPIs预测的准确性。

结论

在以往的研究方法中,大多只使用蛋白质氨基酸序列作为输入信息进行预测,没有考虑PPIs网络图的结构信息。首次结合氨基酸序列信息和位置信息对蛋白质进行表征。实验结果表明,与基于序列的方法相比,该方法具有较强的竞争力。

背景

PPIs在生物体的细胞系统中起着重要的作用,大多数蛋白质通过与其他蛋白质相互作用来实现其功能,所以PPIs的信息可以帮助我们更好地理解蛋白质的功能[1]. 许多基本的细胞过程涉及PPI,例如代谢周期、DNA转录和复制以及信号级联[2].PPIs功能失调会影响人们的健康并引起疾病,研究表明许多疾病是PPIs异常的结果,涉及内源性蛋白、病原体蛋白或两者兼而有之[3.].准确预测蛋白质相互作用对我们研究细胞系统的特性、提高对疾病的认识以及为开发新的治疗方法提供基础非常重要[4].

近年来,高通量生物技术和大规模的PPIs鉴定实验方法取得了巨大的发展,研究人员发现了大量来自不同生物的PPIs数据[2]. 及酵母目前主要提供PPIs数据。但PPIs数据的覆盖率仍然很低,而且PPIs数据集中存在大量的噪声数据,实验方法不可避免地产生假阳性结果[5]. 根据以往的研究,50%的酵母生产者价格指数图,只有10%的人类对PPIs网络进行了描述[4].此外,生物技术和大规模的实验往往是昂贵的,耗时耗力[67]. 基于计算的方法可以在一定程度上解决这一问题,为生物实验设计提供参考和指导,有助于实验室验证。

这些计算方法主要包括两个阶段,表示阶段和预测阶段。在表示阶段,该方法利用每个蛋白质的属性信息生成一个矢量表示。在预测阶段,他们使用传统的机器学习技术或深度学习,根据前一阶段生成的表示进行预测。蛋白质的许多特征属性可以用来生成表示,包括蛋白质结构信息、蛋白质结构域、基因邻域、系统发育概况、基因表达和文献挖掘知识[8].在生物信息学领域,STRINGDB是最常用的数据库,它收集了大量来自不同物种的PPIs数据,并提供在线查询和API供用户检索数据。对于PPIs标注,STRINGDB将来自不同证据通道的概率进行组合,包括融合证据、邻域证据、共出现证据、实验证据、文本挖掘证据、数据库证据和共表达证据,计算出一个组合得分[9].但是,上述表示方法的设计需要很强的领域知识,一些信息难以获取,这在一定程度上限制了方法的实用性[8].近年来,蛋白质氨基酸序列数据有了快速增长。与有限的蛋白质结构数量相比,不可否认的是,蛋白质序列的数量要大得多。仅根据氨基酸序列进行预测的计算方法引起了研究者的极大兴趣。前期工作的实验结果表明,仅利用蛋白质序列信息也可以达到较高的预测精度[257810111213].

这些基于序列的方法已经实现了某些结果,但基于蛋白质序列信息产生蛋白质的向矢量化表示的方法是复杂的。并且一些方法需要额外的统计信息,计算复杂性和时间复杂度高。此外,他们没有使用PPI网络图的结构信息。PPI数据可以以曲线图的形式表示,其中节点代表蛋白质和边缘代表蛋白质相互作用。因此,图表中蛋白质的位置信息,也可以说是蛋白质之间的关系,可以在一定程度上反映蛋白质的性质,这是蛋白质序列信息的重要补充。组合氨基酸序列信息和位置信息可以有助于进行更准确的预测。在本文中,我们首次使用GCN捕获PPI网络图中的蛋白质的位置信息,并将氨基酸序列信息和位置信息组合以对每种蛋白质的表示。在预测阶段,我们使用由完全连接的神经网络层组成的深神经网络(DNN)模块来提取高级特征信息并进行预测。通过设计这种架构,我们可以为蛋白质产生更强的矢量化表示,并做出更准确的预测。

我们的主要贡献可以概括如下:(1)利用GCNs捕捉蛋白质在PPIs网络图中的位置信息,在一定程度上反映了蛋白质的性质(2) 我们提出了一种结合氨基酸序列信息和位置信息的表示方法(3) 我们在几个基准数据集上测试了我们的方法,实验结果证明了我们方法的有效性。据我们所知,这是第一个结合氨基酸序列信息和位置信息来表示蛋白质的研究。

实验和结果

在本节中,我们做了两个实验来验证我们的模型。在第一个实验中,我们将我们的方法与两种最先进的基于序列的PPI预测方法(包括DPPI)进行比较[5] Deepfe-PPI [11]. DPPI以PASI-BLAST生成的概率序列轮廓作为输入,在预测阶段使用5个卷积模块、1个随机投影模块和1个预测模块来提取特征并进行预测。DeepFE PPI采用Word2vec从大型蛋白质数据库中学习特征表示,在预测阶段使用4个完全连接的层来提取高级特征。通过实验证明,该方法比现有的预测方法具有更高的预测精度。

在第二个实验中,我们做了一个消融实验,只使用氨基酸序列信息或位置信息进行预测。实验结果说明了我们的表示方法的有效性,即结合氨基酸序列信息和位置信息可以对蛋白质产生更强的表示。

数据集描述

我们在三个不同的基准数据集上测试我们的方法,包括人类数据集,酵母数据集和s酿酒酵母核心数据集。人类酵母数据集由Profpikernel描述[14,它只包含得分最高的肢体互动。为了得到公平的比较结果,我们采用与DPPI相同的策略,并去除冗余人类酵母数据集,使没有两个PPIs在序列级相似。如果至少有两个序列(其中每个序列的序列同一性大于40%),则认为两个PPIs相似。s酿酒酵母核心数据集由You等人描述[2]共有11188个相互作用,其中正相互作用5594个,负相互作用5594个。包含少于50个残基或序列同源性大于40%的蛋白质的蛋白质对从数据集中移除。从Uniprot数据库检索氨基酸序列(http://www.uniprot.org/)。

图。1
图1

并与DPPI和DeepFE-PPI进行了性能比较人类酵母数据集。auPR是10倍交叉验证的平均值

表1:我们的方法与DPPI和DeepFE PPI的性能比较s酿酒酵母核心数据集

评价标准

在分类问题中有三种常用的评价指标,分别是准确率、精密度和查全率。这些指标的定义如下:

$ {} \frac{T P+T N}{T P+T N+F P+F N} \end{aligned}$
(1)
$ {} {T P}{T P+F P} \end{aligned}$
(2)
$$\begin{aligned}Recall=&{}\frac{tp}{tp+fn}\end{aligned}$$
(3)

TP(真阳性)是标记和预测均为阳性的样本数;TN(真负数)是标记和预测均为负数的样本数;FP(假阳性)是标记为阴性但预测为阳性的样本数;FN(假阴性)是标记为阳性但预测为阴性的样本数。

当标签类不平衡时,主要使用精密召回曲线。Precision-Recall曲线显示精度和召回之间的权衡。曲线下的一个大面积代表了高召回和精度,分类器的最佳案例场景,显示了一个模型,返回它选择的大多数类的准确结果。Precision-Recall曲线给出了算法的性能的更多信息图片[15].

因此,在评估该方法的性能时人类酵母在负样本数大于正样本数的数据集中,采用与DPPI相同的策略,绘制精度-召回曲线,并比较不同方法曲线下的面积。为s酿酒酵母在核心数据集中,负样本数与正样本数相同的情况下,比较不同方法的准确率、精密度和召回率。

参数设置

在实现该方法时,通过网格搜索确定模型的超参数,并通过以下超参数得到最佳结果。将蛋白质氨基酸序列的最大长度设置为850,在捕获蛋白质位置信息时,我们使用单层GCNs从邻近节点聚合信息。全连接层神经元数量分别为256、128、64、32、8和2。dropout layer以0.5的概率随机扔下神经元。通过随机梯度下降(SGD)更新所有参数,并将SGD的学习率设置为0.01。

图2
图2.

烧蚀实验人类酵母数据集。我们比较了仅使用蛋白质氨基酸序列信息或位置信息进行预测的性能。auPR是10倍交叉验证的平均值

表2中的烧蚀实验上s酿酒酵母核心数据集

结果

首先,我们将我们的方法与两种最先进的基于序列的方法DPPI和DeepFE-PPI进行比较。我们对数据进行10倍交叉验证人类酵母数据集并计算平均auPR(精度下面积-召回曲线),结果如图所示。1.此外,采用与DPPI和DeepFE-PPI相同的策略,我们对DPPI和DeepFE-PPI进行5倍交叉验证s酿酒酵母核心数据集,并报告它们在精度、召回率和准确率方面的平均结果,结果如表所示1

接下来我们进行了消融实验来验证两种信息组合的有效性,我们只使用蛋白质氨基酸序列信息或位置信息进行预测。与第一个实验相同,我们对其进行10倍交叉验证人类酵母数据集并计算平均auPR,结果如图所示。2.在s酿酒酵母核心数据集,我们进行5倍交叉验证,计算精度、召回率和准确率,结果如表所示2

讨论

第一个实验的结果表明,我们的方法对先前的方法有所改善。从图中1我们可以看到,我们的方法得到的最好的结果人类酵母数据集。在人类数据集的auPR均值最大,为0.4542,DPPI为0.4127,DeepFE-PPI为0.4273。我们的方法比DPPI和DeepFE-PPI分别提高了10.06%和6.30%。在酵母数据集的auPR均值为0.4993,而DPPI的auPR均值为0.4677,DeepFE-PPI均值为0.4868。它比DPPI和DeepFE-PPI分别提高了6.76%和2.57%。此外,从表1我们可以看到,我们的方法,也能够实现最佳的性能与97.02%,平均准确率,93.55%的平均召回和95.33%的平均准确度上s酿酒酵母核心数据集。

第一个实验证明了我们方法的有效性。从上面的结果,我们可以得出的结论是,我们的方法可以更精确的预测。并且与以往的作品相比,我们的方法是在表示相位简单。我们用一个热编码蛋白质和GCNs的编码序列信息获取位置信息,然后我们将它们组合得到最终的表现矩阵。虽然DPPI需要生成用于使用PASI-BLAST和DeepFE-PPI需要首先训练Word2vec模型中的每个蛋白的概率序列简档,然后使用预训练模型来产生针对每个蛋白,这是复杂且耗时的表示矢量。

在第二个实验中,我们进行了一个烧蚀实验来比较不同的表示方法。我们仅使用氨基酸序列信息或位置信息进行预测,并将预测结果与结合这两种信息的方法进行比较。图形2结果表明,序列信息与位置信息相结合的预测效果最好人类数据集和酵母数据集。同样的结论也适用于这个问题s酿酒酵母核心数据集,可以从表中看到2

此外,我们还可以观察到,仅使用氨基酸序列信息获得的预测结果比仅使用位置信息获得的预测结果更准确,这表明氨基酸序列信息在表示蛋白质时更重要。结合这两类信息得到最佳的预测结果,验证了本文方法的正确性,即蛋白质在PPIs网络图中的位置信息在一定程度上可以反映蛋白质的性质,是蛋白质氨基酸序列信息的重要补充。

结论和今后的工作

在本文中,我们提出了一种结合序列信息和位置信息生成蛋白质表示的新方法。在获取PPIs网络图中蛋白质的位置信息时,我们使用GCN聚合相邻节点的特征信息。在预测阶段,我们设计了DNN模块来提取高层特征并进行预测。我们在三个不同的基准数据集上进行了大量实验,以验证我们方法的有效性,并对实验结果进行了深入分析。继续工作将改进DNN体系结构的设计,以获得更好的预测性能。

方法

PPIs预测本质上是一个分类问题,我们需要确定给定的两种蛋白质是否相互作用。我们以有监督的方式训练我们的模型,它将蛋白质对的表示作为输入,并输出表示相互作用概率的分数。为了清楚地说明我们的模型,我们首先介绍了GCNs的原理和应用。以下小节将进一步说明我们模型的总体框架、编码蛋白质氨基酸序列信息的方法、在PPIs网络图中捕获蛋白质位置信息的方法以及预测阶段DNN模块的设计。

图卷积网络

深度学习是近年来机器学习领域的一项重大进展,引起了研究人员的极大兴趣,并被广泛应用于计算机视觉、图像分析、语音识别、信息检索、自然语言处理等多种机器学习任务中,强化学习与多agent系统[1617181920212223].此外,在生物信息学领域,深度学习也被广泛使用。例如,深度学习算法已被成功地应用于预测之间的关联人类疾病与microRNA,一种非编码RNA[24]. 与传统的机器学习方法相比,深度学习适用于处理和分析复杂数据,提取和抽象高维特征,有助于处理生物信息学中高通量技术产生的数量和维度不断增加的数据。

图3.
图3.

我们方法的框架。它分为两个阶段:表示阶段和预测阶段。在表示阶段,利用GCNs获取位置信息,结合序列信息和位置信息得到最终的表示矩阵。在预测阶段,我们以表示矩阵为输入,利用DNN模块提取高级特征并进行预测

然而,在现实世界中,大量的数据从非欧几里德域生成并表示为与节点之间的复杂关系和相互依存的曲线图。如果我们能够充分利用图形结构的信息,这将是很大的帮助来解决问题。如在四个具有代表性的拓扑[建模的网络社会学习框架下的合作环境下的多主体协调问题25].

具有图形结构的数据的特性可以概括如下。图中的每个节点都可以将其视为具有自己唯一属性的对象。节点通过边缘连接,表示它们之间存在一定的关系。我们需要全面地考虑节点本身的属性信息和其相邻节点的属性信息,以准确地对图形结构数据中的节点进行准确地制作表示的表示。

在图结构数据中,以往的深度学习算法不能直接应用。为了解决这一问题,研究人员将卷积运算从传统数据推广到图结构数据,并提出了GCN,它通过聚集节点邻居的特征信息来生成节点的表示[26].GCNs层对连接节点的信息进行聚合,生成中心节点的隐藏表示,然后对隐藏表示进行非线性变换。通过叠加多个GCNs层,每个节点的最终隐藏表示将从更远的邻居接收消息。向量形式的邻居特征信息聚合规则可以用Eq来描述。4

$$\begin{aligned} h_{i}^{(l+1)}=\sigma \left( \sum _{j \in N_{i}} \frac{1}{c_{i j}} h_{j}^{(l)} W^{(l)}\right) \end{aligned}$$
(4)

哪里\ (h_{我}^ {(l + 1)} \)是节点的隐藏表示\((l + 1)th \)层,\(N{i}\)是节点的集合\(是\)邻居,\ (C_{我j} \)is an appropriately chosen normalization constant for the edge\ \离开(v_ {}, v_ {j} \) \)\ (W ^{(左)}\)是分层权重矩阵和\σ(\ cdot) (\ \)表示非线性激活函数。

GCNs以图形结构信息和节点特征信息为输入,根据不同的图形分析任务,GCNs的输出可以是不同的机制,包括节点级、边缘级和图形级[26].

GCNs广泛应用于图形结构数据的处理,与以往的方法相比,GCNs取得了优异的性能。例如,在引用网络中,部分节点标记,其他节点未标记,使用GCN可以学习每个节点的适当表示,这对于预测未标记节点的标签非常重要[27].类似地,也有工作提出一种改进的基于频谱的GCNs,它可以在半监督节点分类任务有向图数据直接工作[28]. 此外,GCN用于在多模态图中进行多关系链路预测[29]. 在蛋白质界面预测问题中也有应用GCN的工作,但与我们的不同,GCN将蛋白质表示为一个图形,其中每个氨基酸残基是一个节点,其特征表示残基的属性[30].在本文中,我们表示的PPI网络为曲线图,其中每个蛋白是一个节点。我们使用GCNs到图中的蛋白质的捕获位置的信息,这可能是一个重要的补充蛋白质的氨基酸序列信息。

拟议模型的设计

无花果。3.,我们演示了我们方法的流程图。集成流程图有两个阶段,表示阶段和预测阶段。在表示阶段,我们对蛋白质的氨基酸序列信息和PPIs网络图信息进行处理,生成每个蛋白质的表示。在预测阶段,我们以最终的表示矩阵作为输入,结合氨基酸序列信息和位置信息,使用DNN模块提取高级特征并进行预测。接下来,我们将详细介绍在表示和预测阶段使用的方法。

一热编码

一种热编码,也称为一位有效编码,主要使用位状态寄存器对每个状态进行编码。每个状态由它自己的独立寄存器位控制,并且在任何时候只有一个位是有效的。在实际的机器学习应用中,特征并不总是连续值,可能是一些分类值。对于这些特征,我们通常需要将特征数字化。例如,性别是一个分类属性,有两个可能的值,男性或女性。我们可以使用一个热编码将[1,0]用于男性,将[0,1]用于女性。一种热编码解决了分类器不善于处理属性数据的问题,并在一定程度上起到了扩展特征的作用。

编码氨基酸序列信息

蛋白质是氨基酸链,折叠成三维结构,赋予它们生物化学功能。生物体中有20种不同类型的氨基酸。在本文中,我们采用一次热编码方法对氨基酸进行编码,因此每个氨基酸可以用一个由0和1组成的20维向量表示。

详细的过程如下,我们使用1到20的自然数给每个独特的氨基酸一个身份,并将原始氨基酸序列转换为一个自然数向量。构造了形为的单位矩阵\ (20 * 20 \)在矩阵的每一行是一个唯一的氨基酸的特征向量。然后,我们可以在单位矩阵查找转换身份向量特征向量。在此之后,我们得到了氨基的矢量形式的蛋白质的氨基酸序列信息,并用于随后的处理的方便,我们设置为所获得的向量的固定长度。如果其长度小于所述固定长度,我们垫零到该序列的前部,并且如果其长度比固定长度长,我们截断在前面的序列。在以前的方法中,编码的蛋白质序列信息时,该蛋白质的表达载体通常是可训练的参数。我们的方法是更加简单和快捷,并且没有需要进行培训的参数。

捕获蛋白质的位置信息

在我们的方法中,我们作为未加权的和无向图,其中每个蛋白是一个节点,如图的质子泵抑制剂的网络建模。4.两个节点之间的边缘表明这两个蛋白质可以相互作用。PPIS网络图中蛋白质的位置信息反映了它可以与之相互作用的蛋白质,这基本上是蛋白质的特征的反映。以蛋白质'p1'为例,它与'p2','p3'和'p4'相互作用。因此,当捕获蛋白质'P1'的位置信息时,我们使用GCN来聚合有关其邻居节点'P2','P3'和'P4'的信息。

图4.
图4.

PPIs网络图。图中的节点表示蛋白质,两个节点之间的边表示蛋白质-蛋白质相互作用(例如,蛋白质“P1”与“P2”、“P3”和“P4”相互作用)

在我们的模型中,我们将图形结构信息和节点特征信息作为输入。图结构信息主要包括图的邻接矩阵和度矩阵,其中邻接矩阵描述图中节点之间的关系,度矩阵描述每个节点的连接节点数。这两个矩阵的维数由图中的节点数决定。基于训练集构造邻接矩阵和度矩阵,不使用测试集的数据,因此不存在标签泄漏问题。节点特征信息也是一个矩阵,其中每一行代表一个节点的特征信息,行数由节点数决定,列数是每个节点特征向量的维数。这里我们使用一个热编码来编码每个独特的蛋白质,因此每个蛋白质的特征向量的维数与蛋白质的数量相同。

GCN捕捉图中每个蛋白质位置信息的方式可以用等式表示。5

$$\begin{aligned}X{1}{N*f}=\sigma\left(\widetilde{D}{-1}\tilde{A}X{0}{N*N}W{0}\right)\end{aligned}$$
(5)

在我们的工作中,单层GCNs的性能最好。在这里,\ \(波浪号{一}= A + I_ {N} \)是具有附加自连接的PPIs网络图的邻接矩阵,\(I{N}\)是单位矩阵。\(\ widetilde {d} _ {I I} = \总和_ {Ĵ} \代字号{A} _ {I J} \)是度矩阵,\ (W_ {0} \)是第一层中的可训练权重矩阵,并且\σ(\ cdot) (\ \)表示激活函数,诸如\ \ (ReLU (\ cdot))\(间的{0}^ {N * N} \)是原始特征矩阵,N是图中蛋白质的数量,这里我们使用单热编码来编码每个独特的蛋白质,因此原始特征矩阵是具有形状的标识矩阵\(N*N\)\(X{1}^{N*f}\)为输出特征矩阵,f是GCNs操作后每个节点的特征长度。因此,在GCNs操作后,每个节点的隐藏表示由其原始特征信息和一阶邻居特征信息组成,其中包含蛋白质在PPIs网络图中的位置信息。

DNN模块的设计

为了将氨基酸序列信息和位置信息结合起来,我们将上述两个矩阵由氨基酸序列信息和位置信息连接起来,得到最终的表示矩阵,其中每一行是一个唯一蛋白质的特征向量。我们将最后的表示矩阵作为DNN模块的输入。有两个独立的DNN模块,每个模块处理输入对中的一个蛋白质。这两个DNN模块结构相同,由4个全连接神经网络层、4个归一化神经网络层和4个dropout神经网络层组成,用于提取隐藏在嵌入向量中的高级特征。

由于深学习近年来的一项重要成果,批标准化已被广泛证明是有效和重要的。在模型训练,批标准化使用上小批量的平均值和标准偏差,以连续地调节神经网络的中间输出,从而使每一层中的整个神经网络的中间输出值更稳定。使用批标准化可以使收敛速度更快,总训练时间短,效果得到了改善。

退出是深度学习中广泛使用的另一个重要技巧,它意味着在深度神经网络的训练过程中,神经网络单元以一定的概率暂时从网络中退出。对于机器学习模型,如果模型参数太多,训练样本太少,则训练后的模型容易过度拟合。辍学可以有效地缓解过拟合问题,提高模型的泛化能力。

在提取两种蛋白质的特征后,我们将两个DNN模块的最后一个隐藏载体连接起来。然后,通过由两个完全连接的神经网络层组成的联合模块对级联向量进行处理,并使用softmax层预测交互概率。

数据和材料的可用性

目前的研究中分析的数据集是在zenodo库中找到,https://doi.org/10.5281/zenodo.3960077

缩写

PPI:

蛋白质相互作用

政府通讯:

图卷积网络

款:

深度神经网络

SGD:

随机梯度下降

auPR:

精密召回曲线下的区域

工具书类

  1. 1.

    本·胡·A,诺布尔·W。预测蛋白质相互作用的核心方法。生物信息学供应。2005;21:38–46.

    文章谷歌学术

  2. 2.

    你Z-H,朱L,郑C-H,于H-Ĵ,邓S-P,使用一种新的多尺度连续和不连续的功能集从氨基酸序列的蛋白质 - 蛋白质相互作用的籍Z.预测。欧宝娱乐合法吗BMC生物信息学。2014; 15:9。

    文章谷歌学术

  3. 3.

    Ryan DP,Matthews JM。人类疾病的蛋白质 - 蛋白质相互作用。CurrOgin struct Biol。2005; 15(4):441-6。

    中科院文章谷歌学术

  4. 4.

    布朗F、郑H、王H、阿祖杰F。从实验方法到计算技术:蛋白质相互作用预测综述。高级人工智能。2010;2010:924529.

    文章谷歌学术

  5. 5.

    哈希米法尔S、内沙布尔B、汗AA、徐J。通过基于序列的深度学习预测蛋白质相互作用。生物信息学。2018;34(17):802–10.

    文章谷歌学术

  6. 6.

    Guo Y,Yu L,Wen Z,Li M.使用支持向量机结合自动协方差来预测蛋白质蛋白序列的相互作用。核酸RES。2008; 36(9):3025-30。

    中科院文章谷歌学术

  7. 7。

    杜X,孙S,胡C,姚Y,燕Y,张Y。Deepppi:利用深度神经网络促进蛋白质相互作用的预测。J化学Inf模型。2017;57(6):1499–510.

    中科院文章谷歌学术

  8. 8。

    尤志浩,陈朝中,胡平。使用一种新的多尺度局部特征表示方案和随机森林从初级蛋白质序列预测蛋白质-蛋白质相互作用。公共科学图书馆一号。2015;10(5):e0125811。

    文章谷歌学术

  9. 9。

    Szklarczyk D,Gable AL,Lyon D,Junge A,Wyder S,Huerta Cepas J,Simonovic M,Doncheva NT,Morris JH,Bork P,et AL.String v11:覆盖率增加的蛋白质-蛋白质关联网络,支持全基因组实验数据集中的功能发现。《核酸研究》2019;47(D1):607-13。

    文章谷歌学术

  10. 10.

    丁毅,唐杰,郭F。通过一种新的基于矩阵的氨基酸接触信息序列表示模型识别蛋白质-蛋白质相互作用。Int J Mol Sci。2016;17(10):1623.

    文章谷歌学术

  11. 11.

    基于深度学习和特征嵌入的蛋白质相互作用预测。PeerJ。2019; 7:7126。

    文章谷歌学术

  12. 12.

    基于深度神经网络的蛋白质相互作用预测。分子。2018;23(8):1923。

    文章谷歌学术

  13. 13

    黄永安,尤志辉,陈旭,陈凯,罗欣。基于序列的蛋白质相互作用预测。欧宝娱乐合法吗BMC生物信息学,2016,17(1):184。

    文章谷歌学术

  14. 14

    汉普T,罗斯特B。进化图谱改进了序列中蛋白质相互作用的预测。生物信息学。2015;31(12):1945–50.

    中科院文章谷歌学术

  15. 15

    戴维斯J,Goadrich M. Precision-Recall和Roc曲线之间的关系。在:第23届机械学习国际会议的诉讼程序;2006.233-240。

  16. 16

    克里热夫斯基A,萨茨基弗一世,辛顿·格。使用深度卷积神经网络进行图像网络分类。神经信息处理系统的进展;2012年,第页。1097–1105.

  17. 17。

    基于深度卷积神经网络的磁共振脑成像分析综述。Artif Intell Med. 2019; 95:64-81。

    文章谷歌学术

  18. 18。

    基于深度递归神经网络的语音识别。发表于:2013 IEEE声学、语音与信号处理国际会议。IEEE;2013.p . 6645 - 6649。

  19. 19。

    马力,陆梓,尚力,李浩。用于匹配图像和句子的多模态卷积神经网络。摘自:IEEE计算机视觉国际会议记录。2015; P2623–2631.

  20. 20

    张茂文,李志强,张茂文:深度双向变压器语言理解的预训练。arXiv预印本的arXiv:1810.04805(2018)

  21. 21

    基于多智能体深度强化学习框架的大规模家庭能源管理。欧宝直播官网app见:第28届人工智能国际联合会议论文集,IJCAI-19;2019. p。630–636

  22. 22.

    傅H,唐H,Hao J,Lei Z,Chen Y,风扇C.深层多智能钢筋学习与离散连续混合动力作用空间。见:第28届人工智能国际联合会议论文集,IJCAI-19;2019. p。2329-2335.

  23. 23.

    刘伟,王铮,刘旭,曾宁,刘勇,阿尔萨迪FE。深度神经网络结构及其应用综述。Neurocomputing。2017;234:11-26。

    文章谷歌学术

  24. 24.

    彭建军,惠伟,李强,陈波。基于神经网络的mirna与疾病关联预测。生物信息学,2019,35(21):4364 - 71。

    文章谷歌学术

  25. 25

    郝杰,黄丁,蔡毅,梁海福。网络协作多智能体系统中强化社会学习的动力学。工程应用人工智能。2017;58:111–22.

    文章谷歌学术

  26. 26

    吴梓,潘S,陈F,龙G,张C,于PS。图形神经网络综合综述。arXiv预印本arXiv: 1901.00596(2019)

  27. 27

    基于图卷积网络的半监督分类。第五届国际学习表示会议;2017.

  28. 28

    马毅,郝杰,杨毅,李华,金杰,陈庚。有向图的基于谱的图卷积网络。arXiv预印本arxiv:1907.08990(2019)

  29. 29。

    基于图卷积网络的多药副作用建模。生物信息学。2018;34(13):457 - 66。

    文章谷歌学术

  30. 30

    Fout A,Byrd J,Shariat B,Ben Hur A。利用图卷积网络预测蛋白质界面。神经信息处理系统的进展;2017年,第页。6530–6539

下载参考

致谢

我们感谢审稿人的宝贵意见,以提高这项工作的质量。

关于这个补充剂

本文已作为BMC Bioinformatics Volume 21 Supplemen欧宝娱乐合法吗t 16, 2020: Selected articles from the Biological ontology and Knowledge bases workshop 2019的一部分发表。该补充的全部内容可在网上找到//www.christinemj.com/articles/supplements/volume-21-supplement-16

资金

出版费用由中国国家自然科学基金(批准号U1836214)和天津自然基金19JCYBJC16300资助,基于汽车电子识别系统的数据平台技术的研究。资助机构在研究设计、数据收集、分析和解释或手稿撰写方面没有发挥任何作用。

作者信息

隶属关系

作者指出

  1. 刘磊磊、朱翔磊对这一工作做出了同样的贡献

    作者

    贡献

    LL和XZ贡献了算法设计和理论分析。YM, HP, YY, XH, YF, LW, JP对质量控制和文件审核做出了同等的贡献。所有作者阅读并批准了最终的手稿。

    通讯作者

    对应到李王

    道德宣言

    伦理批准和同意参与

    不适用。

    同意出版

    不适用。

    相互竞争的利益

    提交人声明他们没有竞争利益。

    附加信息

    出版商的注意事项

    欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

    权利和权限

    开放存取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

    再版和权限

    关于这篇文章

    通过Crossmark验证货币和真实性

    引用这篇文章

    刘磊,朱旭东,马勇。组合序列和网络信息以增强蛋白质 - 蛋白质相互作用预测。欧宝娱乐合法吗21,537(2020)。https://doi.org/10.1186/s12859-020-03896-6

    下载引用

    关键词

    • 蛋白质相互作用
    • 氨基酸序列
    • 图卷积网络