跳到主要内容

基于基因本体注释的图嵌入蛋白质-蛋白质相互作用预测

抽象的

背景

蛋白质 - 蛋白质相互作用(PPI)的预测是对的许多生物信息学功能和应用,例如预测蛋白质的功能,基因疾病协会和疾病药物协会了解的一项重要任务。然而,许多以前的PPI预测的研究没有考虑失踪,在PPI网络虚假相互作用所固有的。为了解决这两个问题,我们定义了两个相应的任务,即缺少PPI预测和虚假PPI的预测,并提出了使用从构建基因本体论注释(GOA)的图表学习向量表示,然后使用嵌入载体来实现图嵌入的方法两个任务。我们的方法利用了从GO术语和蛋白质,和的GO注释图形的局部和全局结构信息蜜饯性能之间GO术语和术语蛋白质注释中足月长期关系的信息。

结果

我们将我们的方法与基于信息内容(IC)的方法和基于Word Embeddings的方法进行比较,其中包含来自字符串数据库的三个PPI数据集的实验。实验结果表明,我们的方法比这些比较方法更有效。

结论

我们的实验结果证明了用图嵌入到学习从无向图GOA矢量表示为我们定义的缺失和杂散PPI任务的有效性。

背景

蛋白-蛋白相互作用(PPI)在理解蛋白质的功能特性及其作为生物标志物的潜力方面发挥着重要作用。预测蛋白质之间的相互作用是许多生物信息学应用的关键步骤,如识别药物靶标相互作用[12],施工PPI网络(PPIN)[3.45,以及功能模块的检测[67].旨在预测蛋白质之间的相互作用的任务通常被称为PPI预测[89].

PPI预测是生物信息学中的良好研究问题;例如,struct2net用于集成PPI预测的结构信息[10.11.] Psopia利用PPI预测的序列信息[12.],以及其他一些研究[913.14.15.16.17.18.].然而,这些方法隐含地假设蛋白质之间的已知相互作用是完美的,并且主要关注使用不完整的PPIN的预测任务,并包含缺失和杂散的PPI,影响其应用。一些现有的PPI预测方法被认为是PPIN的缺失和虚假(即错误)相互作用。

为了不完备性和寄生性地址的问题,我们在PPIN定义了两个具体任务:(一)失踪PPI预测及(ii)虚假PPI预测。失踪PPI的预测,我们把一个真实的PPI数据集的地面实况PPI数据集,随机取出的生产者价格指数,并试图预测为缺失PPI。缺少PPI预测的目标是看我们能否正确预测缺少PPI。对于虚假PPI的预测,我们一些生产者价格指数增加了地面实况PPI数据集,把他们当作假的生产者价格指数,并试图预测他们。杂散PPI预测的目的是看到的正确预测杂散质子泵抑制剂的程度。

大多数PPI预测方法利用基因本体学(GO)的信息,其提供一组结构化和受控的词汇(或术语)描述基因产物和分子特性[19.].蛋白质通常由一组GO术语注释[20.21.]. 例如,蛋白质“Q9NZJ4”由以下GO术语注释:“GO:0003674”、“GO:0005524”、“GO:0005575”、“GO:0006457”、“GO:0006464”和“GO:0031072”。基于GO术语蛋白质注释,许多研究采用了GO术语的信息含量(IC)[22.23.24.25.]计算两种蛋白质之间的相似性以预测PPI。这些方法成功地开发了蛋白质相关任务,包括PPI预测[26.27.28.29.30.31.32.33.].尽管他们的成功,基于IC的方法已经无法完全捕捉蛋白质和PPIN的结构特性的功能特性。

最近,几个研究人员提出了Word Embeddings(例如,Word2Vec [34.]和手套[35.]),学习GO术语和蛋白质的矢量表示,然后使用学习的矢量进行PPI预测[36.37.38.39.].这些方法主要使用word2vec模型[34.]从来自GO术语和蛋白质的描述性公理的语料库中学习每个单词的向量;Go术语的描述性公理是其文本描述,例如,GO术语“GO:0036388”的描述性公理是“预先复制复杂组装”。然后,根据GO条款和蛋白质的描述性公理中的单词,学习的字向量将学习的字向量组合成GO术语和蛋白质的载体。最后,蛋白质的载体用于预测蛋白质相互作用。我们早些时候提出了go2vec [39.将GO图转换为向量空间来表示基因,以预测它们的相似性。

扩展我们以前的工作[39.40,在本文中,我们提出推导图嵌入来将GO注释(GOA)图转换成它们的向量表示,以预测缺失和虚假的PPI。具体地说,采用GOA方法,首先结合GO项之间的项-项关系和GO项与蛋白质之间的项-项注释,然后构造一个无向无权图;这个构造的图称为GOA图。此后,node2vec模型[41.[图形嵌入模型之一,应用于GOA图形,以将节点(包括GO条款和蛋白质)转换为它们的矢量表示。通过拍摄嵌入而不是Go,我们采取了基因功能如何在单个蛋白质中相关的信息。最后,通过余弦距离和改进的Hausdorff距离了解的GO条款和蛋白质的载体[42.]措施用于预测缺失和虚假的PPI。

我们的方法可以捕获整个GOA图中连接节点的结构信息。一方面,与主要考虑两个节点最近的共同祖先的基于结构的IC方法相比,图嵌入考虑了来自两个节点之间的每个路径的信息。因此,图嵌入可以充分描述整个图中两个节点的关系。另一方面,与基于语料库的方法(包括传统的基于IC的方法和基于单词嵌入的方法)相比,图形嵌入可以利用存储在图形结构中的专家知识(例如术语-术语关系和术语蛋白质注释)。在我们的实验中,我们使用了node2vec模型[41.为图嵌入技术的代表。node2vec模型采用了在无向图上随机游走的策略来采样给定节点的邻域节点,同时保留了邻域属性和结构特征。

为了评估我们提出的解决缺失和虚假PPI问题的方法的质量,我们对字符串数据库中的三个PPI数据集(即人类、小鼠和酵母)进行了实验[43.],考虑三个氧化石墨烯类别,即生物过程(BP)、细胞成分(CC)和分子功能(MF),并从UniProt数据库中收集氧化石墨烯注释[44.]. 我们将我们的方法与代表性的基于IC的方法(包括Resnik)进行了比较[24.],林[23.)、张及康拉斯[22.], simGIC [25.],和simUI [45.],和最近的基于语料库的矢量表示方法Onto2Vec [36.].实验结果表明,我们的方法在缺失和虚假PPI预测方面都比现有方法有效。通过GOA图嵌入,结合GO项与GO项之间的项-项关系以及GO项与蛋白质之间的项-蛋白注释,可以在欧氏空间中准确地表示基因,反映基因的功能性质。

图。1
图1

PPI预测缺失和虚假的说明。一个地面真实PPI图来自真实PPI数据集,其中节点是蛋白质,边代表PPI。b一个导出的PPI图,去掉了两个PPI(用蓝色虚线表示)一个,并且用于缺少PPI预测,其中蓝色虚线缺少PPI。c具有两个PPI的派生PPI图(由红色粗体边缘表示)添加到一个并且用于虚拟PPI预测,其中红色的粗体边缘是虚假的PPI

结果

初步任务定义

在本文中,我们考虑了两种PPI预测任务,即缺失PPI预测和虚假PPI预测。数字1说明了缺失PPI和伪PPI的构造。图(a)由真实世界的PPI数据集给出,并被视为基本真理PPI图。图(b)通过删除一些PPI从图(a)中派生出来,这些删除的PPI被视为缺失PPI。图(c)也是从图(a)派生出来的,但不是删除PPI,而是将一些PPI添加到图(a)中,这些添加的PPI被视为伪PPI。

缺少PPI预测

鉴于一些PPI一个地面实况PPI图中移除(例如,图形(B)),缺失PPI预测的目标是预测这些去除的质子泵抑制剂是否丢失PPI。

杂散的PPI预测

鉴于添加一些PPI的地面真实的PPI图(例如,图(C)),伪PPI预测的目标是预测这些添加的PPI是假的PPI。

实验结果

我们对缺失PPI预测和虚假PPI预测任务进行了实验,并评估了与基于代表性IC的方法相比的性能,包括Resnik [24.],林[23.)、张及康拉斯[22.], simGIC [25.],和simUI [45.),以及最新的基于语料库的向量表示方法Onto2Vec [36.]的三个PPI数据集(HUMAN, MOUSE和YEAST)从STRING数据库[43.].

的AUC-ROC值丢失的PPI预测
表2 AUC-ROC值伪装PPI预测

桌子1报告我们所提出的方法和现有方法的总体性能,以缺少PPI预测任务。桌子2报告我们模型的整体性能和伪PPI预测的现有方法。对于每个PPI数据集,使用不同的GO类别,并且在斜体中突出显示最佳值。

缺少PPI预测

从表中可以看出1,余弦距离(COS),改性的Hausdorff距离(MHD),和支持向量机(SVM)相比在所有三个PPI数据集基于IC的方法和基于语料库的矢量表示方法来实现对失踪PPI预测的最佳效果。这表明,图嵌入可以捕获从GOA图表和有效的蛋白质的功能特性的结构信息,这对于许多应用,包括预测缺少的PPI是有用的。

特别是,我们提出的方法显著优于传统的基于IC的方法;可能的原因是基于IC的方法只考虑从图中的部分或局部结构的信息,而GOA2Vec(COS),GOA2Vec(MHD),和GOA2Vec(SVM)从本地和全局考虑到信息结构GOA图形中,结合GO术语和蛋白质之间的GO术语和术语蛋白注释之间足月长期关系的知识。GOA2Vec(COS),GOA2Vec(MHD),和GOA2Vec上的嵌入GOA(SVM)也优于基于语料库的矢量表示方法Onto2Vec。的可能是由于该原因,GO和GOA表示关于基因,蛋白质,和它们的功能更领域知识,比现有的文档组成表示的那些。

比较GOA2Vec(cos)、GOA2Vec(mhd)和GOA2Vec(svm)分类的性能。GOA2Vec(svm)的性能优于GOA2Vec(cos)和GOA2Vec(mhd)。可能的原因是,支持向量机可能已经把这个问题作为一个二元分类来处理,利用基于支持向量之间最大的差额的分类。我们的实验结果也证明了GO术语与蛋白质之间功能注释关系的有效性。

杂散的PPI预测

从表中可以看出2GOA2Vec(cos)、GOA2Vec(mhd)和GOA2Vec(svm)在几乎所有的数据集上都优于基于ic的方法和基于语料库的向量表示方法,除了使用MF本体的酵母PPI数据集。与缺失PPI预测的表现类似,这再次表明图嵌入可以从GOA图的结构中捕获有用的信息,用于虚假PPI预测,并且学习的蛋白质向量和GO项向量都对虚假PPI预测有效。此外,GOA2Vec(svm)在伪PPI预测方面的表现优于GOA2Vec(cos)和GOA2Vec(mhd)。这再次证明了在表示蛋白质时考虑GO术语和蛋白质(术语-蛋白质注释)之间的关系的重要性。

表3 AUC-ROC值之间我们的方法之间使用无向图和使用有向图丢失的PPI预测
表4使用无向图之间的不同方法与使用定向图形之间的AUC-ROC值伪装PPI预测

讨论

我们发现在这个任务中,使用无向图比使用有向图获得更好的性能。桌子3.4报告我们使用无向图提出的方法和使用有向图失踪和杂散PPI预测的那些之间的比较。我们可以看到,使用无向图的方法比使用有向图对应的方法执行好得多。可能的原因是,我们在本文中使用node2vec模型采用的随机游走的策略在无向图来样邻居节点对于给定的节点,这种策略效果更好的无向图不是有向图。

结论

在本文中,我们采用图嵌入到项目基因本体注释图形到载体中,以预测蛋白质 - 蛋白质相互作用。我们评估我们对传统的基于IC的方法和失踪的任务,最近基于语料库的字埋线法和杂散PPI的预测方法。实验结果证明我们的方法的有效性,了解从GOA图形矢量和GO注解PPI的预测信息的有用性。

图2
图2.

我们PPI预测方法涉及的步骤。首先,Go和Goa组合在一起,以构建一个无向和未加权的果阿图。然后将Node2Vec模型应用于GOA图,以将节点转换为其向量表示。最后,学习的向量用于丢失和虚假PPI预测的任务。t表示一个go术语和\({\ mathbf {v}} _ i =(v_ {ij})\)表示它k维向量,\(下午\)表示蛋白质{mathbf {w}}_m = (w_{mn})\)表示它k-表示蛋白质的维向量。\({\ mathbf {v}} _ m \)表示一组GO术语的载体,用于注释蛋白质

方法

数字2说明了我们的缺失和虚假PPI预测方法,包括三个组件:(1)GOA图构造,(2)将GOA图转换为向量表示,(3)丢失和虚假PPI的预测。

果阿图施工

GOA图(或GO注释图)是由GO和GOA构造的无向、无加权(或二进制)图。具体来说,我们将GO术语之间的术语-术语关系和GO术语与蛋白质之间的术语-蛋白质注释结合在一起,形成一个无向、无加权图,其中节点包括GO术语和蛋白质,边包括术语-术语关系和术语-蛋白质注释。

虽然GO是一个有向无环图(DAG),将有向边转换为无向边可能会导致一些信息的丢失,但我们发现,在无向图上使用的图嵌入比在有向图上使用的图嵌入具有更好的性能。这可能是因为我们使用的node2vec模型采用了一种随机游动策略来对邻域节点进行采样,这种策略在无向图上比在有向图上效果更好。因此,在本文中,我们通过简单地将有向边设置为无向边,将GOA图构造为无向图。

向矢量表示的果阿图表

有几个图形嵌入模型可用于将图形转换为诸如DeadWalk之类的向量空间[46.], 线 [47.]和node2vec [41.].在我们的实验中,我们发现Node2Vec模型在我们的数据集中工作得比其他模型更好,因此Node2VEC用于将GOA图转换为欧几里德空间。为了使我们的纸张自包含,在如下,我们简要介绍了Node2Vec模型。

node2vec模型

让 (NE)表示一个图表,其中N指示节点集和\(e \ subseteq(n \ times n)\)表示该组边缘。node2vec的主要目标是学习投影功能\(f: N \right tarrow {\mathbb {R}}^k\)并将这些节点转换成空间中的一组向量表示\({\ mathbb {R}} ^ķ\), 在哪里k表示空间的尺寸。f可以用大小的矩阵表示\(| N | \乘K \).对于节点\(n \在n \)\(N_B(N)\子集Ñ\)表示该组n的附近的节点,其经由采样方法生成的。

node2vec模型试图优化一组观测邻域的对数概率\ \ (N_b (n))对于节点n,调节其矢量表示;此优化问题由EQ定义。(1)。

$$ \ {开始对准} \最大_ {F} \总和_ {N \在N} \日志P(N_B(N)| F(N))\ {端对齐} $$
(1)

要解决此优化问题,Node2VEC在特征空间中假设条件独立性和对称性。

条件独立假定给定节点的矢量表示n,观察邻域节点的可能性\({n}'\)不依赖于任何其他观察到的邻居节点。这个假设用Eq. (2)。

$$ \ {开始对准} P(N_B(N)| F(N))= \ PROD _ {{N} '\在N_B(N)} P({N}' | F(N))\ {端对齐} $$
(2)

特征空间中的对称性假定源节点n它的邻域节点\({n}'\)共享特性空间中彼此的对称影响。这个假设用Eq. (3.)。

$$ \ begin {对齐} p({n}'| f(n))= \ frac {\ exp(f({n}')\ cdot f(n))} {\ sum _ {n''\在n} \ exp(f(n'')\ cdot f(n))} \结束{对齐} $$
(3)

在这两个假设下,Eq. (1)转化为Eq. (4):

$$\begin{aligned}\mathop{\max}\nolimits{f}\mathop{\sum}\nolimits{n\in n}\left(\mathop{\sum}\nolimits{n}\in n\UB(n)}f({n}')\cdot f(n)-\mathop{\sum}\nolimits{n'\in n'\in n\in(f(f(n'')$$
(4)

对于一个源节点n,Node2VEC模拟了长度的随机步行l.让\(C_I \)代表这一点在走路和个节点开始\ (c_0 = t \).节点\(C_I \)通过以下策略模拟:

$$ \ begined {对齐} p(c_i = x | c_ {i-1} = n)= {\ left \ {\ begin {array} {ll} \ frac {\ pi _ {nx}} {z}{} \ quad {\ text {if}} \ quad(n,x)\在e \\ 0&{} \ quad {\ text {否则}} \ nod {array} \ revally。} \结束{对齐} $$
(5)

在哪里\(π_ {nx} \ \)表示节点之间的转移概率nxZ表示常规常量。有关Node2Vec模型的更多详细信息,请参阅其原始纸张[41.].

缺少和虚假的PPI预测

在GOA图上应用node2vec模型进行转换后,我们得到GO术语和蛋白质的向量表示。具体来说,每一个氧化石墨烯术语和蛋白质用a表示k维向量。有两种方法可以使用这些学习到的载体来预测缺失和虚假的质子泵抑制剂。一种是直接使用这些学过的蛋白质载体;另一种方法是使用这些学习过的GO项向量。

利用蛋白质的教训矢量

\({\ mathbf {w}} _ s \)\({\ mathbf {w}} _ t \)代表蛋白质的学习载体\(p_s \)\(p_t \).两种蛋白质之间的相似性\ (sim (p_s p_t) \)可以通过余弦距离来计算\(cos({\mathbf {w}}_s, {\mathbf {w}}_t)\)其矢量表示的\({\ mathbf {w}} _ s \)\({\ mathbf {w}} _ t \),由EQ定义。(6)。

$$ \开始{对齐} SIM(P_S,P_T)= COS({\ mathbf {瓦特}} _ S,{\ mathbf {瓦特}} _ T)= \压裂{{{\ mathbf {瓦特}} _ S \ CDOT {\ mathbf {瓦特}} _吨}} {\ | {\ mathbf {瓦特}} _ S \ | \ | {\ mathbf {瓦特}} _吨\ |} \ {端对齐} $$
(6)

除了余弦距离,我们还对蛋白质训练分类和治疗的蛋白质 - 蛋白质相互作用预测作为一个二元分类问题的学习向量应用支持向量机(SVM)。这两个向量\({\ mathbf {w}} _ s \)\({\ mathbf {w}} _ t \)作为支持向量机分类器的输入,将输入分类为0或1类,表示存在或不存在交互。此方法表示为\(svm({mathbf {w}}_s, {mathbf {w}}_t)\)或简单的SVM。

使用学习过的GO项向量

由于一个蛋白质由一个或多个GO术语注释,蛋白质p可以被视为其注释的GO条款。让\ (N_s \)\ (N_t \)表示注释蛋白质的GO术语集\(p_s \)\(p_t \), 分别。计算蛋白质之间的相似性\(p_s \)\(p_t \),我们可以计算他们的GO条款之间的相似性,即,\ (N_s \)\ (N_t \).因为一组GO术语可以由一组相应的向量表示,所以两个蛋白质之间的相似度可以通过这两组向量的距离来计算。让\({\ mathbf {V}} _ S \)代表对应的一组对应的矢量\ (N_s \),让\({\ mathbf {V}} _ S \)表示对应的向量的集合\ (N_t \).两种蛋白质之间的相似性\ (sim (p_s p_t) \)可以从相似两组矢量之间来导出\(SIM(N_S,N_T)\),由它们对应的向量集之间的距离给出\(dist({\mathbf {V}}_s, {\mathbf {V}}_t)\)

$$ \ begined {signed} sim(p_s,p_t)= sim(n_s,n_t)= dist({\ mathbf {v}} _ s,{\ mathbf {v}} _ t)\ neg {对齐} $$
(7)

存在几种方法来计算两个矢量集[之间的距离或相似性28.48.].在我们的实验中,我们发现修正后的Hausdorff距离[42.]表现优于简单的线性组合的载体。因此,在本文中,我们使用了修改的Hausdorff距离来计算两组载体之间的距离,用于两种蛋白质之间的相似性。

对于在欧氏空间中两个数据点,假设经销表示该空间中两个数据点的距离。一个小经销表示两个数据点是关闭的。在GO术语之后转换为向量,\(dist({\mathbf {v}}_i, {\mathbf {v}}_j)\)score表示对应GO项之间的空间关系\(你\)\(n_j \).在我们的实验中,\(dist({\mathbf {v}}_i, {\mathbf {v}}_j)\)是由cos距离定义的。我们使用了改进的Hausdorff距离的一个变体[42.]计算两组向量之间的距离,以获得两个GO项之间的相似性。具体而言,修改后的Hausdorff距离由以下等式定义:(8)它是表示的\(MHD({\ MATHBF {v}} _ s,{\ mathbf {v}} _ t)\)在我们的研究中。

$$ \ begin {senugented} \ min \ left \ {\ frac {v}} | {\ mathbf {v}} _ s |} \ sum \ nolimits _ {{\ mathbf {v}} _ s \在{\ mathbf {v}} _ s} \ max \ nolimits _ {{\ mathbf {v}} _ t \在{\ mathbf {v}} cos({\ mathbf {v}} _ s,{\ mathbf {v}} _ t),\frac{1}{|{\mathbf {V}}_t|}\sum \nolimits _{{\mathbf {v}}_t\in {\mathbf {V}}_t}\max \nolimits _{{\mathbf {v}}_s\in {\mathbf {V}}_s}cos({\mathbf {v}}_s, {\mathbf {v}}_t) \right\} \end{aligned}$$
(8)

在哪里\ (| {\ mathbf {V}} _ | \)表示矢量的数量\({\ mathbf {V}} _ S \)

数据集

在本文中,我们使用三种类型的数据集:基因本体,基因本体论注释和蛋白质相互作用网络。

基因本体论:基因本体论[19.]包含三类是独立于彼此的本体:BP,CC,和MF。该BP本体包含描绘的各种生物过程的事件的GO术语。消委会本体包含描绘细胞成分的分子事件的GO术语。的MF本体包含描绘的化学反应,如催化活性和受体结合的那些GO术语。这些GO术语已被用于解释生物医学实验(例如,遗传相互作用和生物途径)和注释生物医学实体(例如,基因和蛋白质)。桌子5总结了三类本体的统计数据。

表5三类本体的统计信息

基因本体论注释:GO注释是关于特定基因或蛋白质功能的陈述,并捕捉基因或蛋白质在分子水平上的功能,以及它与什么生物过程相关。通常,一个蛋白质由一个或多个GO术语注释。例如,蛋白质“Q9NZJ4”被GO术语标注为“GO:0003674”、“GO:0005524”、“GO:0005575”、“GO:0006457”、“GO:0006464”和“GO:0031072”。我们将蛋白质映射到UniProt上脚注1数据库[44.]获取GO注释,我们使用从电子注释(No-IEA)中断的版本。

蛋白质 - 蛋白互动网络:来自串数据库[43.],我们下载了三种PPI数据集(V11.0版):人(HOMO SAPIENS),小鼠(MUS Musculus)和酵母(酿酒酵母酿酒酵母)。人数据集含有9677个蛋白质和11,759,455个相互作用,小鼠数据集含有20,269个蛋白质和8,780,518个相互作用,并且酵母数据集含有3287个蛋白质和1,845,966个相互作用。我们将蛋白质映射到UniProt数据库,并过滤掉在Uniprot数据库中无法找到的蛋白质;我们还丢弃了那些涉及过滤蛋白质的相互作用。过滤后,人数据集保持6966个蛋白质和1,784,108个相互作用,小鼠数据集保持16,105个蛋白质和7,515,864个相互作用,并且酵母数据集保持2851个蛋白质和456,936个相互作用。三个数据集中的剩余蛋白质和相互作用被视为其基础PPI图。

表6地面真实PPI数据集的统计数据集以及删除PPI(“RE-PPI”)并添加了PPI(“AD-PPI”)

我们随机抽样500,000个人相互作用500000个鼠标交互,并从地面实况PPI图表100000个酵母作用,并已删除的地面实况PPI图表这些采样的相互作用和它们视为丢失的PPI。这样得来的数据集用于缺少PPI预测。

From the ground-truth PPI datasets, we randomly sampled the same number of pairs of proteins (i.e., 500,000 interactions for HUMAN proteins, 500,000 interactions for MOUSE proteins, and 100,000 interactions for YEAST proteins), between which there are no interactions, and added them to the ground-truth PPI datasets. These added interactions were treated as spurious PPIs, and this kind of derived datasets is used for the spurious PPI prediction.

桌子6总结蛋白质的统计和地面真实性PPI图的相互作用,以及除去的PPI的数量和添加的PPI。

实施细节

我们以eq中描述的两种方式实现了我们的方法的几个版本。(6)和(8)。使用具有余弦距离的蛋白质的学习向量的版本[EQ。(6)用“cos”表示。使用具有修正Hausdorff距离的GO项学习向量的版本[Eq。(8)]通过“MHD”表示。使用支持向量机训练分类版本由“SVM”表示,我们用中实现的版本scikit学习。

为了调查使用无向图形的效果,我们还实现了三种版本的GOA2VEC工作,用于定向图。它们的相应版本由“d_cos”,“d_mhd”和“d_svm”表示,其中“d”表示使用d配合图形。除了使用定向图形之外,“d_cos”与“cos”相同,“d_mhd”与“mhd”相同,“d_svm”与“d_svm”与“SVM”相同。

对于Node2Vec模型,我们使用了其代码脚注2我们与尝试不同的参数和主要数据集报最好的结果。该参数可以帮助我们获得最好的结果包括:150种尺寸,10%的节点走,每走80长度和每个节点,未加权和无向边20散步。

现有的方法

我们的方法与现有方法进行了比较,包括基于代表信息的基于内容的方法,即Resnik [24.],林[23.)、张及康拉斯[22.], simGIC [25.],和simUI [45.],以及基于语料库的向量表示方法Onto2Vec [36.].

雷斯尼克相似度主要是基于本体中给定节点的集成电路。节点的ICn由eq给出的负对数似然计算。(9)。

$$ \ {开始对准} IC(N)= - \,\日志P(N)\ {端对齐} $$
(9)

在哪里pn)表示节点的概率n在整个节点上。鉴于此IC信息,Resnik相似性通过

$ $ \{对齐}开始sim_{蕾斯尼克}(n_1、甲烷)= - \ \ log p (n_m) \{对齐}$ $
(10)

在哪里\ (n_m \)表示信息量最大的共同祖先\(n_1 \)\(n_2\)在本体。

林的相似性[23.]计算出来

$ $ \{对齐}开始sim_林{}(n_1、甲烷)= \压裂{2 * \ log p (n_m)} {\ log p (n_1) + \ log p(甲烷)}\{对齐}$ $
(11)

张和Conrath的相似度[22.]计算出来

$$ \ {开始对准} sim_ {Ĵ{\&}℃}(N_1,N_2)= 2 * \的log P(n_m) - \的log P(N_1) - \的log P(N_2)\ {端对齐} $$
(12)

SIMGIC相似性[25.]与simUI相似[45.计算蛋白质之间的相似性。让\(n_1 \)\(甲烷\)表示注释蛋白质组GO术语\(P_1 \)\(p_2 \), 分别。SIMGIC相似性由eq给出的Jaccard索引计算。(13.),而simUI相似度是通过通用索引,由等式给出计算。(14.)。

$$ \ begined {senugented} fun_ {gic}(p_1,p_2)&= \ frac {\ sum _ {n \在n_1 \ cap n}}} {\ sum _ {n \在n_1 \ cup n_2中} IC(n)} \结束{对齐} $$
(13)
$ $ \{对齐}开始fun_ {UI} (p_1、p_2) & = \压裂{\总和_{在N_1 \ n \帽甲烷}IC (n)}{\马克斯\{\总和_ {n \ N_1} IC (n), \ _ {n \甲烷}和IC (n) \}} \{对齐}$ $
(14)

有三种主要的方法,这些方法结合起来,雷斯尼克的,林和Jang和Conrath的相似之处:平均值(AVG),最大(MAX),以及最佳匹配平均值(BMA)。这三种组合方法由方程定义。(15.), (16.)和(17.),分别。

$ $ \{对齐}开始fun_ {AVG} (p_1、p_2) & = \压裂{1}{| N_1 | |甲烷|}\总和_ {N_1 \ N_1、甲烷、\甲烷}IC (\ {N_1,甲烷\})\{对齐}$ $
(15)
$$ \ begined {senugented} fun_ {max}(p_1,p_2)&= \ max \ {ic(\ {n_1,n_2 \})| n_1 \在n_1中,n_2 \在n_2 \} \ neg {对齐} $$
(16)
$$ \ begin {senugented} fun_ {bma}(p_1,p_2)&= \ frac {1} {2}(\ frac {1} {| n_1 |} \ sum \ nolimits _ {n_1 \在n_1} Ic(\ {n_1,n_2 \})+ \ frac {1} {| n_2 |} \ sum \ nolimits _ {n_2 \在n_2} Ic(\ {n_1,n_2 \}))\ neg {对齐} $$
(17)

Onto2Vec[36.]主要采用word2vec模型[34.]与跳过克方法一起从GO术语和蛋白质的描述公理衍生胼学习。对于单词序列W这是由\(w_1 \)(w_2,\ ldots,w_s \),跳过图算法最大限度地提高损失函数的平均对数似然,由Eq. (18.),

$$ \ begined {对齐} loss = \ frac {1} {s} \ sum _ {s = 1} ^ {s} \ sum _ { - | w | w | w | w | w | w | w | w | w | w | w | w | w | w | w | \ le i \ le | w |,i \ ne 0} \ log p p(w_ {t + i} | w_t)\结束{对齐} $$
(18)

在|W|代表培训文本的大小年代表示词汇表的大小。通过word2vec模型学习单词向量后,Onto2Vec根据蛋白质描述公理中出现的这些单词,线性组合这些学习到的蛋白质单词向量

$$ \ {开始对准} {\ mathbf {V}}(P)= \总和_ {w_i \以W} {\ mathbf {V}}(w_i)\ {端对齐} $$
(19)

在哪里\({\mathbf{v}}(p)\)表示蛋白质的载体p\ ({\ mathbf {v}} (w_i) \)代表单词的矢量\ (w_i \),W表示出现在蛋白质描述公理中的一组单词p

评价指标

根据ROC(接收器工作特性)曲线(AUC)下的面积度量,评估缺失和虚假PPI预测的性能。AUC-ROC已被广泛用于评估分类和预测任务。ROC根据真阳性率(RTP)和假阳性率(RFP)之间的关系计算。RTP由以下公式计算:\ (RTP = \压裂{TP} {TP + FN} \)和RFP被计算\(rfp = \ frac {fp} {fp + tn} \), 在哪里TP.表示真阳性数,而《外交政策》代表误报的数量;TN.代表真阴性的数量,而FN表示错误否定的数量。桌子78说明在缺失和虚假PPI预测任务中真阳性、假阳性、真阴性和假阴性情况的设置。

表7缺少PPI的真正阳性,假阳性,真正阴性和假阴性案例的设置
表8假质子泵抑制剂真阳性、假阳性、真阴性、假阴性病例设置

数据和材料的可用性

本文使用的数据集可以从他们的链接中找到。基因本体论(来访日期:2018年6月23日):http://geneontology.org/docs/download-ontology/.基因本体注释(来访日期:2018年6月23日):https://www.uniprot.org/.蛋白质互动数据集(访问日期:2018年10月30日):https://string-db.org/cgi/input.pl.

笔记

  1. 1。

    https://www.uniprot.org/

  2. 2。

    https://github.com/aditya-grover/node2vec

缩写

走:

基因本体论

GOA:

基因本体论注释

英国石油公司:

生物过程

CC:

细胞成分

MF:

分子功能

我知道了:

信息内容

PPI:

蛋白质 - 蛋白质相互作用

ppin:

蛋白质蛋白质相互作用网络

MHD:

修改后的豪斯多夫距离

SVM:

支持矢量机器

鹏:

接收器操作特征

AUC:

曲线下的区域

参考

  1. 1。

    王Y,Zeng J.使用受限制的Boltzmann Machines预测药物 - 目标相互作用。生物信息学。2013; 29(13):126-34。

    文章谷歌学术

  2. 2。

    卢y,郭y,korhonen A.使用相似指数的药物目标交互网络链接预测。BMC生物素。2017; 18(1):39。

    文章谷歌学术

  3. 3。

    王俊,彭旭,彭伟,吴福祥。动态蛋白质相互作用网络的构建与应用。蛋白质组学,2014;14(4 - 5):338 - 52。

    CAS文章谷歌学术

  4. 4.

    王J,Peng X,Li M,Pan Y.基于时间课程基因表达数据的动态蛋白质相互作用网络的构建与应用。蛋白质组学。2013; 13(2):301-12。

    CAS文章谷歌学术

  5. 5。

    De Las Rivas J,Fontanillo C.蛋白质 - 蛋白质互动必需品:建设和分析互联网网络的关键概念。PLOS计算BIOL。2010; 6(6):1000807。

    文章谷歌学术

  6. 6.

    蛋白质模块和信号网络。大自然。1995;373(6515):573。

    CAS文章谷歌学术

  7. 7.

    陈杰,袁B。检测酵母蛋白质-蛋白质相互作用网络中的功能模块。生物信息学。2006;22(18):2283–90.

    CAS文章谷歌学术

  8. 8。

    黄志强,黄志强,黄志强,等。基于基因组序列的蛋白质功能和相互作用检测方法。科学。1999;285(5428):751 - 3。

    CAS文章谷歌学术

  9. 9。

    Rao VS,Srinivas K,Sujini G,Kumar G.蛋白质 - 蛋白质相互作用检测:方法和分析。in j蛋白质组学。2014; 2014:147648。

    文章谷歌学术

  10. 10。

    辛格R,徐军,伯杰B. Struct2net:集成结构为蛋白质 - 蛋白质相互作用的预测。生物计算。2006年; 2006年:403-14。

    谷歌学术

  11. 11.

    Singh R,Park D,Xu J,Hosur R,Berger B. Struct2Net:使用基于结构的方法预测蛋白质 - 蛋白质相互作用的Web服务。Nucl酸res。2010; 38(SOMP-2):508-15。

    文章谷歌学术

  12. 12.

    基于序列信息的蛋白质相互作用预测。2017智能信息与生物医学国际会议(ICIIBMS);2017.纽约:IEEE。p . 255 - 61。

  13. 13。

    蛋白质-蛋白质相互作用的检测和分析方法。acta Microbiol ol Rev. 1995;59(1): 94-123。

    CAS谷歌学术

  14. 14。

    陈X-W,刘米。使用随机决策森林框架预测蛋白质 - 蛋白质相互作用。生物信息学。2005; 21(24):4394-400。

    CAS文章谷歌学术

  15. 15.

    基于接口线程的癌症相关蛋白相互作用预测方法。中华医学杂志。2011;405(5):1295-310。

    CAS文章谷歌学术

  16. 16

    李华,丁志华,牛勇,等。在硅预测物理蛋白质相互作用和鉴定相互作用组孤儿。Nat方法。2015;12(1):79。

    CAS文章谷歌学术

  17. 17

    Tastan O,Qi Y,Carbonell JG,Klein Seetharaman J。通过信息整合预测HIV-1和人类蛋白质之间的相互作用。生物计算。2009;2009:516–27.

    谷歌学术

  18. 18

    Sun T,周B,Lai L,PEI J.使用深学习算法的蛋白质 - 蛋白质相互作用的序列预测。BMC生物素。2017; 18(1):277。

    文章谷歌学术

  19. 19。

    联盟,GO。基因本体(GO)数据库和信息资源。Nucl酸res。2004; 32:258-61。

    文章谷歌学术

  20. 20.

    希尔德,史密斯B,McAndrews-Hill Ms,Blake Ja。基因本体论注释:它们的意思和它们来自哪里。BMC生物素。2008; 9:2。

    文章谷歌学术

  21. 21.

    Barrell D, Dimmer E, Huntley RP, Binns D, O 'donovan C, Apweiler R. 2009年GOA数据库,集成的基因本体注释资源。核酸学报2008;37(增刊1):396-403。

    谷歌学术

  22. 22。

    江俊杰,康拉斯·DW。基于语料库统计和词汇分类的语义相似度。第10届计算语言学国际会议论文集;1997.19-33页。

  23. 23。

    林D.一种相似性的信息定义。在:第15届机器学习国际会议的诉讼程序;1998. p。296-304。

  24. 24。

    Resnik P.使用信息内容评估分类法中的语义相似性。在:第14届国际人工智能联席会议的诉讼程序;1999. p。448-53。

  25. 25。

    Pesquita C, Faria D, Bastos H, Falcao AO, Couto FM。评估基于go的语义相似度度量。第十届生物本体论年会论文集;2007.37-38页。

  26. 26。

    Schlicker A,Domingue FS,Rahnenfuhrer J,Lengauer T.基于基因本体学基因产品功能相似性的新措施。BMC生物素。2006; 7:302。

    文章谷歌学术

  27. 27。

    徐婷,杜莉,周烨。基于go的功能相似性度量的评估S. Cerevisiae.蛋白相互作用和表达谱数据。BMC Bioinform。2008;9(472):1 - 10。

    谷歌学术

  28. 28

    Pesquita C,Faria D,Falcao Ao,Lord P,Couto FM。生物医学本体中的语义相似性。PLOS计算BIOL。2009; 5(7):1-12。

    文章谷歌学术

  29. 29

    Li M,Wu X,Pan Y,Wang J.HF-Measure:一种评估蛋白质 - 蛋白质相互作用网络中簇的新测量。蛋白质组学。2012; 13(2):291-300。

    CAS文章谷歌学术

  30. 30.

    滕志,郭敏,刘旭,戴强,王超,宣鹏。基于go项群体比较的基因功能相似性度量。生物信息学。2013;29(11):1424 - 32。

    CAS文章谷歌学术

  31. 31.

    Liu W, Liu J, Rajapakse JC。基因本体论的丰富提高了基因的功能相似性。Sci众议员2018;8:1-12。

    文章谷歌学术

  32. 32.

    Kaalia R,Rajapakse JC。人蛋白质组中拓扑模块的功能均匀性和特异性。BMC生物素。2019; 19(S13):615。

    文章谷歌学术

  33. 33.

    Kaalia R,Rajapakse JC。精炼模块以确定分子网络中的功能显着的簇。BMC基因组学。2019; 20:1-14。

    文章谷歌学术

  34. 34。

    陈凯,陈凯,陈凯等。词汇和短语的分布表征及其组合。神经信息处理系统研究进展;2013.3111 - 9页。

  35. 35。

    Pennington J,Socher R,Manning CD。手套:全球向量,用于Word表示。在:2014年的自然语言处理中的实证方法会议的会议记录;2014. p。1532-43。

  36. 36。

    Smaili FZ,Gao X,Hoehndorf R.到2VEC:基于联合矢量的生物实体表示及其本体论的注释。生物信息学。2018; 34(13):52-60。

    文章谷歌学术

  37. 37。

    基于相似度的生物医学本体预测。生物信息学。2019;35:2133-40。

    CAS文章谷歌学术

  38. 38。

    Duong D,Ahmad Wu,Eskin E,Chang K-W,Li JJ。单词和句子嵌入工具以通过其定义测量基因本体论术语的语义相似性。j计算biol。2018; 26(1):38-52。

    文章谷歌学术

  39. 39。

    钟X,Kaalia R,拉贾帕克萨JC。Go2vec:通过图嵌入转化GO术语和蛋白质向量表示。BMC基因组学。2019; 20:918。

    CAS文章谷歌学术

  40. 40。

    钟旭,Rajapakse JC。利用go注释图上的图嵌入预测缺失和虚假的蛋白质-蛋白质相互作用。见:2019年IEEE生物信息学与生物医学国际会议论文集,加州圣地亚哥,美国;2019.1828 - 35页。

  41. 41。

    GROVER A,LESKOVEC J. node2vec:网络可扩展特征学习。在:22nd ACM SIGKDD关于知识发现和数据挖掘的国际会议的诉讼程序;2016. p。855-64。

  42. 42。

    Dubuisson M-P, Jain AK。一种改进的目标匹配Hausdorff距离。见:第12届模式识别国际会议论文集;1994.566 - 8页。

  43. 43.

    绩效CV,Huynen M,Jaeggi D,Schmidt S,Bork P,Snel B.字符串:蛋白质之间的预测功能关联数据库。Nucl酸res。2003; 31(1):258-61。

    文章谷歌学术

  44. 44.

    Consortium U. Uniprot:蛋白质信息的集线器。Nucl酸res。2014; 43(D1):204-12。

    文章谷歌学术

  45. 45.

    绅士:手动对于r;2005年。

  46. 46。

    Perozzi B,Al-Rfou R,Skiena S. Depewalk:社会陈述在线学习。在:第20届ACM SIGKDD国际知识发现和数据挖掘的诉讼程序;2014. p。701-10。

  47. 47。

    唐军,曲敏,王敏,张敏,严军,梅青线:大规模信息网络嵌入。见:第24届国际互联网会议论文集;2015.p . 1067 - 77。

  48. 48。

    mazandu gk,mulder nj。信息基于内容的基因本体论功能相似度措施:用于给定生物数据类型的哪一个?Plos一个。2014; 9:12。

    文章谷歌学术

下载参考

致谢

作者感谢两位匿名评论者和编辑的暗示性评论。

关于这个补充剂

本文已作为BMC生物信息学的一部分发布21卷补充16,2020:来自生物本体和知识库研欧宝娱乐合法吗讨会的选定文章2019年。补充的全部内容可在线获得//www.christinemj.com/articles/supplements/volume21-supplement-16

资金

本文由新加坡教育部二级基金MOE2016-T2-1-029和一级基金MOE2019-T1-002-057资助。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有作用。

作者信息

从属关系

作者

贡献

XZ提出了这个想法,设计和实施了实验,写道并修改了手稿。JCR引导项目并修改了手稿。所有作者阅读并认可的终稿。

相应的作者

对应于萧忠

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者声明他们没有相互竞争的利益。

附加信息

出版说明

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

钟晓霞,王志强,王志强。基于图嵌入的蛋白质相互作用预测方法。欧宝娱乐合法吗21,560(2020)。https://doi.org/10.1186/s12859-020-03816-8

下载引用

关键字

  • 图形嵌入式
  • 矢量表示
  • 基因本体诠释
  • 蛋白质 - 蛋白质相互作用
  • 失踪的质子泵抑制剂
  • 杂散生产者价格指数