跳到主要内容

TLGP:基于异构源域的基因优先级灵活传输学习算法

摘要

背景

基因优先化(基因排名)旨在获得基因的中心性,这对于群体基因对应于药物或药物靶标,这对癌症诊断和治疗至关重要。通过探讨候选和已知的疾病导致基因之间的相似性,已经努力致力于基因排名问题。然而,当疾病导致基因的数量受到限制时,它们不仅仅是由于低精度而适用。实际上,癌症的疾病基因的数量,特别是对于这些稀有癌症,非常有限。因此,在有限的现有疾病引发基因中设计有效和高效的基因排名所需的批判性。

结果

在这项研究中,我们提出了一种在癌症(靶结构域)中的基因优先级(称为TLGP)的转移学习算法,而不会通过从其他癌症(源域)的知识来引起疾病引起的基因。潜在的假设是通过类似癌症共享的知识提高了基因优先级的准确性。具体地,TLGP首先通过计算基因的亲和矩阵来量化目标和源域之间的相似性。然后,TLGP通过熔化亲和基质,致病基因和源癌的基因组数据来自动学习靶癌的融合网络。最后,优先考虑目标癌症中的基因。实验结果表明,学习的融合网络比基因共同表达网络更可靠,这意味着从其他癌症转移知识提高了网络施工的准确性。此外,TLGP在准确性方面优于最先进的方法,提高至少5%。

结论

所提出的模型和方法通过将来自各种癌症的基因组数据集成来提供有效和有效的基因排名策略。

背景

基因是生物体的基本单位,其执行关键的生物过程以维持生命的运作。并且,DNA突变改变基因的序列,导致基因结构的变化和源自癌症的功能[1].因此,基因作为癌症诊断和靶药基因的生物标志物,这是癌症治疗的基础[23.].识别致病基因对于揭示癌症的潜在机制具有重要意义,因为它有助于生物研究人员处理大量的公共和私人组学数据,以最大限度地提高下游生物验证的产量。

致病基因检测对应于基因排序问题,其目的是排名基因根据其重要性,其中重要的基因更容易致病。巨大的努力,一直致力于基因排序,可分为两类,即生物实验 - 和基于计算的办法。第一类的方法验证的功能和基因的结构通过采用生物实验来选择致病基因。的生物的基于实验的方法的优点是准确的,而其缺点是时间和资金消耗。为了克服这些问题,基于计算的方法提供了基于实验的方法,该方法利用机器学习技术通过利用癌症的基因组数据来预测可能的致病基因的替代方案。为了计算的基于算法的基本假设是基因具有相似结构具有相似的生物学功能和模式[4.5.6.].

已经开发了许多算法用于基因排名[7.8.9.10.11.12.13.14.15.16.],它们之间的差异在于如何定义和测量致病和非致病基因之间的相似性。最直观和直截了当的策略是在特征方面计算致病和非致病基因之间的距离[8.].如果候选基因非常接近致病基因,则认为候选基因作为致病基因是合理的。相似性策略背后的关键因素是如何构建基因的特征。并且,算法采用各种类型的特征,例如,prospectr [17.探讨基于序列的特征。然而,特征相似方法因其准确性低而受到批评,因为它们只探索一对基因之间的关系。为了解决这一问题,采用了许多分类算法来预测致病基因,包括规则库决策树[18.支持向量机(SVM)[19.].这些算法显着优于特征相似性策略,因为它们利用了整个基因的特征。进一步提高算法的性能,莫鲁等人。[20.]表明,它承诺将整合复杂和异构数据找出最有趣的基因从生物候选人验证。

虽然基于分类的方法,可以实现对基因排序的出色表现,他们需要大量的阳性和阴性样品,以确保分类的可靠性。当训练集是不够的,这些算法批评精度低。此外,他们无法探究基因之间的间接关系。网络是表征和描述复杂的系统,已成功应用于社会分析的有力工具[21.22.23.24.]和生物学[25.26.27.28.29.30.31.32.].因此,巨大的努力,如CIPHER [4.],MDGC [7.], 网页排名 [9.],dnrc [12.],toppgene [13.], RWRH [14.],MRF [15.],和IBNPKATZ [16.],致力于基因优先排序,其直接目的是通过探索癌症网络的拓扑结构来提高预测的准确性。与这些基于分类的方法相比,基于网络的方法有两个优点。首先,基于网络的算法不需要大量的训练集来对基因进行排序。其次,这些算法可以利用网络的拓扑结构,如短路径和渗流,来探索基因之间的间接关系。基于网络的方法之间的差异取决于如何利用网络的拓扑结构。例如,IBNPKATZ[16.通过组合KATZ指数和网络投影来优先考虑基因。rwrh [14.]依赖于异质网络结构,采用随机游走来挖掘基因-表型关系。磁流变液[15.]利用基因和子网络探索基因与疾病的关系。王子[32.]采用网络的信息传播到秩基因,其精确地预测致病基因。

尽管基于网络和基于相似性的方法已经成功地应用于基因优先排序,但当致病基因数量有限时,它们的性能并不理想。更糟糕的是,当致病基因数量低于阈值时,这些算法并不适用。然而,许多复杂疾病,特别是罕见疾病的已知致病基因数量很少,因为目前对它们的了解有限。最近,迁移学习[33.34.35.36.[通过从源域学习具有有限标记对象的目标域的知识克服了这个问题,这显着提高了算法的性能。更具体地说,与传统的机器学习技术不同,转移学习旨在将来自以前任务的知识转移到目标任务时,当后者具有一些高质量的培训数据时。这也是这项研究的主要动机之一。

为了提高基因排序的准确性,我们提出了一种新的转移学习算法(称为TLGP),用于在目标癌症中很少或甚至没有致病基因(称为TLGP)的基因优先排序,在源域转移癌症的知识。靶癌仅危及基因表达谱,而肿瘤的基因表达谱和致病基因存在源域。图所示。1,TLGP由四个组件组成:亲和力矩阵结构,源域,融合网络构建和融合网络中的基因优先级降低。具体地,TLGP构建亲和力基质量化各种癌症之间基因的相似性。并且,为了获得癌症的知识,我们采用尺寸减少以学习源癌中基因的低维表示,其中致病和非致病基因很好地分离。然后,TLGP将来自源域的知识转移到目标癌症中,并学习目标癌症的基因相似性网络,这比基于目标癌症的基因表达谱更可靠。最后,我们使用典型的基因排名算法优先考虑靶癌中的基因。

总之,本研究的贡献可以如下综述。

  • 提出了一种新型转移学习算法,用于基因排名,其中来自其他癌症的知识可以转移到目标癌症以提高算法的准确性。TLGP算法还提供了对异构基因组数据的整合分析的替代方案。

  • 该算法扩展了基因优先级算法的应用,因为它适用于没有或有限的致病基因的癌症。它还用作基因优先级的灵活框架。

  • 实验结果表明,该算法显著提高了算法的精度。

图。1
图1

TLGP概述,由源域,融合网络构建和基因排名的亲和矩阵结构,尺寸减小。亲和矩阵量化源区和靶域之间基因的相似性。尺寸减少了解源癌的表达表示,其中癌症和非癌症基因很好地分开。融合网络基于源和目标数据的集成。基因排名通过探索融合矩阵进行

图2
图2.

在网络边缘的百分数与对参数的各种值的生物实验验证蛋白质相互作用重叠\α(\ \)从1.2到2.0的间隙0.02,其中红色表示融合网络的百分比和蓝色的共表达网络

结果和讨论

通过比较,充分验证了该算法的性能。

图3.
图3.

对致病基因排序,各种算法的性能,其中精度最高的百分比k与已知致病基因重叠的基因:一个\ \ (k = 100),b\(k = 200 \)

数据和设置

我们分别选择乳腺癌和肺癌作为目标和源域。乳腺癌和肺癌的病原和非致病基因衍生自宇宙。脚注1乳腺癌和肺癌的RNA-seq表达谱从TCGA下载,其中使用FPKM(每千碱基的转录本每百万片段的图谱)。蛋白质相互作用网络从BioGRID下载。脚注2乳腺癌的病原基因列表用作基准,以证明算法的准确性。

为了充分验证所提出的算法对基因优先级的性能,六种最先进的方法,如SSC [30.),密码(4.(王子),32.],MDGC [7.]及PageRank [9.],进行比较。之所以选择这些算法,是因为它们通过使用各种策略来利用网络的拓扑结构,在基因优先排序方面取得了优异的性能。例如,SSC[30.],定义了蛋白相互作用网络上的相似性,并使用全球网络上的随机游走来检测疾病相关基因,而CIPHER [4.]构建了一个回归模型,假设分子相互作用网络中两个更接近的基因往往导致相似的表型。SSC和CIPHER只探索网络的局部信息以优先考虑基因,而PRINCE [30.]及PageRank [9.]通过使用随机步行来探索网络的全球信息,以潜在的假设探讨导致类似疾病的基因倾向于在蛋白质相互作用网络中闭合的基因。MDGC [7.]是一种多视图聚类方法,它是对单视图判别K-均值的推广,然后利用已知疾病基因的程度和统计方法对基因进行排序。所有这些算法都运行在蛋白质相互作用网络上,以参数的默认值对基因进行排序。

为了测量算法的准确性,我们检查顶部的致病基因数量k基因。

图4.
图4.

融合和共表达网络上基因优先排序的各种算法的准确性:a1PRINCE在前100个基因中,a2在前200个基因中,B1PageRank的顶部100个基因,并B2.PageRank前200个基因,其中红色为融合矩阵,蓝色为基因共表达网络

融合网络更丰富的蛋白质相互作用

TLGP提取肺癌相关知识,并将其转移到乳腺癌中,构建基因融合网络。因此,我们自然会问,学习的融合网络和基于基因表达谱的基因共表达网络有什么区别,即哪种更好。

为了解决这个问题,选择生物实验验证的蛋白质相互作用作为衡量融合网络质量的金标准。我们检查融合和基因共表达网络中与蛋白质相互作用重叠的边的百分比。由于融合网络和共表达网络都是加权的,所以我们选择每个网络中权重大于预定义阈值的边。融合和共表达网络在不同阈值下的蛋白质相互作用的边缘重叠百分比如图所示。2.阈值定义为\(\阿尔法\倍\)网络中的边缘权重的平均值,其中红条表示由TLGP构建的融合网络的百分比,蓝色表示基因共表达网络的百分比。从图中2,很容易地断言,在融合网络的边缘更多地受到比在所有阈值的基因共表达网络的蛋白质相互作用富集。具体地,在融合网络边缘的2.8%重叠与蛋白质相互作用,而只有1.9%的基因共表达网络时\α(\ \)= 1.2。这些结果表明,融合网络比基因共表达网络更可靠,这意味着从其他癌症转移知识提高了网络构建的准确性。TLGP构建的融合网络比基因共表达网络更可靠,可能有两个原因。首先,通过基因表达和致病基因序列的综合分析,消除源癌中的噪声。二是将源癌中的知识转移到融合网络中,从而提高融合网络的质量。

图5.
图5.

通过各种算法获得的前100个基因中唯一排名的致病基因的数量

性能上排名致病基因

数字2演示所提出的算法可以去除基因组数据中的噪声并构建可靠的融合网络。然后,我们询问构建的融合网络是否可以提高基因优先化的准确性。为了综合证明所提出的算法的性能,我们使用两种类型的基因列表,例如致病和癌症因果基因,以评估算法的性能。

顶部的百分比k被重叠在已知的致病基因的基因示于图。3.,其中面板a是各种算法的精度k=100 and panel b withk= 200。从图中3.A,很容易得出结论,TLGP的准确性明显高于其他。密码不如TLGP,它比SSC,MDGC和王子更精确。SSC算法是最糟糕的。原因是它仅利用网络的本地拓扑,这未能表征网络中基因的中心。具体地,TLGP的精度为38.0%,比选择前100个基因的时间高7%。解释为什么TLGP显着优于其他原因。首先,TLGP整合了基因优先级的异质基因组数据,从而提供了表征癌症相关基因的中心性的更好策略。其次,TLGP将来自源癌的知识转移到目标癌症,这提高了融合网络的可靠性和准确性。TLGP与普林之间的比较进一步证明了转移学习策略可以显着提高基因优先级的准确性。数字3.B表示基因优先排序算法的准确性k=200,其中类似的趋势重复出现。

图6.
图6.

参数效果:一个功能的数量如何影响TLGP的性能,以及b如何参数\(\lambda\)用各种值效果TLGP的准确性

所提出的算法采用王子进行基因优先级。然后,我们询问TLGP的优异性能是否是王子算法的共同因素[32.].我们应用两个算法,如王子[32.]及PageRank [9.],在融合和基因共表达网络上。结果如图所示。4.,其中面板a1和a2包含PRINCE对这两类网络的准确性,面板b1和b2是PageRank的准确性。很容易得出结论,所有这些算法在融合网络上都比在基因共表达网络上取得了更好的性能。这些结果表明了该算法在基因优先排序方面的优越性。

以上实验验证了上排率的正确性k基因重叠在致病基因,其不足以完全验证的算法基因优先化的性能。在这里,我们调查的唯一识别致病基因,即,这些致病基因只能通过在顶部的特定基因被发现k基因。为了进行综合比较,我们将TLGP与其他方法进行比较,以研究所提出的方法是否能够有效地对其他方法无法获得的致病基因进行排序。结果如图所示。5.,其中所述红色条通过使用TLGP和蓝色一个表示唯一地排名的基因的数目表示该其他人。从我们的算法用时SSC,PageRank的,PRINCE,MDGC和加密比较TLGP达到最佳效果。从图中5.,我们断言,该算法可以识别比其他致病基因更多。例如,通过TLGP获得的前100个基因中存在22个唯一排名的基因,而SSC则存在3个唯一排名基因。与Cipher,MDGC,王子和PageRank相比,TLGP与TLGP获得的前100个基因中有8,15,18,14个唯一排名基因,分别为4,4,9,7。这些结果进一步证明了所提出的算法可以鉴定不能被其他算法发现的乳腺癌的致病基因,表明TLGP的优先级优先级的优势。可能的原因是一些致病基因的功能是通过使用一种类型的基因组数据来充分表征的复合物。TLGP集成了异质基因组数据,提高了预测的准确性。

参数灵敏度

最后,我们调查参数如何实现所提出的算法的性能。请注意,涉及两个参数,其中尺寸减少的功能数量和参数\(\lambda\)决定刑罚的重要性。TLGP凭经验选择参数的最佳值。

具体地,TLGP需要源中的基因表达谱和靶癌具有相同的特征。当基因表达谱的尺寸不一致时,TLGP利用主成分分析(PCA)将基因表达谱投影成特征数量相同的空间。由于特征的数量随着10到130,TLGP的准确性如何从10到130增加,并且示出了间隙10。6.a.当特征数量从10个增加到70个时,TLGP的准确率会提高,而当特征数量从100个增加到130个时,算法的性能会下降。当特征个数为[70,100]时,准确率稳定。当特征数量较少时,这些特征不足以充分表征基因表达数据的信息,从而导致准确率较低。当特征数量较大时,特征是冗余的,从而导致精度下降。当特性数量在[70,100]时,TLGP达到了很好的平衡。因此,我们将特征的数量设为80。

然后,我们研究了参数如何\(\lambda\)因为惩罚会影响TLGP的性能。所提出的算法的精度如何随时间变化\(\lambda\)从0.01增大到15示于图。6.b.在如下情况下,TLGP性能最佳\(\ lambda \ \)[0.01,5]。TLGP的准确性随着参数减少\(\lambda\)增加从5到15的原因是,当的值lambda.大,则罚支配目标,导致低精度。在这项研究中,我们设置了lambda.= 1。

结论

基因排名是在生物信息学的基本问题,这些都为癌症诊断和治疗的关键之一。现有的算法,利用网络和致癌基因的预测基因的中心地位。然而,这些算法批评他们的精度低时的致癌基因的数量是有限的。此外,这些算法不能应用于基因排序时没有已知的致癌基因是可用的。实际上,致癌基因许多癌症的数量是有限的,特别是用于这些罕见疾病。为了解决这个问题,我们提出了基因排序的转移学习基础算法没有致病基因的目标癌症,其中在源癌症知识纳入目标癌症,提高算法的性能。实验结果表明,该算法显著优于对基因排序当前的算法。

所提出的算法还具有一些限制,将通过进一步的研究得到改善:

  • 源癌和靶癌中的基因表达谱具有相同的分布,因为它们是使用该平台生成的。如何将异质性基因组数据的知识从源域转移到目标域,如源域的基因表达和目标域的甲基化数据,也有望进一步提高基因排序的性能。

  • 在这项研究中,只有一个源癌采用转移学习。如何从多个源域转移的知识也是基因排序的关键问题。

设计有效和高效的算法来解决上述两个问题是对基因的优先级排除的承诺。

方法

在本节中,我们要解决依次解决的目标函数,优化和算法分析。

预备

描述TLGP的细节之前,让我们介绍一些符号被广泛用于下一小节。

在本研究中,矩阵由大写字母和粗体小写字母表示。给予基因表达谱作为矩阵X与之行和j列元素\(x_ {ij} \),其中行表示一个基因,列对应一个病人。的第i行(列)被表示为\(\ mathbf {X} _ {I}(\ mathbf {X} _ {。}Ĵ)\)\ (X ^ {} \)转置是X.让(X^{[s]} \在R^{n\乘以d^{[s]}}\)\(x ^ {[t]} \在r ^ {n \ times d ^ {[t]}} \)分别是源和靶癌的基因表达谱。让二元矢量\(\ mathbf {Y} = \ {Y_ {1},\ ldots,Y_ {N} \} \)对于致病基因在源癌症,其中的指示器\ (y_{我}\)= 1,如果Th基因是致病性的,否则为0。

给定一个无向和加权网络\ (G = (V, E) \)用顶点集\(V =(V_ {1},\ ldots,V_ {N})\)n是节点数量)和边缘集\ (E = \ {(v_ {}, v_ {j}) \} \),加权相邻矩阵\ (W = (w_ {ij}) _ {n \ n} \)是构造的,其中元素\ (w_ {ij} \)表示边缘的重量\((v_ {i},v_ {j})\).如果G是一个未加权的网络,\ (w_ {ij} \)1如果是1\(V_ {I} \)\(v_{j}\)以其它方式连接,0。让\(w_ {i。}(w _ {。j})\)成为扔 (j柱子)W.所有网络都是无向的,即\ (W ^ {'} = W \).程度结点定义为与顶点相连的边的权值之和\(V_ {I} \), IE。,\(d_ {i} = \ sum _ {j} w_ {ij} \).次数矩阵是次数序列的对角线,即。\ (D =诊断接头(d_ {1}, \ ldots d_ {n}) \),和拉普拉斯矩阵W被定义为\ (L_ {W} = dw \).鉴于网络\ (G = (V, E) \),相似矩阵年代可构造,何处元素\ (s_ {ij} \)表示顶点之间的相似性\(V_ {I} \)\(v_{j}\).网络中的基因优先级\ (G = (V, E) \)是构造一个函数吗\(\ psi \)度量顶点的中心性,即:

$$ \ {开始对准} \ PSI:V \ mapsto \ mathcal {R} ^ {+},\ {端对齐} $$
(1)

在哪里R \ (\ mathcal {} ^ {+} \)表示间隔\((0,+ \ infty)\)

目标函数

所提出的算法的概述如图2所示。1,由亲和矩阵结构,源域,融合网络构建和基因排名的尺寸减少。TLGP的最终目标是学习用于基因的可靠和融合的网络,其中通过使用转移学习来集成来自源极和靶域的异构基因组数据。在转移学习中,涉及两种关键技术,即如何从源域中提取知识以及如何将知识转移到目标域,这也是所提出算法的目标函数的两个因素。

为了在源癌中转移知识,我们需要量化源癌和目标癌之间的相似性,因为它决定了知识可以从哪里提取。域自适应的目的是在目标域与源域相似的情况下,利用源域中的标记数据来提高目标任务的性能。然而,当源域和目标域的分布差异很大时,迁移学习的效果就不理想。为了解决这个问题,有很多方法[37.38.39.40探讨如何通过一些转换缩小两个领域特征分布的差异。例如,TCA [37.]假设源域和目标域之间的边际分布不同,但存在映射函数\ \(φ()\)它将两个领域投射到一个公共空间中,其中的差异将被最小化。防卫厅(最早于38.],认为源域和目标域之间的边际分布和条件分布都是不同的,并提出迭代使用伪标签来逼近真标签。

在这项研究中,源癌的分布差异很大,因为基因表达谱和致病基因涉及源癌,而目标癌症仅具有表达数据。因此,我们需要整合基因表达和致病基因名单。但是,难以整合基因组数据,特别是对于异构数据[41.].为了解决这个问题,我们使用致病基因列表来调整基因表达谱,并假设致病基因和非致病基因有不同的表达模式。因此,我们期望学习的表示\ (X ^ {[s]} \),用一种,使得病原和非致病基因的表达谱很好地分离,可以提高算法的精度。lmnn [42.本问题采用了,它使用项目矩阵获得源癌的基因表达谱的新表示\(h ^ {[s]} \ r ^ {k \ times r} \)通过最小化表达数据和表示之间的近似,即,

$$ \ {开始对准} \分钟\ Vert的A-X ^ {[秒]} H ^ {[s]的} \ Vert的^ {2} \ {端对齐} $$
(2)

在哪里\(A \中的R ^ {N \倍R} \)新的代表性是什么\ (X ^ {[s]} \)

然后,我们考虑如何通过构建亲和基质根据基因表达谱源和目标癌症之间传输学习\(s \在r ^ {n \ times n} \)、元素\ (s_ {ij} \)为间皮尔逊系数的绝对值\(\ mathbf {X} _ {I} ^ {[秒]} \)\(\ mathbf {X} _ {学家} ^ {[T]} \).潜在的假设是具有相同或相似功能的基因具有相同或相似的表达模式。因此,如果一对基因在源癌和靶癌中有相似的表达模式,我们有足够的理由相信它们共享知识。如果在靶癌细胞个基因是类似于j在基因表达方面,在源基因中的基因,我们可以转移它们之间的知识。在转移知识之前必须解决的一个问题是量化它们的方式如何,因为它决定了可以传输多少信息。表达剖面Th基因必须与方程式的代表一致。(2)。我们学习一个项目矩阵年代来测量它们之间的距离,即,

$$ \ {开始对准} \ Vert的\ mathbf {X} _ {I} ^ {[T]} U- \ mathbf {A} _ {学家} \ Vert的^ {2},\ {端对齐} $$
(3)

在哪里\(\ mathbf {a} _ {j。} \)是个jth行一种,\(\ \ \ \ vert \)frobenous规范是什么一种.然而,情商。3.)量化的相似性中的基因表达概况而言,忽略基因的相似性年代.实际上,转移的共同知识也是由基因对的相似性决定。因此,我们重视eq中的距离。(3.),利用相似矩阵年代,它重新编写为

$$ \ {开始对准} S_ {IJ} \ Vert的\ mathbf {X} _ {I} ^ {[T]} U- \ mathbf {A} _ {学家} \ Vert的^ {2}。\结束{对齐} $$
(4)

类似地,我们期望在融合网络中\ (w_ {ij} \)如果对应的基因对在靶域具有相似的表达谱,即:

$$ \ {开始对准} W_ {IJ} \韦尔(\ mathbf {X} _ {I} ^ {[T]} - {。Ĵ} \ mathbf {X} _ ^ {[T]})U \VERT ^ {2}。\结束{对齐} $$
(5)

通过结合方程式。(4.5.),我们获得目标职能

$$ \ BEGIN {对齐} \压裂{1} {2} \总和_ {I,J}(S_ {I,J} \ Vert的\ mathbf {X} _ {I} ^ {[T]} U- \米一个thbf{a} _{j}\Vert ^{2} +w_{ij}\Vert (\mathbf{x} _{i}^{[t]}-\mathbf{x} _{j}^{[t]})U\Vert ^{2}+\lambda \Phi (w_{i,j})), \end{aligned}$$
(6)

在哪里\(\ phi(w_ {i,j})\)是一个惩罚项目和参数\(\lambda\)控制惩罚项(如何参数的重要性\(\lambda\)实验研究了对性能的影响)。的标准\(\ phi(w_ {i,j})\)当存在强烈的连接时,它接近0th和j除此之外,另外1个。在这里,我们将其设置为\((\ sqrt {w_ {i,j}} - 1)^ {2} \)

在下一小节中,我们推导出Eq. (6.)。

优化

方程(6.)涉及两个变量UW因为矩阵一种使用lmnn学习[42.].然而,难以直接优化公式。(6.),因为非凸性。采用迭代策略优化Eq. (6.),其中一个可变通过固定其他更新。迭代继续进行,直到算法收敛。

定影U的更新规则\ (w_ {i, j} \)作为

$ $ \{对齐}开始w_ {i, j} = \离开(\压裂{\λ}{\绿色(\ mathbf {x} _{我}^ {[t]} - \ mathbf {x} _ {j} ^ {[t]}) U \绿色^{2}+λ\}\右)^{2}\{对齐}$ $
(7)

W是固定的,则目标函数的第二项可以表示为

$$ \ begined {对齐} \ sum _ {i,j} w_ {i,j} \ vert(\ mathbf {x} _ {i} ^ {[t]} - \ mathbf {x} _ {j} ^{[t]})u \ vert ^ {2} = tr(l_ {w} x ^ {[t]} uu ^ {'}(x ^ {[t]})^ {'}),\ neat {对齐} $$
(8)

在哪里\ (L_ {W} \)是拉普拉斯算子矩阵W.此外,EQ的第一项。(6.)也可转化成基质轨迹作为

$$ \ {开始对准} TR(DX ^ {[T]} UU ^ { '}(X ^ {[T]})^ {'}) - 2TR(SX ^ {[T]} UA ^ {'})+ TR(DAA ^ {'}),\ {端对齐} $$
(9)

在哪里D指的是度矩阵年代

提交方程式。(8.)和(9.),目标函数记为

$$ \ begined {对齐} \ begin {对齐} \ theta&= \ frac {1} {2}(tr(dx ^ {[t] uu ^ {'}(x ^ {[t])^ {''})\\&quad -2tr(sx ^ {[t]} ua ^ {'})+ tr(daa ^ {'})\\&\ quad + tr(l_ {w} x ^ {[t]UU ^ {'}(x ^ {[t]})^ {'})+ \ sum _ {i,j} \ lambda \ phi(w_ {i,j}))\ end {对齐} \ neg {对齐} $$
(10)

部分衍生的U推导出的

$$ \开始{对齐} \压裂{\局部{\西塔}} {\局部【U}} =(X ^ {[T]})^ {'} LX ^ {[T]} U +(X ^ {[T]})^ { '} DX ^ {[T]} U +(X ^ {[T]})^ {'} SA。\结束{对齐} $$
(11)

根据KKT条件,通过设置\(\frac{\partial {\Theta}}{\partial {U}}\)= 0,我们得到的更新规则U作为

$$\begin{aligned}U=U-\alpha((X^{[t]})^{}LX^{[t]}U+(X^{[t]})^{{[t]}DX^{[t]}U+(X^{[t]}{}SA)\结束{对齐}$$
(12)

得到融合网络后W,基因优先级排序的典型算法,如王子[32.来对目标癌症中的基因进行排序。算法一给出了TFGP的实现过程。

雕像

算法分析

在空间复杂性上,源和目标域的表达式配置文件需要空间O纳米),是源和目标癌症中的样本数量的最大值,即,\(M =毫安,X \ {d ^ {[S]},d ^ {[T]} \} \).融合矩阵W和相似性矩阵年代需要空间\(O(N ^ {2})\).因此,整体空间复杂度为\ (O (n ^{2} +海里)= O (n ^ {2}) \)因为\(米\ LLÑ\),表明该方法是在空间复杂度方面高效。

关于时间复杂度,更新的时间W\(O(N ^ {2})\).更新的运行时间U\(o(n ^ {2} m)\).因此,总运行时间为\ (O (l (n ^ {2} + n ^{2}米)= O (n ^ {2} lm) \), 在哪里l为迭代次数。与非负矩阵分解相同[43.].

数据和材料的可用性

这些数据是在TCGA(https://portal.gdc.cancer.gov/)公布,和宇宙(https://cancer.sanger.ac.uk/cosmic/)。

笔记

  1. 1。

    https://cancer.sanger.ac.uk/cosmic/

  2. 2。

    https://thebiogrid.org/.

缩写

SVM:

支持向量机

TCGA:

癌症基因组图谱

FPKM:

每千碱基的片段每百万片段映射的转录本

宇宙:

癌症中体细胞突变的目录

nmf:

非负矩阵分解

工具书类

  1. 1。

    黄志强,黄志强,等。人类结肠癌的蛋白质基因组分析揭示了新的治疗机会。细胞。2019;177(4):1035 - 49。

    中科院文章谷歌学术

  2. 2。

    等。FOXA1突变可改变前列腺癌的起始活性、分化和表型。大自然。2019;571:508-12。

    文章谷歌学术

  3. 3.

    Michor F,Iwasa Y,Nowak Ma。癌症进展的动态。NAT Rev癌症。2004; 4:197-205。

    中科院文章谷歌学术

  4. 4。

    吴旭,姜锐,等。基于网络的人类疾病基因的全局推断。中国生物医学工程学报。2008;4(1):Art。不。189.

  5. 5。

    彭俊,惠万。基于学习的Mirna-疾病关联鉴定使用神经网络的框架。生物信息学。2019; 35(21):4364-71。

    文章谷歌学术

  6. 6。

    彭建军,薛红,等。利用深度神经网络集成多网络拓扑结构进行基因功能预测。短暂的Bioinfor。2020;6。https://doi.org/10.1093/bib/bbaa036.

    中科院文章谷歌学术

  7. 7。

    李东,王磊,等。当鉴别k -均值满足格拉斯曼流形时:通过一般多视图聚类方法进行疾病基因识别。IEEE-EMBS生物医学和卫生信息学国际会议;2016.页364 - 67。

  8. 8。

    关键词:抑郁症,基因,生物标志物,综合排序见:IEEE生物信息学与计算生物学计算智能会议;2015.https://doi.org/10.1109/cibcb.2015.7300287

  9. 9。

    页L,布林S,等人。PageRank的引文排名:到Web带来秩序。斯坦福数字图书馆技术项目;1998年。

  10. 10。

    Xi J,Li A,Wang M.一种通过矩阵三分化框架检测泛癌数据的驾驶员基因的新型无监督学习模型。神经关键词。2018; 296:61-73。

    文章谷歌学术

  11. 11.

    僖Ĵ,王男,李A.情迷突变驾驶员通过与来自mRNA的表达模式和交互网络的先验信息鲁棒和稀疏共正规化矩阵分解框架的基因。BMC Bioinf。2018; 19(1):214。

    文章谷歌学术

  12. 12.

    芳米,胡X等。NDRC:一种疾病导致基因的基于网络扩散和秩一致的优先方法。IEEE Trans Nanobiosci。2015; 14(5):521-7。

    文章谷歌学术

  13. 13。

    Chen J,Bandes Ee,等。TOPPGENE套件用于基因列表浓缩分析和候选基因优先级。核酸RES。2009; 305:W305-11。

    文章谷歌学术

  14. 14。

    李勇,Patra JC。在异质网络上行走,全基因组推断基因-表型关系。生物信息学,2010,26(9):1219 - 24。

    中科院文章谷歌学术

  15. 15.

    基于网络的基因组数据分析的马尔可夫随机场模型。生物信息学。2007;23(12):1537 - 44。

    中科院文章谷歌学术

  16. 16。

    赵Q,杨Y,等。整合双粒子网络投影和Katz测度来识别新的循环RNA疾病关联。IEEE Trans NanoBiosci。2019;18(4):578–84.

    文章谷歌学术

  17. 17。

    Adie E,Adams R,et al.“通过基于序列的候选优先顺序加快疾病基因发现。BMC Bioinf。2005;6:第55条。

  18. 18。

    Bacardit J,Garibaldi J,Krasnogor N.'使用基于规则的机器学习,用于候选疾病基因优先级排序和癌症基因表达数据的样本分类。Plos一个。2012; 7:艺术没有。E39932。

  19. 19。

    张H,王H,等。用新型基因选择算法提高癌症分类的准确性。BMC Bioinf。2012; 13:艺术没有。298。

  20. 20。

    优先选择候选基因的计算工具:促进疾病基因发现。Nat Rev Genet. 2012; 13:523-36。

    中科院文章谷歌学术

  21. 21。

    马X,东D,王Q。多层网络中使用联合非负矩阵分解的社区检测。IEEE Trans-Knowl数据工程2019;31(2):273–86.

    文章谷歌学术

  22. 22。

    基于进化非负矩阵分解的动态网络社区检测算法。数据工程。2017;29(5):1045-58。

    文章谷歌学术

  23. 23。

    MA X,GAO L,Yong X,FU L.复杂网络社区结构检测半监督聚类算法。物理A. 2010; 389:187-97。

    文章谷歌学术

  24. 24。

    马X,孙P,王Y。用于动态网络中时间链路预测的图正则化非负矩阵分解。物理A。2018;496:121–36.

    文章谷歌学术

  25. 25。

    Menche J,Sharma A等人。通过不完全互乱组揭露疾病关系。科学。2015; 347(6224):艺术没有。1257601-1。

  26. 26。

    MA X,GAO L,TAN K.使用模块连接的动态模拟疾病进展。生物信息学。2014; 30:2343-50。

    中科院文章谷歌学术

  27. 27。

    Rozenblatt-Rosen O, Deo RC,等。利用肿瘤病毒蛋白质对宿主网络的系统扰动来解释癌症基因组。大自然。2012;487:491-5。

    中科院文章谷歌学术

  28. 28。

    Ma X,Liu Z等人。通过基因宽DNA甲基化和基因表达数据集成多种网络算法。BMC Bioinf。2017; 1:艺术。不。18。

  29. 29。

    基于生物网络拓扑结构的扰动模式预测。《美国国家科学院学报》上。2018; 115 (27): e6375 - 83。

    中科院文章谷歌学术

  30. 30.

    周D,Bousquet o等人。学习本地和全球一致性。在:神经信息处理系统会议会议上;2004年第321-8页。

  31. 31.

    马X,高L,等人。通过分析多个差分网络揭示心脏疾病模块动力学。PLOS计算BIOL。2015; 11:艺术。不。e1004332。

  32. 32。

    vanunu o,magger o等人。通过网络繁殖将基因和蛋白质复合物与疾病相关联。PLOS计算BIOL。2010; 6(1):艺术。不。E1000641。

  33. 33。

    潘SJ,杨Q.转让学习调查。IEEE Trans Knowl Data Eng。2010; 22(10):1345-59。

    文章谷歌学术

  34. 34。

    Azizpour H,Razavian As等。通用ConvNET表示的可转让性的因素。IEEE Trans Pattern Ang Mach Intell。2016; 38(9):1790-802。

    文章谷歌学术

  35. 35。

    楚WS,Torre FD,COHN JF。个性化面部表情分析的选择性转移机器。IEEE Trans Pattern Ang Mach Intell。2017; 39(3):529-45。

    文章谷歌学术

  36. 36。

    罗Y,文Y,等人。知识转移的片段从异质域学习距离度量。IEEE Trans Pattern Ang Mach Intell。2019; 41(4):1013年至1026年。

    文章谷歌学术

  37. 37。

    潘SJ,曾IW等。经由传送部件分析域的适应。IEEE反式神经网络。2011; 22(2):199-210。

    文章谷歌学术

  38. 38。

    龙男,王J,等。传输功能与学习联合分布适应。在:对计算机视觉IEEE国际会议论文集;2013年第2200-7。

  39. 39。

    龚斌,石勇,等。无监督域自适应的测地线流核。IEEE计算机视觉与模式识别会议论文集;2012.2066 - 73页。

  40. 40。

    Blum A,Mitchell T.将标记和未标记的数据与共同培训相结合。在:计算学习理论年会议的诉讼程序;1998.第92-100页。

  41. 41。

    Ma X,Sun P,张Z.蛋白质相互作用和甲基化数据的一体化框架,以发现表观遗传模块。IEEE / ACM反式计算BIOL BIOINF。2019; 16(6):1855-66。

    中科院谷歌学术

  42. 42.

    Weinberger Qk,Saul LK。大边缘最近邻分类的距离度量学习。J Mach Learn Res。2009; 5:207-44。

    谷歌学术

  43. 43.

    李DD,升HS。非负矩阵分解学习对象的部分。自然。1999; 401(6755):788-91。

    中科院文章谷歌学术

下载参考

致谢

不适用。

关于这个补充剂

本文已作为《BMC Bioinformatics Volume 22 Suppleme欧宝娱乐合法吗nt 9, 2021: the Biological ontology and Knowledge bases workshop 2019: part 2》的一部分发表。该补充的全部内容可在网上找到//www.christinemj.com/articles/supplements/volume-22-supplement-9.

资金

国家自然科学基金资助项目(No. 61772394, XM);陕西省留学回国人员科研基金资助项目(No. 2018003, XM)。关键词:岩石力学,蠕变,蠕变特性,蠕变特性出版费用由国家自然科学基金资助项目(No. 61772394)资助。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有作用。

作者信息

隶属关系

作者

贡献

XM和MG设计算法,YW和ZX处理数据和代码软件,XM,JD和XX编写了ManScript。所有作者都阅读并批准了最终的手稿。

通讯作者

对应到XIAOKE MA.

伦理宣言

伦理批准和同意参与

该研究不需要惯例。

同意出版

不适用。

利益争夺

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

王,Y.,夏,Z.,邓,J.等等。TLGP:一种灵活的基于异构源域的基因优先级迁移学习算法。欧宝娱乐合法吗22,274(2021)。https://doi.org/10.1186/s12859-021-04190-9

下载引用

关键词

  • 基因优先考虑
  • 转移学习
  • 基因共表达网络
  • 综合分析