跳到主要内容

利用有生物学意义的深度学习模型研究癌症存活中主要信号通路的相关性

摘要

背景

生存分析是癌症研究的重要组成部分。除了现有的Cox比例风险模型外,最近在生存预测中又提出了深度学习模型,该模型利用全连接的密集深度神经网络层直接集成大量基因的多组数据,但难以解释。另一方面,癌症信号通路是重要的和可解释的概念,它定义了调控癌症发展和耐药性的信号级联。因此,研究患者生存和个体信号通路之间的潜在联系是很重要的,这可以帮助领域专家理解深度学习模型,做出具体的预测。

结果

在这种探索性研究,我们提出调查的一组癌症患者的生存分析核心癌症信号通路的相关性和影响力。具体来说,我们建立了一个简化的和部分生物学意义的深层神经网络,DeepSigSurvNet,生存的预测。在模型中,从46个主要信号通路1967个基因的基因表达和拷贝数数据被整合到模型中。我们采用的模式四种类型的癌症,并研究在癌症的46个信号通路的影响。有趣的是,可解释的分析,鉴定这些信号传导途径的独特模式,这是理解在适用于癌症患者的存活时间的预测的术语信号传导途径的相关性有帮助。这些高度相关的信号传导途径,与其他必要的信号传导途径的抑制剂相结合,可以用于药物和药物组合预测来改善癌症患者的存活时间的新靶标。

结论

提出的DeepSigSurvNet模型通过整合多组数据和临床因素,有助于理解信号通路对癌症患者生存的影响。

背景

基于临床因素的生存分析(例如,年龄,性别,种族,阶段)对癌症预后至关重要。然而,鉴定和理解基因组学数据(例如,基因表达和拷贝数变异),识别和理解基本生物标志物同样重要。Cox比例危害模型(Cox pH)模型[1]是生存分析的经典模型。Kaplan–Meier估计曲线[2]CoxPH模型和logrank检验[3.]被广泛用于显示和以上的患者在不同的组或条件时的存活概率进行比较。近日,深度学习模型已经被开发用于生存分析。深度学习模型已经在图像分析广泛的应用[4.5.、医学信息学数据分析[6.],以及自然语言处理(NLP)[7.],并已显示出比传统机器学习模型卓越的性能。因此,对于生存分析开发深度学习模型也被看好,例如,DeepSurv [8.],考克斯-NNET [9.),基本10.],和深度打击[11.].

与Cox PH模型相比,深度学习模型在没有强参数假设的情况下,灵活整合大量基因组特征,提高了预测精度。例如,DeepSurv [8.]模型采用深度神经网络整合生物标志物基因和个人治疗信息,提高生存时间预测。DeepHit [11.]模型也使用了深度神经网络,并联合建模不同的事件,比如不同的死亡原因。在肝癌分型和生存分析中[12.],自动编码器模式最早用于减少给定的基因组特征(例如,基因表达,miRNA的,甲基化)的大数量的特征空间的尺寸。的重要特征(原始基因组的非线性组合的特征)被用Cox模型PH [识别1用于该识别的子基团与不同的存活结果聚类分析。然后,方差的基于聚类的结果分析(ANOVA)应用于原始基因组学特征以进一步识别的重要基因。然而,自动编码器模型本身不是用来识别非线性透视的重要原料基因组学的特点。在考克斯 - NNET模型[9.],来自癌症基因组图谱(TCGA)样本的RNA-seq数据被用作深度神经网络的输入,以预测生存时间。为了确定隐藏节点的潜在相关信号通路,计算单个基因表达与给定隐藏节点输出之间的皮尔逊相关值,以确定最线性相关的基因。然后,基因集富集分析(GSEA)[13.]被用来隐藏节点与富集的信号通路相连。此外,生存卷积神经网络(SCNN)10.]的开发利用癌症患者的组织学图像来预测的生存。最后,从SCNN模型输出利息(像块)区域的热图图表被覆盖在图像上,表示在与生存预后相关的图像显著的区域。

与现有车型相比,我们的目的是调查的相关性或个人的癌症信号通路(通路级)在癌症患者的生存时间预测的影响。在另一单词,而是采用了大量的基因,一组癌症信号传导途径的多组学数据使用简化的和部分生物有意义深神经网络结构,还没有被很好地研究进行建模。在癌症研究中,在肿瘤发展和药物反应中起重要作用的许多不正常的信号转导通路标识。例如,使用TCGA癌症样品10信号转导途径的分析表明,许多遗传生物标记物包含在10信号传导途径[14.].此类癌症的信号传导途径和癌症标志网络已被用于癌症临床表型和癌症预后[预测15.16.].在本研究中,我们旨在研究这些信号通路在使用有生物学意义和简化的深度学习模型DeepSigSurvNet预测生存结果的背景下的相关性或影响。具体来说,KEGG只收集了46条信号通路[17.数据库)信号。来自46个主要信号通路的1967个基因的基因表达和拷贝数数据来自4种癌症:乳腺癌(BRCA)、肺腺癌(LUAD)、多形性胶质母细胞瘤(GBM)和皮肤皮肤黑色素瘤(SKCM)。采用c指数对模型进行评价。此外,领域专家能够理解深度学习模型进行具体预测的机制至关重要。由于复杂的网络结构,它具有挑战性。为了解释深度学习模型的预测,提出了一套解释和解释方法,如smmothgrad [18.]和分层关联传播(LRP)方法[19.],识别可以影响模型预测结果的功能。有趣的是,使用SMPANDGRAD方法的可解释分析确定了这些信号传导途径的明显概率密度分布模式,这有助于了解信号通路与癌症患者存活方面的相关性。这些重要的信号途径可以是药物和药物组合预测的新靶点,以改善癌症患者的生存时间。在以下部分中,提出了材料和方法,结果和讨论。

方法

RNA-SEQ和4种癌症的拷贝数数据

从UCSC Xena数据服务器,平均归一化log2缩放RSEM [20.]从GISTIC2分析值(每个基因)在所有TCGA群组(HiSeqV2_PANCAN数据集)和整数的拷贝数数据(每个基因)被下载为四种类型的癌症:乳腺浸润性癌(BRCA),肺腺癌(LUAD),胶质母细胞瘤(GBM)和皮肤皮肤黑色素瘤(SKCM)。癌症样品的表型(临床)数据(生存时间,年龄,性别,舞台等),也可从Xena的数据服务器。桌子1显示癌症样本的数量,数据集和下载这些数据集的url。为了进行预测,生存时间大于3000天的癌症患者不包括在内。

样品,dataset_id和URL的表1号下载基因表达和从UCSC西娜数据服务器拷贝数数据

46个主要的信号通路

KEGG(京都基因与基因组百科)17.是一个系统了解基因功能的数据库。KEGG信号通路提供了信号转导和细胞过程的知识。KEGG数据库中有303条通路,其中45条被标注为“信号通路”。许多信号通路都是重要的致癌信号通路[14.,如EGFR, WNT, Hippo, Notch, PI3K-Akt, RAS, TGFβ, p53。“细胞周期”的细胞过程也包括在内。简单地说,“细胞周期”也被视为一个“信号”途径。共选择了46条信号通路(45条信号通路+细胞周期)(见表)2)。在这些46个信号传导途径中,有1967个基因两者的基因表达和拷贝数变异的数据。总之,有基因表达(TPM)和在45癌细胞系,将其作为输入为深学习模型46个信号传导途径的复制基因1967年数变异的数据。

表2中的46个信号传导途径用于分析

DeepSigSurvNet模型体系

数字1显示提出的概略架构DeepSigSurvNet模型。在“输入层”,有两个输入的特征,即,横跨TCGA样品和整数拷贝数变化归一化的基因表达,每个基因。具有训练数据集之间的零表达的基因将被排除的输入。在该模型中,基因表达和拷贝数变异的信息首先被连接到单个基因来计算基因状态分别为每个基因。然后,基因状态被连接到仅当一个基因被包含在一个信号转导途径(不是一个完整的连接层)46个的信号传导途径。基因连接矩阵和通路连接矩阵来设计的连接。46个信号通路的输出被用作输入的卷积开始和[21.)层(见图。1)。成立之初[21.]模块用于在每一层中的多个内核滤波器的尺寸,而不是顺序地堆叠多个层。它可以通过降维获取信息量大的特点,降低了消失梯度问题。为密集和卷积层中的激活函数是激活RELU功能。最后致密层使用线性激活函数。为了更好的模型和预测癌症患者的生存时间,三个临床因素(年龄,性别和阶段)和生命状态用的基因组数据连接起来。为了减少过拟合效果,漏失层和L2重量衰变每以来模块和致密层中加入。对于训练参数,批量大小为32和优化器是“Adadelta”。该损失函数是真正的生存时间和生存的预测时间之间均方误差。我们将在每种类型的癌症的癌症样品投入到训练数据(80%)和测试数据(20%)。对于四种癌症类型,我们使用相同的模型结构具有不同丢包率,正则化的值,和时期。 After each epoch, we will evaluate the performance of model, the model parameter with the best test c-index will be recorded. To investigate the relevance of individual signaling pathways in survival time prediction, we employed the smoothgrad approach, which is available in the “iNNvestigate” package [22.]. 具体而言,将噪声信号或扰动添加到单个信号通路中,并计算模型预测精度的相应变化。可以计算并平滑每个单独信号通路(特征)的预测精度变化梯度,以表明其对生存时间预测的影响。对于噪声等级,我们根据输入进行调整。更具体地说,,\(噪声比例=(\马克斯\左({输入}\右)-{\文本{分钟}}\左({输入}\右))* 0.1 \)。然后对每种类型癌症的所有46个信号传导途径的相关性得分的分布使用基于所有样本的相关性分值核密度估计估计和为了研究和了解个别信号传导途径对患者的相关性,获得’ survival.

图1
图1

该DeepSigSurvNet模型的架构示意图

结果

模型的性能评价

为了评价该模型的性能,使用了一致性指数(c-index)度量。c索引的定义如下。让\ (y_{我}\)\(\ widehat {Y} _ {I}> \ widehat {Y} _ {Ĵ} \左| {Y_ {I}> Y_ {Ĵ}} \右\)是真实和预测的生存时间。一致性被定义为\(P(\ widehat {{Y_ {I}}}> \ widehat {{{Y_Ĵ}}} \左| {Y_ {I}} \右\ rangle Y_ {Ĵ})\),在那里一世j是两个随机选择的样本。C折射表示预测和实际存活时间的概率是相对一致的或一致性的,即,\(\ widehat {{Y_ {I}}}> \ widehat {{{Y_Ĵ}}},\,和\,Y_ {I}> Y_ {Ĵ} \), 或者\(\ widehat {{y_ {i}}} <\ widehat {{y_ {j}}},\,\,y_ {i} 。让C,D,T表示一致,不和谐和等于生存时间的数字,然后C-inde被定义为:

$$ 13 C { - }。指数= \压裂{{C + \压裂{1} {2} T】} {C + d + T} $$

我们比较了该模型与随机森林模型,该模型可作为RandomForestRegression在scikit学习包。我们使用相同的训练和测试数据集设置了四种类型的癌症训练随机森林模型。该“n_estimator”和“MAX_DEPTH”参数是微调,以找到随机森林模型的最佳性能。对于DeepSigSurvNet模型,我们使用相同的架构,所有四种类型的癌症,但不同的辍学率,正规化的价值观和时代的数字为每个癌症类型。桌子3.4.显示比较结果。如图所示,随机森林模型在训练数据集中具有较高的c指数值。然而,与提出的DeepSignSurvNet模型相比,它在测试数据集上的c-索引值要低得多,这表明提出的深度学习模型是鲁棒的。

表3 4种癌症随机森林模型c -指标值
表4在四种类型的癌症中深度曲氏患者的C折射率值

考虑到TCGA数据集的异质性,我们还进行了不同比率的多次采样,以评估稳健性。具体来说,我们测试了50、60、70、80、90%的不同比例的训练数据,并重复50次。epoch时间设置为25,并使用50次测试的平均c-index值。结果如表所示5.。如所看到的,更大的训练数据集和小测试数据在检测数据相对较好的C指数值。总体而言,该模型优于对测试数据的随机森林,尽管随机森林模型对训练数据更好的性能。

表使用不同的训练数据的所提出的模型和随机森林模型的5平均C指数值。是通过随机选择训练和测试数据集50次获得的平均C指数

为了进一步测试路径的数目的影响,该模型用的是10,20,30和40的信号通路进行测试。具体而言,一些信号传导途径,例如,10个信号传导途径的,随机选择50次,使用该数据作为训练和数据作为测试数据的20%的80%。平均c指数值列于表6.. 可以看出,一般来说,在训练数据和测试中,更多的信号通路可以获得更好的c指数值。在测试数据集上,该模型比随机森林模型具有更好的性能。结果表明,一小部分癌症信号通路对癌症生存时间的预测具有很强的参考价值。这可能是因为许多癌症信号通路相互重叠和相互作用。随机森林模型在训练数据上具有更好的性能。然而,它在测试数据上的性能较差,这可能是由于过度拟合造成的。

表使用随机选择的信号转导途径的不同数量的所提出的模型和随机森林模型6平均C指数值。通过随机选择训练(数据集的80%)和测试(数据集的20%)的数据50次获得的平均C指数

在四种类型的癌症个体的信号传导途径的相关性

如前所述,研究和理解个体信号通路如何有助于癌症患者的生存预测是很有趣的。在训练了深度学习模型之后,我们使用了“ininvestigate”软件包来计算四种癌症中每种癌症患者个体信号通路的相关性得分。数据23.显示四种癌症中46种信号通路的概率密度分布。

图2
figure2

46个信号通路在BRCA(上)和LUAD(下)癌症中的相关评分密度分布

图3
图3

46个信号通路在GBM(上)和SKCM(下)癌症中相关性评分的密度分布

其中,BRCA、mTOR、Hedgehog、PI3K-Akt、TGF-beta、AMPK、VEGF、Apelin、Adipocytokine和催产素信号通路的相关性评分最强。P53、Wnt、Notch、NF-Kaapa B、FoxO、cGMP-PKG、cAMP、Chemokine、鞘脂、Relaxin、甲状腺激素信号通路具有较高的相关性评分。令人惊讶的是,MAPK、ErbB、Ras、Rap1和JAK-STAT信号通路以及细胞周期与患者的生存结局并没有很好的相关性,尽管众所周知这些信号通路在癌症发展中发挥重要作用。然而,它们可以在BRCA肿瘤样本中被分离出来,并被确定为预测患者生存结局的重要信号通路。LUDA的密度分布模式与BRCA不同。更多的信号通路表现出高但不是很强的相关性得分。例如,MAPK、Ras、Rap1、cGMP-PKG、HIF-1、mTOR、PI3K-Akt、Wnt、Notch Hedgehog、c型凝集素受体、GnRH、神经营养因子、甲状腺激素等信号通路具有较高且一致的相关性评分。另一方面,AMPK、Hippo和NOD-like信号通路均为零均值,但方差较大。因此,很难评估它们在癌症患者生存预测分析中的相对重要性。对于GBM, Ras、p53、mTOR、PI3K-Akt、Notch、Hippo、TNF、雌激素、甲状腺激素和Relaxin信号通路具有较高的相关性评分; the other signaling pathways are not correlated with patients’ survival. For SKCM, the patterns are similar to the LUAD cancer samples. The Ras, Calcium, cGMP-PKG, NF-Kappa B, HIF-1, FoxO, Sphingolipid, Phospholipase D, p53, mTOR, Wnt, Hedgehog, NOD-like receptor, Estrogen, Prolactin, and Thyroid hormone signaling pathways have relatively high and consistent relevance scores. Whereas, the MAPK, Rap1, PI3K-Akt, AMPK, and VEGF signaling pathways have zero-mean values but with great variance.

总之,所有46个信号传导途径的概率密度分布模式在四种类型的癌症之间显着变化。例如,P53和MTOR信号传导途径与BRCA,GBM和SKCM癌症患者的患者的存活结果强烈相关,但不在鲁达癌症患者中。MAPK,RAS,RAP1和ERBB信号传导途径被称为癌症中重要的信号传导途径,但它们与预测模型中的癌症患者的生存结果没有强烈相关。这可能是因为所有这些重要的信号传导途径都是在癌症患者中激活的。因此,它们是癌症治疗的重要靶标,但在生存时间预测方面没有信息。此外,细胞周期信令在存活时间预测中不起重要作用。此外,一小组信号通路(例如,T细胞受体,B细胞受体,Fc epsilon Ri,TNF)对所有四种癌症的癌症患者的存活率没有表现出重要的贡献。此外,对于每种类型的癌症,不到一半的信号传导途径对生存预测具有很强的影响。因此,可以抑制这些必要信号传导途径的药物和药物组合以及每种类型癌症具有强相关评分的信号通路可能有效地改善癌症患者的生存时间和结果。

讨论

生存预测在癌症研究中很重要。整合多组数据的深度学习模型已被提出用于生存预测,并优于经典Cox PH模型。信号通路在癌症研究中非常重要,它可以帮助我们理解调控癌症发展和药物反应的信号级联过程。然而,考虑到大量基因组特征(如基因表达、拷贝数变化)的非线性组合,理解单个基因的贡献具有挑战性。在这项研究中,我们没有使用大量的基因组特征,而是提出了一个相对生物学意义和简化的深度学习模型DeepSigSurvNet,用于生存预测。模型中使用了来自46个主要信号通路的1967个基因的基因表达和拷贝数数据。通过对四种类型癌症的深度学习模型分析,可以识别出这些信号通路的不同模式,有助于理解这些信号通路在生存分析背景下的相关性。这些途径也可以成为药物和药物联合预测的新靶点,以改善癌症患者的生存结果。

需要进一步调查的建议模型有一些改进。除了46个信号传导途径之外,还将进一步评估其他KEGG途径,如代谢途径。此外,基因肿瘤学[23.](GO)术语提供了其他有意义的生物过程(BP)(基因集)。此外,癌症亚型信息通常与不同的生存模式有关。识别和合并子类型信息有助于改进模型。此外,为了评估模型的通用性,需要使用独立数据集进行验证。除了拷贝数、基因表达数据外,其他组学数据(如蛋白质、甲基化和基因突变)也可以方便地集成到模型中。如上所述,重要信号通路中的重要基因可作为潜在的基因特征,利用连接性图谱(CMAP)发现药物[24.25.].在本研究中,由于信号通路的使用,所提出的模型具有部分生物学意义。然而,详细的信令结构信息并没有被建模。深度图神经网络(GNN)可以更好地模拟信号结构,即级联连接。我们将在未来的工作中研究这些可能的方向。

结论

在本研究中,我们提出了一个有生物学意义和简化的深度学习模型DeepSigSurvNet,基于一套信号通路来模拟癌症患者的生存。与现有的深度学习模型相比,多组学数据和临床因素能够以相对有意义的方式整合到模型中,且模型对测试数据具有较强的鲁棒性。可解释性分析可以帮助研究人员了解单个信号通路的作用,并识别针对与患者生存时间和预后相关的顶级信号通路的新的治疗药物。

可用性数据和材料

数据可用性见表一。

缩写

NLP:

自然语言处理

Anova:

方差分析

TCGA:

癌症基因组图谱

GSEA:

基因设定浓缩分析

基本:

生存卷积神经网络

BRCA:

乳腺浸润性癌

LUAD:

肺腺癌

GBM:

多形性胶质母细胞瘤

SKCM:

皮肤皮肤黑色素瘤

含:

逐层相关性传播

凯格:

基因和基因组京都百科全书

提出:

连接图

参考文献

  1. 1。

    Cox DR.回归模型和生命表。中国科学(d辑:地球科学)(英文版);https://doi.org/10.1111/j.2517-6161.1972.tb00899.x

    文章谷歌学术搜索

  2. 2。

    卡普兰·艾尔,迈尔·P。不完全观测的非参数估计。J Am统计协会,1958年。https://doi.org/10.1080/01621459.1958.10501452

    文章谷歌学术搜索

  3. 3.

    评估生存数据和在其考虑中产生的两个新的秩序统计量。癌症Chemother报告。50 1966;(3): 163 - 70。

    CAS谷歌学术搜索

  4. 4.

    Krizhevsky A,Sutskever I,Hinton Ge。ImageNet分类深卷积神经网络。在:神经信息处理系统的进步。2012年。

  5. 5.

    Goodfellow I,Pouget-Abadie J,Mirza M,等。生成的对抗网。在:Ghahramani Z,Lenting M,Cortes C,Lawrence Nd,Weinberger KQ,编辑。神经信息处理系统的进步27.Curan Associates,Inc。;2014:2672-2680。https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf

  6. 6。

    Rajkomar A,奥伦E,陈K,等人。可扩展性和准确的深度学习与电子健康记录。npj digit med。2018; 1(1):18。DOI:https://doi.org/10.1038/s41746-018-0029-1

  7. 7。

    德夫林J,张M-W,李K,图塔诺娃K。伯特:为语言理解而进行的深度双向变换的预培训。J ArXiv。2018年:abs/1810.04805。

  8. 8.

    卡茨曼JL,沙哈姆U,Cloninger A,贝茨Ĵ,姜T,克鲁格Y. DeepSurv:个性化使用Cox比例风险深层神经网络处理的推荐系统。BMC医学RES Methodol。2018; 18(1):24。https://doi.org/10.1186/s12874-018-0482-1

    文章PubMed.公共医学中心谷歌学术搜索

  9. 9.

    程婷,朱X,加米尔LX。Cox nnet:高通量组学数据预测的人工神经网络方法。计算机生物学。2018;14(4):e1006076–e1006076。https://doi.org/10.1371/journal.pcbi.1006076

    CAS文章PubMed.公共医学中心谷歌学术搜索

  10. 10.

    Mobadersany P,Yousefi S,Amgad M,等。利用卷积网络从组织学和基因组学预测癌症预后。自然科学进展。2018;115(13):E2970 LP-E2979。内政部:https://doi.org/10.1073/pnas.1717139115

  11. 11.

    李C, Zame W, Yoon J, Schaar MVD。deepphit:一种深度学习方法,用于竞争风险的生存分析。: AAAI。;2018年。

  12. 12.

    乔杜里K, Poirion OB, Lu L, Garmire LX。基于深度学习的多组学整合稳健地预测肝癌患者的生存率。2018;24(6): 1248-59。https://doi.org/10.1158/1078-0432.CCR-17-0853

    CAS文章PubMed.谷歌学术搜索

  13. 13。

    Subramanian A,Tamayo P,Mootha VK,等。基因集富集分析:解释全基因组表达谱的基于知识的方法。自然科学进展。2005;102(43):15545–50.https://doi.org/10.1073/pnas.0506580102

    CAS文章PubMed.谷歌学术搜索

  14. 14。

    桑切斯 - 维加女,米娜男,亚美尼亚J,等。在癌症基因组图谱致癌信号通路。细胞。2018; 173(2):321-337.e10。https://doi.org/10.1016/j.cell.2018.03.035

    CAS文章PubMed.公共医学中心谷歌学术搜索

  15. 15.

    王娥,麦格纳,麦格尼斯,米兰·埃涅帖A,O'Connor-McCourt M.预测基因组学:一种使用基因组测序数据预测肿瘤临床表型的癌症标志网络框架。Semin癌症Biol。2015; 30:4-12。https://doi.org/10.1016/j.semcancer.2014.04.002

    CAS文章PubMed.谷歌学术搜索

  16. 16。

    张杰,关M,王Q,张杰,周T,孙X。基于单细胞转录组的多层网络生物标记物,用于预测胶质瘤的预后和治疗反应。简短的生物信息。2020;21(3):1080–97.https://doi.org/10.1093/bib/bbz040

    CAS文章PubMed.谷歌学术搜索

  17. 17。

    绪方H、后藤S、佐藤K、藤壶W、博诺H、卡内希萨M。京都基因和基因组百科全书。《核酸研究》1999:28。内政部:https://doi.org/10.1093/nar/27.1.29

  18. 18。

    Smilkov D,Thorat N,Kim B,ViégasF,Wattenberg M. Smoothgrad:通过添加噪音来消除噪声。2017年。

  19. 19.

    巴赫S,粘合剂A,Montavon G,Klauschen女,穆勒KR,萨梅克W.论非线性分类器的决定逐像素解释通过分层相关性传播。Plos一个。2015年。https://doi.org/10.1371/journal.pone.0130140

    文章PubMed.公共医学中心谷歌学术搜索

  20. 20。

    Li B,杜威CN。RSEM:具有或不具有参考基因组的RNA-SEQ数据的准确转录物定量。BMC生物素。2011; 12(1):323。https://doi.org/10.1186/1471-2105-12-323

    CAS文章谷歌学术搜索

  21. 21.

    刘伟,贾玉英,刘志强,等。更深入的卷积。IEEE Conf compput Vis Pattern recognition . 2015;

    谷歌学术搜索

  22. 22.

    Maximilian Alber,Sebastian Lapuschkin,Philipp Seegerer,MiriamHägele,KristofT.Schütt,GrégoireMontavon,Wojciech Smerk,Klaus-RobertMüller,SvendähneP-JK。InnceItGiGe神经网络!在:arxiv。;2018年。

  23. 23。

    基因本体联盟T,阿什伯纳男,球CA等。基因本体论:工具,生物学NIH公共获取作者手稿的统一。纳特遗传学。2000; 25(1):25-29。DOI:https://doi.org/10.1038/75556

  24. 24。

    王志强,王志强,王志强,等。连接图:利用基因表达特征将小分子、基因和疾病连接起来。科学(80 -)。2006, 313(5795): 1929 - 1935。DOI:https://doi.org/10.1126/science.11​​32939

  25. 25。

    Subramanian A,Narayan R,Corsello SM,等。下一代连接图:L1000平台和前1000000个配置文件。牢房。2017;171(6):1437–52.https://doi.org/10.1016/j.cell.2017.10.049

    CAS文章PubMed.公共医学中心谷歌学术搜索

下载参考

致谢

我们要感谢圣路易斯华盛顿大学的Amanda Zeng对手稿的校对。

资金

出版费用由信息学研究所(I2)和儿科启动资金,李福海博士资助。资助机构不参与研究的设计、数据收集和分析,或撰写手稿。

作者信息

隶属关系

作者

贡献

FL构思了这个项目。方法由JF, HZ, FL设计,他也进行了数据分析。原稿由JF和FL撰写,所有作者都已阅读并批准了原稿。

通讯作者

对应于李画集》

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

冯,J.,张,H&李F.使用生物学意义深刻的学习模式,查处大案信号通路的相关性在癌症存活率。欧宝娱乐合法吗22,47(2021)。https://doi.org/10.1186/s12859-020-03850-6

下载引文

关键词

  • 深度学习
  • 生存分析
  • 信号通路
  • TCGA.
\