跳到主要内容

血液样本分析的集成,多OMIC,改善了模型预测:对癌症的应用

抽象的

背景

癌症基因组研究通常包括从几个OMICS平台收集的数据。每个OMIC数据源通过源特定(“个人”)可变性模式有助于了解底层生物过程。同时,不同数据源之间的统计关联和潜在相互作用可以揭示来自单源分析可能无法识别的常见生物过程的信号。这些常见的可变性模式称为“共享”或“关节”。在这项工作中,我们展示了如何使用关节和各个组件可以导致更好的预测模型,并更深入地了解手头的生物过程。我们识别与血液样品中的DNA甲基化,miRNA和mRNA表达的关节和个体贡献在挪威妇女和癌症(NOWAC)队列研究中嵌套在血液样本中,我们使用这些组件构建预测模型以满足案例-Control和转移状态。为了评估预测的质量,我们基于同时,对多源OMIC数据的同时,综合分析进行了比较模型,以对每个单个OMIC数据集的标准非集成分析,并罚金回归模型。此外,我们将提出的方法应用于来自癌症基因组地图集的乳腺癌数据集。

结果

我们的研究结果表明,与不基于这种区别的标准多组学分析相比,保留两种变异成分的综合分析更合适。联合和个体成分被证明有助于提高模型预测的质量,并有助于解释肺癌发展的潜在生物学过程。

结论

在存在多个OMICS数据源的情况下,我们建议使用数据集成技术,以保护跨越OMICS源的关节和各个组件的使用。我们展示了这些组件的纳入如何增加临床结果的模型预测质量。

背景

癌症研究受益于基因组数据,也被称为组学的可用性。组学数据的维数是非常高的,这表明的降维技术的应用。此外,组学是可用在多个源(或“块”)的数据,收集在相同的有机体或组织的,并在不同的平台测量。生物过程背后的关键全面了解依赖于能够从这样的多源数据产生的信息相结合的综合方法。为此,大量的多组学数据的同时分析统计方法最近被提出。这种方法多的评论是可用的,例如在[123.].

数据集成技术通常用于识别数据源对观测到的变化的“联合”(也称为“共同”或“共享”)贡献,以及它们对研究中的生物过程的同时影响。这种变异模式来自不同组学来源之间的相互作用,可能无法通过对每个单一来源的单独分析检测到。然而,不同的数据源不仅包含联合的信息,而且还包含独立的贡献。到目前为止,对每个数据源进行单独分析是组学研究中最常用的方法,而关于每个组学数据源的个人贡献的知识与对感兴趣的生物学过程的理解有关。因此,仅仅考虑联合模式也可能被证明是不够的,因为它忽视了单个数据源之间的异质性,以及来自潜在相关生物过程的单个信号。一个例子可以在收集DNA甲基化和基因表达数据的基因组研究中看到。众所周知,甲基化调节基因表达,这可能导致一个不可忽略的跨不同数据源的联合结构。例如,它们已被证明与肺癌的发生和特征共同相关[4.5.].另一方面,甲基化和基因表达也与这些临床结果相关,这些临床结果也通过对每个OMICS数据源特异的信号和彼此独立相关[6.7.8.9.].因此,有必要同时考虑关节和个体模式的降维方法。

最近提出解决此问题的几种方法是基于矩阵分解。在该框架中,每个数据块被分解成三个矩阵,建模不同类型的变化,特别是跨块的关节变化,每个数据块的单个变化,以及残差变化。一种这样的方法是jive。jive代表联合和个人方差解释,它由[10.]而且,还要感谢其在r中提供的实现[11.]已用于各种医学应用,包括癌症基因组数据的聚类[12.],多源OMICS数据[13.14.[成像和行为数据[15.].虽然JIVE成功地维护共同和单独的结构,它使用迭代算法是计算非常密集。在 [16.],基于角度的JIVE (aJIVE)就是为了改进这方面而制定的。它通过使用行空间的扰动来识别关节和个体的变化来计算矩阵分解,结果比原始JIVE的实现快得多。除了能够更快地实现算法外,aJIVE还提供了对分解的更直观的解释,特别是在单个组件之间高度相关的情况下[16.].

其他降维方法已被扩展到多源数据的情况下,如典型相关分析(canonical correlation analysis, CCA) [17.或者部分最小二乘(PLS)分析,其已经进一步推广到O2PLS [18.].允许存在多个数据源的类似方法是多个CCA [19.,但它主要关注组件之间的共同变化,而似乎忽略了数据源的个别贡献。一种基于因子分析的替代方法已在[20.[但提供多源OMIC数据的低维表示,尽管它不能在存在单个数据源的异构维度存在下检测各个组件。已经提出了识别两种变化的其他类似方法,例如迪斯科舞厅[21.]及OnPLS [22.]. 中提供了这些方法的说明以及与JIVE的比较[23.].

此外,基于主成分分析(PCA)的技术已经扩展到多源数据的情况下。例如,共识PCA [24.]由归一化连接数据的主成分分析和分布式主成分分析组成[25.]执行对各个数据源本地PCA,然后使用这些主成分以估计全球协方差结构。集成PCA(IPCA)是PCA的基于模型的概括时分解成方差关节和个体差异[26.].

在这项工作中,我们专注于肺癌发展的预测模型,使用来自不同来源的组学数据的联合和单独成分。我们展示了如何在预测模型中同时包含联合和个体成分,从而提高预测的质量。结合关节和个体成分也可以促进对潜在过程的生物学解释,尽管这仍然可能失败,因为降维本身承担着模糊一些相关信息的风险。

我们使用aJIVE在一个真实的肺癌数据集中构建综合预测模型,在三个组学数据来源中识别个体和联合成分。我们选择使用aJIVE是因为与其他方法相比,它继承了良好的子空间恢复[23.],以及对JIVE模型错误规范的鲁棒性,但它也解决了相关的单个子空间问题[16.],并提供了更快的实现。此外,[27.表明,与其他综合方法相比,aJIVE在一致性和无过拟合方面表现最好。我们使用aJIVE关节和个体成分来建立肺癌发展的预测模型。我们从预测质量的角度评价了所提出的模型的性能,并将它们与非综合基准方法以及标准的正则化变量选择技术进行了比较。此外,我们还展示了如何解开联合和个体来源的变异,从而识别生物机制,这将不会被特定来源的分析所强调。

我们使用的数据来源于挪威妇女与癌症(NOWAC)队列研究中的一项肺癌病例对照研究[28.].研究了在血液样本中分析的三种级别,特别是DNA甲基化,mRNA和miRNA表达的关联,并使用它们的关节和个别贡献来预测未来的癌症病例,以及作为转移或非转移或非的未来癌症的表征诊断中的转移性。我们表明两种类型的组件都包含揭示生物过程的特性的信息,并且使用关节和各个组件导致良好的模型预测,以便控制和转移状态。我们通过将基于关节和各个组件的模型与独特的临床,患者级协变量的模型进行比较来评估预测质量,并基于临床,患者级协变量,以及最重要的非融合模型,我。e。基于来自每个来源的数据的独立分析。

为了进一步评估这种方法,我们向来自癌症基因组Atlas(TCGA)的乳腺癌上的公共数据集提供申请。

方法

数据集成安装

在整个手稿中,我们将表示每个数据块\(\ varvec {x} _k \), 在哪里\(k =1, \ldots, k)K.是该研究中使用的数据源的数量。每个块都是一个矩阵N列,其中N为研究对象的数量。的K.th矩阵\(\ varvec {x} _k \)\ (p_k \)行,对应于数据源中的变量K..整体维度表示为\(p \,= \,p_1 + \ cdots + p_k \).我们要获得的低秩分解是:

$$\begin{aligned}\varvec{X}u 1&=\varvec{J}u 1+\varvec{I}u 1+\varvec{\epsilon}u 1\nonumber\\&\vdots\nonumber\\\varvec{X}K&=\varvec{J}K+\varvec{I}K+\varvec{\epsilon}\u K\end{aligned}$$
(1)

在哪里\ (\ varvec{我}_k \)是数据块的单个组件K.\(\ varvec {\ epsilon} _k \)是它的剩余部分和

varvec{J} = begin{bmatrix} \varvec{J}_1 \\ \ldots \\ ldots \\ varvec{J}_K \end{bmatrix} \end{aligned}$
(2)

是关节结构矩阵,每个结构矩阵\ (\ varvec {J} _k \)是联合结构的底层\(\ varvec {j} \)有关联\(\ varvec {x} _k \)

基于角的欺骗

基于角度的联合个体变异解释法(JIVE)是JIVE方法的一种变体,它基于行子空间的摄动。JIVE的目标是最小化残差的平方分量\(\ epsilon _1 \)、……\(\epsilon\u K\),使用迭代算法,可替换地通过估计奇异值分解(SVD)的共同和单独的组件。AJIVE建立在该方法中,但构造算法以更有效的和计算上可行的方法。所述aJIVE算法被构造在三个阶段:首先,每个数据块的低秩近似\(\ varvec {x} _k \)通过SVD获得。其次,通过计算堆叠的行基矩阵的SVD来提取所获得的低秩近似之间的关节结构。该算法的第二阶段基于主角分析的基本原理。最后,联合组件\ (\ varvec {J} _k \)通过将每个数据块投影到关节上获得,而单个组件\ (\ varvec{我}_k \)通过正式基础减法计算。

第一步基于每个数据块的初始等级的选择,其用作数据块的第一SVD分解中的阈值。这种选择是非常主观的,涉及在联合信号表示中考虑一些偏差方差折衷。虽然 [16.]提供如何确定初始职级的指引,建议的选择是基于对碎石图的观察,而这仍然是高度主观的。作为另一种选择,[29.]基于单个数据块的轮廓可能性,呈现初始等级的选择。

从aJIVE分解,有可能获得的原始功能的完整矩阵表示,以及每个数据源的特定块分解和共用归一化分数。该aJIVE实现可用Matlab[30.]及R.[31.].

应用到NOWAC数据

数据集

以下分析中使用的数据从嵌入挪威妇女和癌症研究中嵌套的肺癌病例对照研究中的血液样本(NOWAC)[28.].所有参与的研究对象都是在采血时未被诊断出癌症的女性(2003-2006)。从采血到癌症诊断的时间跨度为0.3 - 7.9年,中位时间为4.2年。该研究设计为嵌套病例对照研究,从NOWAC队列中的125名肺癌患者开始。按照发病率密度抽样方案,从癌症诊断时的风险组中随机选择每个病例的一个对照。自采血和出生年份以来,病例和对照组在时间上进行了匹配。所有参与者都给出了书面知情同意,该研究得到了医疗和健康研究伦理区域委员会和挪威数据监察局的批准。有三个层次的组学数据可用\(N = 230 \)个人(115个案例对照对),具有分别等于的变量数\ \ (p_1 = 485512)CpG甲基化,\ \ (p_2 = 11610)信使rna表达和\ \ (p_3 = 198)microrna的表达。还收集了所有参与者的个人协变量信息,包括年龄、身体质量指数(BMI)和吸烟习惯。感兴趣的结果是病例与对照的分类,以及诊断时癌症是转移性还是非转移性的特征。

过滤和预处理

DNA甲基化和mRNA表达的实验室处理和微阵列分析见[5.].对于miRNA,实验室处理包括miRNA分离和100μl的纯化\μ(\ \)l血浆使用Qiagen miRNeasy血清/血浆试剂盒。小RNA序列库准备使用NEXTflex小RNA-seq工具包v3(美国Bioo科学、奥斯汀、TX)和片段进行测序使用Illumina公司HiSeq4000 flowcell,根据制造商的说明(Illumina公司,Inc .,圣地亚哥,美国),在50个基点,从而导致大约每晚睡7 - 9 M读取样本。

甲基化数据的预处理和质量控制解释了低于检测阈值的缺失值和强度,包括背景减除和染料偏差校正[32.].对于mRNA数据,探针值进行背景校正,从Illumina报告的质量较差或在小于95%的样本中检测到的探针被过滤掉[5.].miRNA表达的滤波基于每百万计数,即miRNA的总读数除以样本的总读数,并乘以\(10 ^ 6 \),以及每百万计数少于一次的信号被排除在外。此外,超过5例患者的空读信号被排除。

由于计算要求高,我们将mRNA表达的数量减少到\(p_2 = 5000 \)通过用较高的方差选择的变量。然后,我们用最高的方差选择位于相同的基因作为过滤的mRNA的CpG的,以及10000点的CpG甲基化减少站点数量。在这些之中,我们排除与的CpG超过40%缺失数据,以及与极端M值的CpG(\(| m |> 3 \), 看 [33.34.])。这导致了\(P_1 = 26,706 \).全部\ \ (p_3 = 198)分析了可用的miRNA。已经考虑了其他可能的过滤标准,并在讨论中描述。我们使用MRNA和miRNA的LOG2转化表达,以及甲基化的M值[35.].我们通过使用来解释数据中的缺失值svdmiss.,如[10.].数据是含义的。由于Ajive对规模异质性的不敏感,因此在数据归一化阶段没有进行缩放。

aJIVE

我们在三级OMICS数据上进行了演习。通过最大化简档可能性来选择初始等级[29.]但还探讨了初始等级的不同选择,结果并未大幅度变化。

在预测模型中使用了联合分量和单个分量。关注的结果是肺癌的发生(是/否)和转移(是/否)。

除了年龄、BMI和吸烟,我们还使用关节和个体成分作为解释变量对每个结果进行了logistic模型拟合。将这些模型与仅以年龄、BMI和吸烟为协变量的模型进行AUC比较。为了评估模型的性能,我们在10倍交叉验证中测量了平均AUC。我们将这些与非整合分析进行了比较,非整合分析是通过对每个单一数据源分别执行PCA得到的。我们在每个数据源的第一个主成分(PCs)和相同的临床协变量上拟合了一个模型。根据第一个pc解释的方差和对剧本的分析,我们选择为每个数据源包括5台pc。我们在上述的综合模型中包含了相同数量的单个组件。

为了提供与标准监督预测方法的比较,我们运行了一个套索程序,可以选择来自所有三个OMIC层的信号,并用它来预测其两个兴趣结果。我们在2/3的数据点上使用了10倍的交叉验证,以选择最佳惩罚参数,并使用拟合的套索模型来预测壳体控制状态和转移。我们确保通过将相应的罚款参数固定为0,以便为年龄,BMI和吸烟状态将临床协变量纳入套索模型中。我们将模型预测的质量与此过程的50个重复的平均AUC进行了比较。

此外,我们使用了1000棵树的随机森林,在关节和个体成分的基础上预测病例与对照,以及上述患者协变量(年龄、BMI、吸烟)。我们从随机森林中提取出AUCs和OOB (out of the bag)分类误差,并根据基尼指数的平均下降程度对所有变量进行重要性排序[36.].

应用到TCGA数据

为了评估预测性能也在另一个数据集中,我们将应用于癌症基因组Atlas(TCGA研究网络)生成的数据子集(TCGA研究网络,https://www.cancer.gov/tcga),并用于mixOmics项目[37.].

379名患者包含记录,并包含2000个CPG,2000个mRNA和184 miRNA表达。我们使用Methyaltion,mRNA和miRNA表达数据来探索通过Agive的分享和数据特定组件。联合和个体贡献用于预测肿瘤亚型,特别是四水平分类为基础,HER2,叶乳腺癌。这些亚型的原始分类基于mRNA表达的水平[38.].我们基于关节和各个组件建立了预测模型,并将其与非综合模型进行了比较。e。基于来自每个来源的数据的独立分析。

结果

应用到NOWAC数据

aJIVE

使用具有轮廓似然方法获得的初始等级导致关节等级等于5,单个等级分别等于67,10和9.图1报告方差的比例解释是由于联合,个别和残差组成部分。

估计使用初始等级的不同选择解释的方差的比例稳定,并在附加文件中报告2

图。1
图1

NOWAC数据集中解释的联合和单独方差比例。单个组分在所有三个数据集中都很普遍,尤其是甲基化。关节成分与mRNA和miRNA相关

预测模型

数字2将样本中的ROC曲线报告相对于由Ajive估计的接头和各个组件安装的逻辑模型。仅报告了患者协变量(年龄,BMI和吸烟)作为解释性变量和完整的整合模型的模型。综合模型使用患者协变量,Ajive联合组件和每个数据源的前五个Ajive各个组件作为解释性变量。这些与非综合模型进行比较,除了同一协变量之外,使用针对每个数据集获得的前五个单独的PC。在两种结果的预测中,综合模型显示了最高的AUC,显示了两种组件的组合如何导致更好的模型预测。特别地,综合模型比基于源特定PC的非集成性分析更好地执行。另外,OMICS数据基本上贡献到预测,并且导致比单独的患者协变量相当更好地更好的预测质量。

图2
figure2

来自logistic预测模型的ROC曲线。一种报告病例与对照预测模型的ROC曲线及其auc,B.报告了转移状态预测模型的ROC曲线及其AUCs。整合模型拟合在从aJIVE中提取的关节和单个成分上,而非整合模型拟合在每个组学来源分别获得的第一个主成分上

相比于非整合分析时有10倍交叉验证来验证所述样品中-结果对于每个结果,并示出了相当大的改进的一体化aJIVE模型。在来自交叉验证的ROC研究的基础上,aJIVE组件的综合模型,从而提高两者的情况下,控制和转移状态的预测。为一体的车型平均的AUC是0.69和0.70,分别病例对照和转移状态。在非整合模式的平均AUC,基于单数据源的PCA和临床协变量,分别是0.65和0.63。在这两种结果的预测时,aJIVE综合模型进行比非综合分析更好。

为了比较,如上所述,我们还对这两种结果运行了lasso模型。在病例对照状态和转移状态下,通过套索程序获得的平均AUCs分别为0.69和0.61。

表格1报告随机森林的准确度和OOB分类误差,以及平均AUC。对于病例对照状态,与非综合模型相比,基于aJIVE的模型在准确性和AUC方面提高了预测质量。与具有交叉验证的logistic模型的差异可能是由于随机森林的不稳定性以及样本量有限。我们不报告转移的随机森林结果,因为它们非常不稳定,准确率非常低,很可能是因为样本量更有限,转移分类只有125例(仅例)。

表1 NOWAC数据集中壳体控制状态预测模型的随机林诊断

数字3.显示了在病例控制状态的综合模型中按变量重要性排列的前十个变量。在随机森林预测中,当对变量重要性进行排名时,前五个变量中出现了一个联合分量和三个独立分量。

图3.
图3

随机森林的可变重要性图在NOMAC数据集中的情况下对控制。在NOMAC数据集中的完整综合模型中,在IMAC数据集中的完整集成模型中排列的前十个变量\(\ texttt {关节} _i \)表示这一点一世-Th Argive的联合组件估计\ (\ texttt {MetInd} _i \)\(\ texttt {mrnaind} _i \)\(\ texttt {mirnaind} _i \)一世分别用aJIVE估计甲基化、mRNA和miRNA的个体成分

生物学解释

为了研究最具影响力的成分所显示的生物过程,我们从任意组学水平中提取了与随机森林识别的前十个变量有关的顶级遗传特征。对于随机森林识别的每个成分,我们研究了在aJIVE估计的负荷方面贡献最大的组学信号。在贡献最大的mrna中,有13种较早地在诊断后3年内采集的转移性病例的条件logistic回归分析中被识别出来,与对照组相比[39.].此外,在所有病例对照分析中,有11个基因与转移状态无关的顶级基因重叠。我们使用了Bioconductor包“clusterProfiler”[40]对这些基因的GO(BP)类别进行功能富集分析,并确定以下本体类别:炎症反应、肽分泌、先天免疫反应、DNA结合转录因子活性的正调控、蛋白质分泌、蛋白质定位到细胞外区域的建立。炎症反应是在[5.[禁烟相关的DNA甲基化和基因表达的禁烟相关综合分析。在具有最高贡献的miRNA中,80与案例与控制的分类显着相关,分别来自第三个单个组分的第一个单独的组件和44。使用Biocucontronducts包多Multimir和有验证的数据库[41.[36 miRNA鉴定了55,267 miRNA-Gene靶相互作用,对第一个单独的miRNA组分的贡献最高。在这些miRNA的已知基因靶标中,在mRNA中具有10(S100A12,MX2,EIF2AK2,TNFSF13B,FFAR2,IL1RN,TNFAIP6,CCR1,TNFAIP6,TLR5),其对Ajive mRNA组分的最高贡献(“MRNAIND3“)。相应地,在第三个单独的miRNA组分中鉴定了32,707个miRNA-靶相互作用。其中,三(IL1RN,FFAR2,EIF2AK2)是对Ajive mRNA组分的最高贡献的mRNA(“MRNAind3”)。

应用到TCGA数据

aJIVE

使用具有产生了一个联合秩轮廓可能性的方法获得的初始行列等于4,和个别等级等于2,6和11,分别用于甲基化的mRNA和miRNA。数字4.报告方差的比例解释是由于联合,个别和残差组成部分。联合分量解释了数据集中约30%的变化,而个体分量的贡献被限制在约25%,剩余分量的贡献很大。

图4.
装具

在TCGA数据集中解释的联合和个人比例。联合组件和单独组件都与三个数据集相关

预测模型

使用每个数据源的aJIVE关节分量和前五个aJIVE单独分量作为解释变量,拟合预测肿瘤亚型的综合模型。这与非综合模型进行了比较,分别使用为每个数据源获得的前五个单独的PC。使用多项式逻辑模型,四类为响应变量。

由结果进行了验证10倍交叉验证。多类的AUC为在样本肿瘤类型的分类,以及从交叉验证平均的AUC,报告在表2对于每个模型。包括个体和关节成分的综合模型显示出最好的预测质量。

表2在TCGA数据集中肿瘤亚型预测的样本和交叉验证的AUC

此外,我们使用1000棵树的随机森林在关节和个体成分的基础上预测肿瘤亚型,并再次将它们与非整合模型进行比较。表格3.报告随机林的准确性和OOB分类错误,以及平均AUC。综合模型在AUC方面比非综合模型更好地执行。在准确性和分类误差方面,综合模型和非综合模型是等效的。数字5.显示了在完整的整合模型中按变量重要性排列的前十个变量。最高的三个变量是联合成分,它们的重要性在平均基尼指数衡量远远高于其他变量的重要性。

图5.
figure5

TCGA数据集中随机森林对癌症亚型的变量重要性图。在TCGA数据集中的癌症子类型的完整综合模型中,第一个十个变量(以均值的GINI指数)在TCGA数据集中的癌症子类型的完整集成模型中排名。\(\ texttt {关节} _i \)表示这一点一世-Th Argive的联合组件估计\ (\ texttt {MetInd} _i \)\(\ texttt {mrnaind} _i \)\(\ texttt {mirnaind} _i \)一世分别用aJIVE估计甲基化、mRNA和miRNA的个体成分

表3 TCGA数据集中癌症亚型预测模型的随机森林诊断

讨论

预测结果

我们使用数据集成在肺癌研究中,多个组学数据源可识别这两个联合和个别组件。虽然每个数据源的个人贡献被称为是相关的,已被广泛研究在这一背景下,不同的数据源也有望与临床结果共同联营。我们展示如何,包括预测模型都共同和单独的部件提高了肺癌的发生预测的质量,以及它为转移性或非转移性癌症分类。相比于非整合模型,或者根据临床协变量模型时模型,包括两种类型的组件带来更好的预测。这种方法也被用来在数据从癌症基因组图谱(TCGA研究网络)提供一个乳腺癌研究,结果是类似的。

预测模型在10倍交叉验证框架下得到验证,并通过随机森林进一步验证。从交叉验证研究中,我们看到,对于病例对照状态,整合分析比非整合分析提供更好的预测。

作为额外的比较,我们使用监督变量选择并在三个OMIC层上拟合一个套索模型。虽然我们希望通过使用响应变量的信息在拟合模型本身的响应变量中的信息,但结果更好地预测,这里使用的Ajive模型类似地执行(对于案例与控制),并且基本上更好(用于转移)。

NOWAC数据集的预测模型也可能受到采血和癌症诊断之间的时间的影响,我们预计,在诊断时间较短的受试者中,预测的质量较高。我们根据诊断时间将病例分层为两个亚组(高于中位数时间vs低于中位数时间),在离诊断时间越近的受试者中,病例分类的样本内AUCs值比对照组高。对于转移的分类,两次诊断分类的样本量不足以得出结论。在对NOWAC数据集的应用中,有趣的是,观察到从aJIVE中识别出的一个基因组成分,特别是从甲基化数据中识别出的一个个体成分,在病例对照分类中的重要性高于吸烟(图)。3.),被众所周知的吸烟是肺癌的主要危险因素。

在TCGA的例子中,非整合模型的高预测质量可能来自于基于mRNA表达水平的亚型定义。non-integrative模型,信使rna主成分高度有助于预测质量从10倍的简历= 0.875(平均AUC non-integrative模型基于mRNA组件只能从10倍的简历和意味着AUC = 0.867 non-integrative模型基于这三个来源)。虽然我们在本例中使用了多类ROC曲线,但肿瘤分类的二分法分类可以为模型提供更深入的理解,也更容易与逻辑病例进行比较。

虽然这项工作提供了对OMICS来源的综合分析的重要性的初步证据,但对联合和个人组成部分的更彻底调查可以帮助识别未来研究的相关生物模式。涉及吸烟和肺癌的潜在生物过程可以给出一个例子:占据组件的常规信号可能是肺癌的重要危险因素,除了当前或过去吸烟的信息外,他们的互动可以脱灯论相关的基础生物过程。尽管对这种过程的功能解释和其与临床结果的联系并不简单,但是对Ajive组件的调查可以提供进一步的信息,不能通过单独的OMICS来源的非综合分析来识别。

变量筛选

可变滤波的所选择的方法基于MRNA的差异,以及基因组位置和甲基化方差。具体地,选择前5000个最可变的MRNA,然后基于它们在基因上的位置选择CPG,包括位于与过滤的MRNA相同的基因上的CPG。除此之外,还包含顶级10,000个最可变的CPG。我们期望选择相同基因位置的信号,因此自然相关,将导致非常相关的联合贡献,并且可能会模糊与甲基化相关的个体组分。独立于他们的基因位置纳入最可变的CPG,解决了这个问题。改变基于其方差和基因位置选择的CPG的比例可以引起不同的关节和个别贡献,并且需要在解释结果中得到充分考虑的这一方面。在补充材料中(附加文件2),我们通过基于其基因位置的基础选择CPG,特别选择CPG,而是通过仅包括最多可变的CPG,而无论其位置,只能在其基础上唯一地选择CPG。mRNA的滤波是基于对流转换信号的方差。虽然此过程通常可能导致选择具有最低强度的信号,但这似乎对我们的示例中的结果没有任何影响。MRNA的过滤标准的不同选择可以是跨越范围(IQR),或与感兴趣的临床结果的关联,由适当的回归模型估计,并将产生不同的分解结果。最后,需要考虑miRNA的过滤,其中限制性标准可能导致不同关节和各个组件的估计。可以在该阶段进行其他选择,例如在每个数据源上独立地应用方差标准,其可以产生不同的关节和各个组件。我们在预处理和过滤数据中进行的另一种选择是使用M值进行甲基化。这种选择是激励的[35.].

方法考虑因素

aJIVE的主要问题之一是初始级别的选择。在aJIVE中,选择初始等级最常用的方法是将情节可视化,这是一种主观性很强的方法,对数据中的噪声非常敏感。由[29.)部分解决了这个问题,但它仍然缺乏客观性和自动化。然而,正确的排名选择是aJIVE的基础,排名的不规范可能导致不正确的结果[16.].

数据的高维性能激励使用稀疏方法,这减少了模型中包含的变量的数量,并提供更容易对结果的解释。通过在分解中引入分解中的惩罚术语来诱导可变稀疏性的惩罚项,可以使用稀疏版本的Ajive方法。这尚未为Agive专门实施,但[10.]讨论并提供稀疏版本的Jive方法的实现。

最后,在Ajive中未占的一个方面是存在部分共享的组件。当只有三个数据源中的两个仅共享联合组件时,它们将不会被Agive识别。这是大多数数据集成方法的限制,我们预期部分共享组件导致更好的预测模型。调查局部共享模式的方法是在幻灯片方法中提供[42.],并且在这个方向上进一步工作的潜在起点。

结论

我们的研究表明,综合模型如何包括多个数据集的联合和各个贡献导致更准确的模型预测,并促进潜在的生物过程的解释。我们使用DNA甲基化,miRNA和mRNA表达的关节和个体贡献,以预测肺癌病例对照研究中的癌症发育,以及来自癌症基因组地图集的数据集中的乳腺癌亚型。我们表明,使用关节和各个组件会导致更好的预测模型,并更深入地了解手头的生物过程。

数据和材料的可用性

统计分析的代码可在https://github.com/ericaponzi..由于地方和国家的道德和安全政策,数据不能公开共享。数据访问的人员将在条件下坚持挪威妇女和癌症的数据访问程序队列和外的——北极挪威大学(接触通过Tonje Braaten tonje.braaten@uit.no和阿恩·巴斯蒂安·Wiik arne.b.wiik@uit.no)除了一个当地伦理委员会的批准。

参考文献

  1. 1。

    Tseng G,Ghosh D,周XJ。集成OMICS数据。剑桥:剑桥大学出版社;2015年。

    谷歌学术

  2. 2。

    黄S,Chaudhary K,Garmire LX。更好的是:多OMICS数据集成方法的最新进展。前群体。2017; 8:84。https://doi.org/10.3389/fgene.2017.00084

    CAS文章PubMed.pmed中央谷歌学术

  3. 3.

    多组和多视图聚类算法:综述与癌症基准。核酸学报2018;42:10546-62。

    文章谷歌学术

  4. 4。

    海勒G,而温齐尔M,诺尔C,巴宾斯基V,齐格勒B, Altenberger C, Minichsdorfer C朗G,圆顶B, End-Pfutzenreuter A是B M,笑容Y, Klepetko W, Zielinski CC, Zochbauer-Muller美国全基因组microrna的表达分析识别mir-9-3和mir - 193 A目标DNA甲基化在非小细胞肺癌。临床肿瘤杂志2012;18(6):1619-29。https://doi.org/10.1158/1078-0432.CCR-11-2450

    CAS文章PubMed.谷歌学术

  5. 5.

    Sandanger TM, Haugdahl Nøst T, Guida F, Rylander C, Campanella G, Muller DC, van Dongen J, Boomsma DI, Johansson M, Vineis P, Vermeulen R, Lund E, Chadeau-Hyam M.挪威妇女和癌症队列肺癌诊断前血液中的DNA甲基化和相关基因表达。Sci众议员2018;8:16714。

    文章谷歌学术

  6. 6.

    Yanaihara N, Caplen N, Bowman E, Seike M, Kumamoto K, Yi M, Stephens RM, Okamoto A, Yokota J, Tanaka T, Calin GA, Liu C-G, Croce CM, Harris CC.独特的microRNA分子谱在肺癌诊断和预后中的作用。癌细胞。2006;9(3):189 - 98。https://doi.org/10.1016/j.cr2006.01.025

    CAS文章PubMed.谷歌学术

  7. 7.

    关键词:肺腺癌,基因表达,吸烟者,非吸烟者肿瘤防治杂志。2015;10:1350 - 70。

    CAS文章谷歌学术

  8. 8.

    张Y,百年灵LP,Balavarca Y,Holleczek B,Schöttkerb,Brenner H.血液DNA甲基化在吸烟相关基因和肺癌相关基因中的预测中的血液DNA甲基化的比较。int j癌症。2016; 139(11):2482-92。https://doi.org/10.1002/ijc.30374

    CAS文章PubMed.谷歌学术

  9. 9。

    Baglietto L,Ponzi E,Haycock P,Hodge A,Assumma MB,Jung Ch,Chung J,Fasanelli F,Guida F,Campanella G,Chadeau-Hyam M,Grankvist K,Johansson M,Ala U,Provero P,Wong Em,Joo J,英语博士,Kazmi N,Lund E,Faltus C,Kaaks R,Risch A,Bardahl M,Sandanger TM,Southey MC,Giles Gg,Johansson M,Vineis P,Polidoro S,Relton Cl,Severi G. DNA甲基在诊断前外周血样品中测量的变化与吸烟和肺癌风险有关。int j癌症。2017; 140:50-61。

    CAS文章谷歌学术

  10. 10.

    锁定ef,hadley ka,Marron Js,诺贝尔AB。联合和个人变体解释(Jive),用于对多种数据类型的综合分析。Ann appl stat。2013; 7:523-42。

    文章谷歌学术

  11. 11.

    o'connell mj,锁ef。探索多源分子数据的探讨。生物信息学。2016; 32(18):2877-9。https://doi.org/10.1093/bioinformatics/btw324

    CAS文章PubMed.pmed中央谷歌学术

  12. 12.

    Hellton Kh,Thoresen M.带有关节和单个簇的高维数据综合聚类。生物统计学。2016; 17(3):537-48。https://doi.org/10.1093/biostatistics/kxw005.

    文章PubMed.谷歌学术

  13. 13。

    Kuligowski J,Perez-Guaita D,Sanchez-Illana A,Leon-Gonzalez Z,De La Guardia M,Vento M,Lock EF,Quintas G.使用关节和各个变体进行多源代谢组数据的分析(Jive)。分析师。2015; 13:4521-9。

    文章谷歌学术

  14. 14。

    Kaplan A,锁定EF。患者存活的多种分子数据源的尺寸降低预测。癌症通知。2017; 16:1-11。

    文章谷歌学术

  15. 15。

    俞Q,风险BB,张克,马隆JS。jive成像和行为数据的整合。神经镜。2017; 152:38-49。https://doi.org/10.1016/j.neuroimage.2017.02.072

    文章PubMed.谷歌学术

  16. 16

    冯强,姜敏,韩宁,马伦。解释了基于角度的关节和个体变异。J Multivariate Anal. 2018; 166:241-65。https://doi.org/10.1016/j.jmva.2018.03.008

    文章谷歌学术

  17. 17

    两套个变量之间霍特林H.关系。Biometrika。1936; 28:321-77。

    文章谷歌学术

  18. 18

    2 .基于最小二乘回归(LVR)的二阶隐变量回归(LVR)方法。J Chemom。2003;17:53 - 64。

    CAS文章谷歌学术

  19. 19。

    Witten D,Tibshirani R.稀疏规范相关分析与基因组数据的延伸。统计申请苹果蛋白酶生物乳头Biol。2009; 8:28。

    文章谷歌学术

  20. 20.

    Argelaguet R,Velten B,Arnol D,Dietrich S,Zenz T,Marioni Jc,Buettner F,Huber W,Stegle O.多OMICS因子分析 - 用于多OMICS数据集无监督集成的框架。MOL SYST BIOL。2018; 14:8124。

    文章谷歌学术

  21. 21.

    Schouteden M,Van Deun TF,Wilderjans TF,Van Mechelen I.执行Disco-SCA,以搜索链接数据中的独特和公共信息。行为方法。2013; 46:576-87。

    谷歌学术

  22. 22.

    Lofsted T,Hoffman D,Trygg J.全球,局部和独特的ONPLS中的分解,用于多块数据分析。肛门chimacta。2012; 791:13-24。

    文章谷歌学术

  23. 23。

    Mågei,smilde ak,van der kloet fm。分离多个数据块中常见和不同变化的方法的性能。J Chemom。2019; 33:3085。

    文章谷歌学术

  24. 24。

    Westerhuis JA, Kourti T, MacGregor JF。分析多块和层次PCA和PLS模型。J Chemom。1998;12:301-21。

    CAS文章谷歌学术

  25. 25。

    范军,王德强,王凯。主特征空间的分布估计。安Stat。2019;47:3009-31。

    PubMed.pmed中央谷歌学术

  26. 26。

    Tang T.M.,Allen G.I.:综合主成分分析(2018年)。arXiv: 1810.00832

  27. 27。

    多组学方法对实验数据的一致性和过拟合。简报Bioinf。2020;21:1277 - 84。

    CAS文章谷歌学术

  28. 28

    Lund E, Dumeaux V, Braaten T, Hjartåker A, Engeset D, Skeie G, Kumle M.队列概况:挪威妇女与癌症研究:NOWAC-kvinner og kreft。国际流行病学杂志2008;37:36-41。

    文章谷歌学术

  29. 29

    Zhu M,Ghodsi A.通过使用简档可能性从SCEE剧情中选择自动维度。计算统计数据肛门。2006; 51:918-30。

    文章谷歌学术

  30. 30.

    Jiang M. AJIVE项目(2018)。https://github.com/MeileiJiang/AJIVE_Project

  31. 31.

    基于角度的关节和个体变异的解释。2019.https://github.com/idc9/r_jive.

  32. 32.

    Guida F,Sanganger TM,Castagne R,Campanella G,Polidoro S,Palli D,Krogh V,Tumino R,Sacerdote C,Panico S,Severi G,Kyrtopoulos SA,Georgiadis P,vergeulen Rch,Lund E,Vineis P,Chadeau-海洋M.吸烟诱导的基因组甲基化的动态随着吸烟停止的时间而变化。哼唱mol tenet。2015; 24:2349-59。

    CAS文章谷歌学术

  33. 33.

    张震,刘军,Kaur M, Krantz ID。淋巴母细胞系中DNA甲基化的特征及其与其他生物系统的关联。基因组学。2012;99(4):209 - 19所示。https://doi.org/10.1016/j.ygeno.2012.01.002

    CAS文章PubMed.谷歌学术

  34. 34.

    马B、威尔克·EH、威利斯·欧文凹陷、宾H-M、王KCC、莫塔V、巴卡雷利AA、施瓦茨J、库克森·沃姆、卡巴兹K、米特尔曼·马、莫法特MF、梁L。预测人类组织中的DNA甲基化水平。《核酸研究》,2014年;42(6):3515–28.https://doi.org/10.1093/nar/gkt1380

    CAS文章PubMed.pmed中央谷歌学术

  35. 35。

    杜鹏,张旭,黄春春,贾法里N,基贝瓦,侯磊,林思敏。微阵列分析中甲基化水平定量的beta值和m值方法的比较。BMC Bioinf。2010;11:587。

    CAS文章谷歌学术

  36. 36。

    蒋锐,唐伟,吴晓霞,文慧。基于随机森林的病例对照研究中上位性相互作用的检测方法。BMC Bioinf。2009;10:65。

    文章谷歌学术

  37. 37。

    罗哈特F、戈蒂埃B、辛格A、勒曹卡。mixOmics:用于omics功能选择和多数据集成的R包。计算机生物学。2017;13(11):1005752.

    文章谷歌学术

  38. 38。

    Sørlie T,Perou CM,Tibshirani R,Aas T,Geisler S,Johnsen H,Hastine T,Eisen MB,van de Rijn M,Jeffrey SS,Thorsen T,Quist H,Matese JC,Brown PO,Botstein PE,Lønning D,Børesen Dale AL.乳腺癌的基因表达模式区分了具有临床意义的肿瘤亚类。自然科学进展。2001;98(19):10869–74.

    文章谷歌学术

  39. 39。

    NøstT.H.,Holden M.,DønnemT.,Bøvelstadhm.,Rylander C.,Lund E.,Sandanger T .:在肺癌之前的血液中的转录组信号,重点关注诊断和转移。在提交时(2020)

  40. 40.

    俞g,王lg,汉y,qya。ClusterProfiler:用于比较基因集群中的生物主题的R包。OMICS:J Intent Biol。2012; 16:284-7。

    CAS文章谷歌学术

  41. 41.

    Ru Y,Kechris Kj,Tabakoff B,Hoffman P,Radcliffe Ra,Bowler R,Mahafeey S,Rossi S,Calin Ga,Bemis L,Theodorescu da。Multimir R包和数据库:将MicroRNA-Target相互作用与其疾病和药物协会的整合。核酸RES。2014; 42:133。

    文章谷歌学术

  42. 42.

    加亚纳诺瓦一世,李G。多视图数据的结构学习和集成分解。生物特征。2019;75:1121–32.

    文章谷歌学术

下载参考

致谢

MiRNA和mRNA分析由基因组学核心设施(GCF),挪威理工大学(NTNU)提供。GCF由NTNU和挪威中部地区卫生当局的医学和健康科学学士资助。

资金

挪威研究理事会-赠款号248804:更好地利用生物库和卫生登记数据的国家培训倡议。挪威研究委员会- frimedbio批准号262111:利用临床诊断前血液中的基因表达、DNA甲基化和microRNAs识别转移性肺癌的生物标志物(Id-Lung)。

作者信息

从属关系

作者

贡献

KM,MT和EP设想的研究思路。EP进行了统计分析。THN负责数据的采集和结果的生物学解释。EP,KM和MT写的手稿,从THN投入。所有作者给予最终批准。

相应的作者

对应于erica ponzi.

伦理宣言

伦理批准和同意参与

所有参与者都给出了书面知情同意书,该研究得到了医疗卫生研究伦理区域委员会和挪威数据检查局的批准。更多信息可在[28.].

同意出版物

不适用。

利益争夺

作者声明他们没有相互竞争的利益。

额外的信息

出版说明

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1

.NOWAC数据集上的不同过滤方法。

附加文件2

.初始秩对方差比例的影响被解释。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Ponzi,E.,Thoresen,M.,Haugdahlnøst,T.et al。血液样本分析的一体化,多OMIC,改善了模型预测:对癌症的应用。欧宝娱乐合法吗22日,395(2021)。https://doi.org/10.1186/s12859-021-04296-0.

下载引用

关键字

  • 数据集成
  • 降维
  • 解释了联合和个体方差
  • Multi-omics
  • 预测模型