跳过主要内容

一个统一的框架,用于集成来自多源数据的多级集群或网络

抽象的

背景

在计算生物学中,整合不同来源的数据是一个反复出现的问题。人们在集成相同类型的数据集(通常是多个数字数据表)上投入了大量的精力。然而,数据类型通常是异构的:通常以树、网络或阶乘图的形式收集数据,因为这些表示都具有吸引人的视觉解释,有助于研究分组模式和实体之间的交互。在本文中,我们要回答的问题是这些表示的积分问题。

结果

为此,我们提供了一种简单的过程,可以将数据与各种类型,特定树木或网络的数据进行比较,这些数据基本上依赖于两个步骤:第一步将表示表示到公共坐标系;然后,第二步使用多表集成方法来比较投影数据。我们依赖于每个步骤的高效且众所周知的方法:通过针对每个表示形式检索距离矩阵来实现投影步骤,然后施加多维缩放以提供来自所有成对距离的新组坐标。然后通过将多因素分析应用于新坐标的多个表来实现积分步骤。此过程提供用于集成和比较可用数据的工具,例如为树或网络结构。我们的方法与内核方法互补,传统上用于回答同样的问题。

结论

我们的方法在模拟中进行评估,并用于分析两个真实世界的数据集:首先,我们比较了从小鼠胚胎中转录组学单细胞数据集获得的不同细胞类型的几个聚类;其次,我们使用我们的程序来聚合来自TCGA乳腺癌数据库的多表数据集,以便比较针对不同乳腺癌亚型推断的几种蛋白质网络。

背景

在计算生物学中整合数据时,我们经常遇到比较不同类型数据、不同表现形式的结果的问题[123.].这些表示可能来自于学习算法(例如降维、层次聚类或网络推理),也可能是从数据库中提取出来的,反映了我们对复杂生物过程的知识。

举个简单的例子,在基因组学中,通过转录组学、蛋白质组学或宏基因组学实验,可以获得多个层次的个体聚类,产生几个树状的表征,需要进行比较并最终聚合。这样的分析对于更好地理解数据和从相干树中获得一致聚类是必要的。

的组学数据集成方法的综述里奇等人提供。[4]以预测的角度来看,这也适用于群集等探索性和无人监督的问题。在 [4],数据集成方法分为三类:基于级联的集成、基于转换的集成和基于模型的集成。对于后两类,不同的组学和不同类型的对象在理论上可以整合在一起。然而,大多数为此目的开发并在[4在实践中涉及到类似的对象进行集成。

其中,大多数人认为可以获得原始的数据表,即具有观察和特征的表形式的数据,并从中衍生出对象,但在现实中并非总是如此。

对于以树或网络的形式提供的对象,文献更加具体,分别对待比较这些对象或从它们的集合中创造共识的问题。详细检讨载于[5],这通常涉及用邻接矩阵表示这些网络或使用图嵌入方法[6].一组树木的比较通常依赖于树木之间的距离,例如使用罗宾逊 - 福尔姆斯公制[78在系统发育学中。在对象比较之后,从一组对象中创建共识是集成过程中自然的下一步,因此它是数据集成研究领域中反复出现的问题。

我们在本文中介绍的程序同时回答了比较和集成问题,并且可以应用于比只是树或网络结构更广泛的数据表示。简而言之,本文的贡献是统一和简单的方式,可以比较和集成具有各种表示形式的数据(如树木,网络或因子地图)。它依赖于哲学的两步策略接近无监督的多个内核:第一步包括找到将所有这些对象投影到可比坐标系中的方法。

这导致了新的数据表集合,在第二步中通过任何多表集成方法分析这些数据表。我们方法的特殊性在于结合多维尺度(MDS) [910]及多因素分析[111213]来执行这两个步骤:MDS允许我们从距离或不同处计算坐标,从树、网络或阶乘图中获得。然后,MFA提供了一个规范的框架来执行多表分析,带来了强大的工具来研究数据表之间的关系,并量化它们之间的相似性和差异。事实上,我们的过程适合多个内核方法框架[21415].我们在这里定义一个过程,在这个过程中,集成过程的一切都是自动化的,因为用户几乎没有参数需要定义。

在我们给予一组树木或网络的情况下,我们的程序特别有用,或者我们想要比较的任何对象集,而没有原始数据。例如,蛋白质 - 蛋白质相互作用或生态网络的网络可在数据库上使用,而无需任何构建的数据指示[161718].这也可以是比较不同的方式来转换数据是有用的,例如使用不同的距离或聚集标准打造的树木。

本文的其余部分组织如下:首先,我们提供有关该方法的详细信息。然后在模拟数据上评估其性能,并与多个内核积分方法进行比较,并且分析了两个实际数据集:第一个是单个小区数据集,说明鼠标中不同小区类型的群集的比较胚胎。第二个是从TCGA乳腺癌数据库组合的 - 用于比较几种PPI网络,并聚集不同的乳腺癌亚型。

方法

为了比较和聚合树或网络,在多源数据分析的背景下,我们采用图中所示的一般两步方法。1,可以总结如下:

  1. 1

    投影。这一步骤旨在投影数据表的形式不可用的每个数据来源,即在具有观察和特征的形式中进入欧几里德空间。这实现如下:

    1. (一种)

      表示距离或异构矩阵形式的数据表以外的所有数据源。

    2. (b)

      把这些距离放在同一个坐标系中。

  2. 2

    一体化。在此步骤中,所有可用的数据表都集成在一起。

    1. (一种)

      这种集成是通过多表方法实现的,例如MFA,多重共惯性分析[19],Statis [20.21],多嵌段PLS [22)……,看(23]的最新综述多表集成方法。

    2. (b)

      使用阶乘表示比较预测数据并形成共识。

步骤1通过检索距离矩阵特定要么树木或网络(见下面详细说明),然后应用多维尺度(MDS),其提供一组新的来自所有这些成对距离的坐标来完成。这些新的坐标可以被解释的方式相同原始多源数据和可用于这样的数据集的分析的所有方法可以用于第2步(整合)。我们选择多因素分析(MFA),这使我们可以定位一个阶乘地图上的不同的对象。这两种方法都需要以选择轴保留的数量。

图。1
图1

过程的工作流描述

可以使用两个步骤集成可以集成以不同矩阵形式总结的对象。我们想指出任何数据,分类或定量(原始数据,因子地图,临床结果......),只要它在同一个人上计算,可以集成在第二步中。

这提供了一些工具,用于识别在各种情况下具有相似模式的对象,将它们定位到地图上,并创建一组有趣的对象,以便将它们聚集在一起。一旦形成对象组,MFA轴允许在个体级别创建进一步的分析,例如共识层次聚类。

多维标度

这里我们将参考经典的多维尺度(MDS),由[9].该方法的目标是找到坐标X数据的给定的一个相异矩阵\(\三角洲\)个人之间。

考虑一个不同的矩阵\(\三角洲\),\δ2 ^ (\ \)平方系数的矩阵\(\三角洲\),双重矩阵定义为\(B = - frac{1}{2}J\Delta ^2J\), 在哪里\(j = i - \ frac {1} {n} {\ mathbbm {1}} {\ mathbbm {1}} ^ t \)为定心矩阵。经典的缩放[1024使压力最小化:\(\左\ vert xx ^ t - b \ rectle \ vert ^ 2 \)在哪里X就是我们要找的坐标。可以证明解决方案(X = Q_{+}\Lambda _{+}^{1/2}\)\(\ lambda _ {+})是具有非负非零特征值的对角矩阵B,\ (Q_ {+} \)对应的特征向量。如果\(\三角洲\)是欧几里得距离矩阵,其中根据[2526]相当于\( - \ frac {1} {2} j \ delta ^ 2j \)是正半定的,MDS坐标X原始坐标是否达到了旋转和平移X不是以列为中心的(因此相当于主成分分析)。在欧几里得不相似矩阵的情况下,MDS也等价于kernel-PCA [2728].的确,B是正定矩阵,因此是核。

MDS的几种变体用于处理非正半定矩阵,如Cailliez '方法[29,即在对角线外的元素上加上一个正常数,使矩阵正定。[30.]提出了一种类似的方法,即在不相似度的平方上加一个常数,并将其平方根作为修正距离。当不相似不是由距离函数(度量)产生时,非度量MDS的解也可用[3132].在我们所有的应用中,我们选择只取正的特征值B在需要的时候。

我们的过程产生了(X = Q_{+}\Lambda _{+}^{1/2}\)矩阵,并将它们传递给第二步,即多因素分析(Multiple Factor Analysis),以及其他可用的数据表。

多因素分析

多因素分析(MFA)是共同分析几种可能的异构数据集的方法[1112].让\(X_1, ldots, X_Q\)数据表可以是定量的数据,也可以是定性的数据\(p_1,\ ldots,p_q \)观察到的特征n个人。在本文的背景下,一些即使不是全部的\(X_Q \)通过该过程的第一步提供:MDS。

MFA的原理是将每个数据表除以其第一奇异值,以确保第一轴中的数据集的贡献相等。然后将数据表连接,并且对串联进行PCA\(X_1, ldots, X_Q\)每个都除以其第一奇异值。这个步骤被称为全球PCA [12].下面我们将其称为gPCA。

在欧几里德距离的情况下,MFA的第一步骤是多余的与MDS和独特的MFA可以在双中心距离矩阵来执行B作为输入。正如在这种情况下B是一个核矩阵,使用MFA对一组B给定核主成分分析(kernel-PCA)和MDS的等价性,矩阵也可以看作核主成分分析(kernel-MFA)。MDS和MFA的结合可以看作是MFA对非欧几里得异同点的扩展。

使用MFA集成数据的一个巨大优势是,它提供了几个分数来比较不同的表,以及轴坐标,允许在阶乘地图上可视化功能、个体和表。在本研究中,我们将特别使用从MFA分析中获得的群体坐标。

组坐标

数据集\(X_1, ldots, X_Q\)可以使用它们对GPCA的贡献来定位在每个组件上。让\(\ tilde {x} \)是…的连接\(X_1, ldots, X_Q\)每个都除以其第一奇异值。GPCA分解\(\ tilde {x} \)用奇异值分解成\ (U \λV ^ T \), 在哪里V为载荷矩阵。可以将加载分解为子集\(V = [V _ {(1)},\ ldots,V _ {(Q)}] \)由每个表中变量的数量分隔。与\(\λ_ \魔法\)\(\ ell \)th的条目\λ(\ \),表的坐标\(X_Q \)沿轴\(\ ell \)是由的

$ $ \开始{对齐}{\文本{coord}} _ {q \魔法}= \λ_ \魔法\乘以\总和_ {j = 1} ^ {p_q} V_ {(q) \ \ l形的,j} ^ 2 = \λ_ \魔法\ *{\文本{ctrb}} _ {q \魔法},\{对齐}$ $
(1)

\(p_q \)为表变量的数量\(X_Q \),\({\ text {ctrb}} _ {q,\ ell} \)表的贡献在维\(\ ell \)的GPCA。

使用这些组坐标,我们建议创建表的集群。在下面,我们使用层次聚类,但任何聚类方法都可以考虑。然后根据它们的相似性收集表格,并可以在组内一起分析。

从MFA结果创建达成共识

在本节中,我们将详细介绍如何从MFA结果中构建共识树和网络,因为这里选择的是多表分析。如前所述,还可以使用其他多表方法。

要在给出MFA结果的情况下计算共识分层群集,我们将引用组坐标上的群集。让\({\ mathcal {t}} _ 1,\ ldots,{\ mathcal {t}} _ {k_1} \)是一组如前所述定义的树木。在这些树上施加了同样的棉癌距离,MDS和MFA。然后通过在由MFA获得的各个坐标上执行分层聚类(或任何其他群集方法)来获得共识群集。

When creating a network consensus, once the groups of networks are formed using the group coordinates of the MFA, a consensus network is created by using a majority rule consensus on the original adjacency matrices, i.e. an edge is kept if it is present in more than half of the networks in the identified groups.

树木和网络的共同表示

本节详细介绍了上述方法中使用的不同成分:我们解释了在专注于网络或树结构时如何检索距离矩阵,尽管可以在我们的过程中使用任何可以由距离或异构矩阵表示的任何对象。

从树检索距离矩阵

考虑使用任何分层群集获得的分层树(它可以是非二进制树)。回想一叶之间的两片叶子之间的骨肉距离是两个叶子或其簇合并的高度。然后可以使用COPHENETIC距离通过对称矩阵来汇总分层树[33].在MDS的背景下,最好使用欧几里德距离来避免计算坐标时的数值问题。它显示在[34从超空地提取的距离总是可以被视为欧几里德距离。基于距离和聚合标准构建的所有分层集群是超微的树木,因此将MDS施加到CopHenetic矩阵中不需要在该特定情况下进一步转换矩阵。

从网络检索距离矩阵

考虑一个无向二进制图:我们建议在应用MDS之前,利用所有节点对之间的最短路径距离,从这个图构建一个距离矩阵。最短路径距离定义为从一个节点到另一个节点所经过的最小边数。两个不连通节点之间的最短路径距离一般设为无穷大。这种方法也可以应用于权值为正的加权图,其中路径的代价被理解为沿路径边缘的权值之和。

结果

在本节中,我们描述了在模拟数据上获得的结果,以便评估所提出的方法的性能以及两个真实数据集。分析进行了分析R4.0.2 [35].所有代码和数据都可用https://github.com/AudreH/intTreeNet

使用欧几里德距离和病房的聚合标准执行分层群集,如“Ward.D2”选项所实施的钢筋R函数(36].所有的树都是用CopHenetic.基础功能。使用cmdscale.,获得了MDS方法的新数据坐标。使用来自的MFA函数来执行MFA原因包(37].为了评估聚类之间的差异,我们使用兰德调整指数(ARI) (3839)从aricode.R-包裹 [40],衡量两个分类之间的协议。要确定分层群集中的组,我们将使用DynamicTreecut方法如下所示R- 同名的包装[41].此方法根据树的结构和用于构建树的距离矩阵来识别组。在图形应用程序中,使用最短路径距离使用距离的函数igraphR-包裹 [42]和默认参数。

我们将我们的过程的结果与结合核的结果进行了比较。当需要时,距离或不相似矩阵\(\三角洲\)使用双重定性公式转变为相似之处:\(B = - frac{1}{2}J\Delta ^2J\).以确保矩阵B可以被认为是内核,只使用正的特征值来重建它。对于逆变换,来自相似性(内核)矩阵年代对于距离/不相似性,我们使用以下公式:\(\ forall(i,i'),〜\ delta _ {ii'} = \ sqrt {s_ {si} + s_ {i'i'} -2s_ {ii'}} \)

为了比较它们之间的核,我们使用相似系数计算为核矩阵之间Frobenius范数的余弦,如[2].然后将这些系数的矩阵转化为不相似度,利用完全链接进行层次聚类。

我们使用mixKernelsR-包裹 [2]选项“full umkl”(完全无监督多核学习)和默认参数,以便在识别内核集群后找到一致的内核。

聚类情况下的仿真研究

在这一组模拟中,\(Q = 9 \)表与\(p = 1000 \)变量和\ \ (n = 100)根据三种不同的分类模式生成个体\(k = 4,3 \)和5组的每个图案,分别。分类的选择模式有很大的不同,用ARI接近0在它们之间。观察j对个人的表什么时候在集团k服从高斯分布,即,

$ $ \开始{对齐}我\ \ {1 \ ldots n \}, \,\,\, j \ \ {1 \ ldots p \}, \,\,\, k \ \ {1 \ ldots K_q \} , \,\, 问\ \ {1 \ ldots问\}\ nonumber \ \ &我\ \ qquad k , \,\,\,\, Y_ {i, j} ^ q = {\ mathcal {N}}(\μ_k问^ 2)\{对齐}$ $
(2)

根据方程式产生每个观察。(2),均值取决于个人的组和根据表编号的方差。从这些表格建造了总共有9棵树,并在每个核对距离矩阵上进行MDS。

数字2给出了在树的坐标和数据集的阶乘图上得到的层次聚类。在分层聚类中,具有相同分类的表被分组在一起,以及在MFA的前两个轴上。第一个轴将第一个分类表与其他分类表区分开来,第二个轴将第3分类表与其他分类表区分开来。这些在组坐标上的观察结果在分层聚类中是可见的,因为元素之间的划分水平反映了发现分离的轴(例如树的第三部分将树6从其组中分离出来,在MFA的3轴上发现)。

图2
图2.

结果为分层聚类数据的仿真研究。3分类\(k = 4,3 \)分别模拟了5组的次数。2一个)表示用MFA组坐标得到的层次聚类,用欧氏距离和ward进行。D2聚合的标准。(B)表示轴1向MFA 5的阶乘地图,这些组座标用于计算在分级聚类(一个

在组坐标上执行的层次聚类和由DynamicTreeCut生成的表的分类可以帮助识别在底层信息方面接近的树。我们使用DynamicTreeCut确定的三组树就是我们模拟的三组表。

在计算共识树之前,这种方法允许可视化和比较不同的群集。在此示例中,尝试聚合所有树的结构是没有意义的,因为它们具有非常不同的结构,因为用于生成数据的分类之间的ARI接近0,如上所述。

共识树可以通过对MFA坐标轴的单个坐标执行分层聚类来获得(参见附加文件)1).根据识别出的数据子组,三棵共识树的结果如图所示。3..正如预期的那样,在一组表中,我们检索原始分类,并没有找到有关其他分类的任何信息。另一方面,在用所有表获得的共识树中,没有恢复模拟分类模式,最大ARI为0.51,如表所示1

图3.
图3.

结果为分层聚类数据的仿真研究。在4个配置上获得一致树,用彩色条表示模拟分类

表格1分层聚类仿真研究的结果

与内核组合方法进行比较

我们利用双定心公式将表观距离转化为相似性。这些新矩阵被认为是核,因为它们是克矩阵。图中表示了核之间的相似性。4.对于之前的结果,三组树有明显的分离。DynamicTreeCut包给了我们3组。将这些组对应的核合并成3个一致核,然后转换成不同矩阵。采用完全链接的层次聚类方法检索对应的三棵共识树,如图所示。5,全局共识树建立在全局共识核上。

图4.
图4.

核心组合分层群集数据的仿真研究。3分类\(k = 4,3 \)分别模拟了5组的次数。2一个)表示由一致核推导的距离矩阵得到的层次聚类,采用完全链接进行。B表示Cophenetic核表之间的C系数,在其上(一个)根据分层群集(一个

图5.
图5.

结果为分层聚类数据核组合的仿真研究。在4个配置上获得一致树,用彩色条表示模拟分类

在三组树上制作的三棵共识树,在这种情况下毫无困难地检索模拟分类。值得注意的是,这两种方法给出了一种具有类似分组模式的树,尽管这些树的整体结构略有不同。如表中所示,每种方法的全局结果获得的共识树也略有不同1:对MFA结果的全球共识更接近第一次分类,而核组合的全球共识更接近第三分类。这突出了这些方法的主要区别,即,从MFA给出的各个坐标或与组合内核中建立共识的方式。

网络数据仿真研究

类似的仿真设置用于网络数据:\(Q = 9 \)邻接矩阵和\ \ (n = 100)根据三种不同的分类模式进行了模拟,用ARI接近0它们之间的\(k = 4,3 \)分别为5组。根据Eq生成两个节点之间是否存在边。3.,具有连接概率,具体取决于节点的组。我们选择了\(\ PI _ {KL} = 0.05 \)为了\ (k l \ \ ne)\(\ PI _ {KK} = 0.8 \)

$$ \ BEGIN {对齐}&I,J \在\ {1,\ ldots,正\},\,\,\,K,L \在\ {1,\ ldots,K_q \},\,\,\,问\in \{1,\ldots ,Q\}, \nonumber \\&\qquad i\in k ,\, j\in l \,\,\, A_{i,j}^q = {\mathcal {B}}(\pi _{kl}) \end{aligned}$$
(3)

然后计算最短路径,并使用MDS转换为新数据。MFA的结果如图2所示。6,呈现对象的因子映射,以及从MFA坐标获得的群集。

图6.
图6.

结果用于网络数据的仿真研究。3分类\(k = 4,3 \)和5组分别模拟Eq3.一个提出了基于群坐标的网络层次聚类方法。B显示MFA的5个第一个轴的阶乘映射。这些座标是组座标,(一个)是制造的

数字7显示了具有层次聚类形成的群体获得多数选票的共识。原来分类的网络被恢复得很好,作为节点在网络中根据自己的模拟分类分组。集群内部的连接概率远远优于群体之间的一个,而这正是我们模拟。为了提供获得的模拟网络和共识之间的相似性的定量测量,我们计算了真阳性率,假阳性率和估算和模拟网络之间的真正的发现率,使用compare照片的函数PCALG.R包。结果如表所示2.每个群体内部的共识与模拟图之间的差异不大,这些网络之间的真实发现率总是大于0.8。

图7.
图7.

网络数据仿真研究。在使用MFA找到的网络集群上获得的共识网络。根据其用于模拟数据的组,节点是着色的

表2.网络仿真结果:采用MFA分层聚类方法对网络进行分组一致性网络的比较

比较内核相结合的方法。

在最短路径距离矩阵上使用相同的转换来找到不同的核心组合使用mixKernels,并构建具有完整链接的分层群集,以查找图中所示的内核之间的树和相似性。8.这棵树给了我们与MFA结果相同的三组不同的连接结构,正如在树模拟中已经注意到的。在这里,为每一个组创建共识网络的方式没有改变:对邻接矩阵进行多数表决,得到的结果与图中所示的结果相同。7

图8
图8.

结果用于网络数据核组合的仿真研究。3分类\(k = 4,3 \)和5组分别模拟Eq3.一个表示使用完全链接执行的距离矩阵获得的分层群集。B介绍网络内核的C系数,在哪个(一个)是制造的

应用于单个小区数据

在这个应用中,我们创建了给定一组数据表的基因层次聚类,并认为树木作为数据的唯一来源。我们应用我们的程序和内核的方法来帮助组树一起。

我们在本节中使用的数据呈现在[43].它们来自411只小鼠胚胎,在不同时间点收集,第6.5天至第8.5天。转录组表达可用于116,312个细胞。作者将这些细胞划分为37个组,我们将调用细胞类型。对于本申请,我们只使用来自第一阶段(E6.5)的样本,删除了平均计数的所有基因少于\ (10 ^ {3} \)以及Y染色体和XIST基因上的基因,因为作者在分析中 - 原始代码,特别是除去Y染色体和XIST基因的代码块,可以在https://github.com/marionilab/embryotimeCourse2018/blob/master/analysis_scripts/atlas/core_functions.r..这两个步骤导致了15086个基因和3520个样本的分析。

按照[43[我们选择了最可变的基因使用R- 包装和功能modelGeneVar.总共选择318个基因,通过针对调节的p值取出0.1的阈值来选择。

然后根据其细胞型除以样品。丢弃只有一个样品的细胞类型。表格中的细胞类型和每个样品的数量都在表中呈现3..该数据的预先处理导致一组7表,其具有可用于相同基因的转录组表达。然后考虑到叶子的基因,建立每桌的一棵树。我们在这些树上应用了上面呈现的方法,以便使用MFA的组坐标进行比较,并聚合最连贯的。首先,将MDS施加到从中获得317轴的树木,每个细胞型树并用于MFA分析。

表3单个单元应用程序的每个单元类型的示例数

然后使用基于坐标的分层聚类将细胞类型分组到聚类中。数字9显示此分层群集,以及使用MFA获得的因子映射。使用DynamicTreecut.功能最小群集大小为1,我们定义了三组单元格类型。

图9.
图9.

MFA为单单元数据应用程序提供的组可视化。(一个)使用欧几里德距离和病房的聚集标准,在MFA结果的组坐标上获得的细胞类型的树状图。使用功能选择群集DynamicTreecut.并相应颜色的。(B) MFA 1 - 5轴的阶乘图,这些组坐标用于计算在(一个).物体根据它们在树上的组被着色

在[的补充数据中43[作者,作者呈现了每个时间点的单元格类型的地图。E6.5的地图显示了大约三组细胞类型:第一个组成的外部细胞,泌喷虫神经细胞,原始条纹,表面胞外切片和新生的中胚层,第二种内胚层和内胚层的eDoderm和exe ectoderm。这里弃去了来自rostral神经细胞和表面胞外胚层的样品,因为每个细胞型只有一个样品。在我们获得的聚类中,地图被反映出良好反射,因为检索到三个主要组,并且第一组和第二组比第三组彼此更靠近。内核组合方法在组方面产生类似的结果,但是树呈现不同的分支模式。内核树呈现在附加文件的补充图中2

使用用MFA获得的基因坐标,我们创建了与每组识别的细胞类型相对应的全球共识分层聚类和三棵共识树。这些树在图1中示出。10获得的基因组可用于进一步的功能分析。

图10
图10.

MFA为单细胞数据应用给出的共识聚类。利用欧几里得距离和沃德聚合准则对全局MFA个体坐标和子群MFA进行层次聚类

应用于乳腺癌数据

本节中使用的数据是从TCGA网站使用CutatedTCGADATA.44R包。

网络集成

在这个应用中,我们将在蛋白质水平上工作,这一次构建网络,并将它们作为唯一的数据来源。我们的目标还是研究如何对这些对象进行分组。这里我们没有对单个坐标进行进一步的分析,但这也是可能的。

数据来自777例乳腺癌患者的蛋白表达,分为4种亚型:基底样(\ \ (n = 151)), HER2-enriched (\(N = 85 \)),Luminal A(\(n = 283 \))、Luminal B (\(n = 258 \)).在此数据集中,\(p = 173 \)蛋白质任何亚型的至少一个样品中的表达。

使用林马R-包裹 [45为了执行差异分析,我们按调整后的p值顺序选择5个第一蛋白,为亚型之间的每个对比度提供了15个独特的蛋白质。使用Glasso推断与每个亚型相关的网络[4647],贝叶斯信息准则(BIC) [48]是用来选择适当的惩罚水平,如巨大的R-包裹 [49].邻接矩阵中所有非零系数均设为1。利用这些网络作为我们想要研究的对象的集合,以及最短路径距离,我们通过MDS得到新的坐标,然后将其用于MFA分析。基于对象坐标的层次聚类提供了两组,一组为Luminal A和B亚型,另一组为her2富集型和Basal-like亚型。

亚型网络的聚类,对MFA组坐标,以及用于通过多数规则获得的共有网络获得的示于图11.为内核组合获得的结果是精确地在这种情况下,同样在网络组,因此共识网络方面。

图11
图11.

TCGA在乳腺癌中的应用。(一个)显示用MFA组坐标获得的乳腺癌亚型的分层聚类。(B)显示两种共识网络,用来自亚型组的邻近矩阵的多数规则制成(一个

树集成

在这一部分中,我们研究了四个组学数据表,这些数据表对应于113例乳腺癌患者的甲基化、mirna、蛋白质和基因表达(RNA-seq数据)。和以前一样,患者被分为四种亚型:\(n = 25 \)), HER2-enriched (\ (n = 19) \), Luminal A (\ (n = 35 \))、Luminal B (\ (n = 34 \)).与空变化特征之前创建的树木被删除。对于RNA-SEQ数据,我们还除去具有平均计数大于1,每个样品降低的基因,并且转化使用数据\(X \ mapsto \日志_2(X + 1)\)转型。这些过滤器提供222个蛋白质,810 miRNA,17,756个基因和22,569个甲基化位点。

MDS和MFA组合的结果,在图2中提供了用于MDS和5个轴的MDS和5轴的轴。12.数字12C表明,MiRNA表不反映与其他表相同的信息,其通过图2中所示的表的聚类来确认。12答:的确,dynamictrecut程序选择了两组:第一组是RNA-seq、蛋白质和甲基化数据表,第二组是单独的mirna。

图12
图12.

TCGA在乳腺癌多组学中的应用。(一个)显示用MFA组坐标获得的乳腺癌亚型的分层聚类。(B)显示使用MFA个体坐标获得的共识树。C为1 ~ 20个组的单株树和共识树的调整后的兰特指数,突出显示ARI最大值

我们使用调整后的兰特指数(ARI)将每一棵树和共识树与亚型分类进行了比较。结果发现,mirna树的ARI值低于其他表。由MFA轴得到的共识树如图所示。12B,彩杆中指示的亚型。共识比所有表格更好,表明通过使用该过程改善了患者的分类。它对MiRNA数据表的低ARI值也是强大的。

讨论

在本文中,我们提出了一个程序来比较建立在同一实体上的多个对象,重点是树和网络,以便定义这些类型的结构的一致性组,以进一步集成。

由于其计算仅依赖于奇异值分解(SVD),并且由于我们可能有求权的SVD版本,因此过程非常快速,适当地分析大量对象。我们的程序应用于树木和网络的上下文中的模拟数据。在这两种情况下,产生了三种非常不同的分组信息。该方法能够检索这三种不同的结构。然后基于MFA结果获得共识树和网络,并且与树和网络示例的模拟数据一致。我们还分析了两个真实数据集。在鼠标胚胎上设置的单细胞数据用于说明树木上的方法的性能。与先前研究中获得的群集的比较对这些数据的研究[43表明所提出的方法可以整合几棵树,同时保留数据的生物学意义。本文还使用TCGA乳腺癌数据集对网络数据进行了说明。它强调了与文献一致的两组乳腺癌亚型。它还允许创建两个共识网络,突出这两组蛋白质相互作用的差异。在仿真和实际数据应用中,该程序被证明是一个有效和有用的工具,用户可以识别相关的数据组进行集成。该程序与核积分方法的每个模拟,以及实际数据的例子进行了比较。结果发现非常相似。为了在创建表组之后进行进一步的分析,我们选择使用无监督方法(分层集群)。可以使用其他方法创建组。

内核方法和我们呈现的程序密切相关。它们在将对象组合在一起,但依靠不同的方式构建妥协(即用于创建共识的坐标),如树集成模拟所示。

我们在这里研究了相同类型的数据(树或网络)的集成,但是我们的过程可以将它们与其他类型的表示集成在一起。一个有待进一步研究的有趣点是附加信息的整合,如临床数据。这确实是可能的,因为使用了MFA,它可以处理各种类型的数据(连续和分类)。

可以使用对象的任何度量或转换,只要它产生了在MDS步骤中可用的不相似矩阵。在本文中,我们使用了具有最短路径距离的二进制邻接矩阵,以及树的CopHenetic距离以及从这些度量的计算内核。可以在该过程中使用任何不相似或距离测量以及适应的核。

在此处呈现的结果中,我们坚持了构建树木和网络的方法简单选择,即分层附下聚类和Glasso。使用不同的方法,如自组织地图[50或贝叶斯分层聚类[51]可能会导致不同的结果,尤其是MFA是一种探索性的方法。在tcga树的应用中,非监督和探索性方面尤其明显,尽管与每棵单独的树相比是一个改进,但共识ARI仍然相当低。MFA是一种无监督的描述性和探索性方法,因此不致力于监督分析含蓄地寻找因素之间的差异。然而,这种监督分析可以在MFA框架中进行,例如使用多块冗余分析[52,扩展冗余分析,这是PCA的监督版本[53到多块上下文。

这一过程应用于真实的数据集,对象之间的分离很清楚,组学数据集有信息信号。在多因素疾病的情况下,多组学测量的信息较少,这可能更困难。

该方法的基本原理在于在欧几里德空间中可视化数据,无论我们的原始形式(网络,树文图等)在我们的模拟和应用中留在欧几里德设置。在某些情况下,用户可能不适合或想要的使用,因为它可能会扭曲信息。在该特定设置中,需要使用内核组合,但不会允许结果表示作为阶乘映射,因此将不太可解释。

我们已经用最短的路径距离和公制MDS说明了我们的方法,但这不是必需的,我们的方法可以很容易地扩展到距离和尺寸缩放的任何组合(度量或非指标),所以它导致了这样的欧几里德表示。

结论

在本文中,我们提出了一个程序来比较建立在同一实体上的多个对象,重点是树和网络,以便定义这些类型的结构的一致性组,以进一步集成。

该过程依赖于两种著名的方法,即多维尺度(MDS)和多因素分析(MFA),这两种方法提供了一个统一的框架来分析树状结构或网络结构。提出的方法提供了工具来比较结构和容易获得共识树或网络。

使用MFA允许用户访问大量库来帮助可视化结果,以及对单个坐标进行进一步的分析。

可用性数据和材料

在目前的研究中分析的模拟数据集可在https://github.com/AudreH/intTreeNet.使用TCGA BRCA甲基化,miRNA,蛋白质和基因表达数据集使用CutatedTCGADATA.R-Package并且可以通过他们的门户访问https://portal.gdc.cancer.gov/.在当前的研究中分析的单细胞数据集可用R-包裹mousegastrulationdata.在Bioconductorhttps://bioconductor.org/packages/release/data/experiment/html/MouseGastrulationData.html

缩写

阿里:

兰德调整指数

BIC:

贝叶斯信息标准

MDS:

多维标度

MFA:

多因素分析

PCA:

主要成分分析

圣言:

奇异值分解

TCGA:

癌症基因组图谱

参考

  1. 1.

    Gligorijević V, Pržulj N.生物数据集成方法:展望与挑战。[J] .通信学报。2015;12(112):20150571。https://doi.org/10.1098/rsif.2015.0571

    文章PubMedpmed中央谷歌学术

  2. 2.

    基于非监督多核学习的异构数据集成。生物信息学。2017;34(6):1009 - 15所示。https://doi.org/10.1093/bioinformatics/btx682

    中科院文章谷歌学术

  3. 3.

    李Y,吴F-X,在多视角的生物数据集成机器学习原理恩戈姆A.审查。介绍Bioinform。2018; 19(2):325-40。https://doi.org/10.1093/bib/bbw113

    文章PubMed谷歌学术

  4. 4.

    Ritchie MD,Holzinger Er,Li R,Pendergrass SA,Kim D.集成数据以发现基因型 - 表型相互作用的方法。NAT Rev Genet。2015; 16(2):85-97。https://doi.org/10.1038/nrg3868

    中科院文章PubMed谷歌学术

  5. 5.

    Tantardini M,Ieva F,Tajoli L,Piccardi C.比较网络的比较方法。SCI批准。2019; 9(1):1-19。https://doi.org/10.1038/s41598-019-53708-y

    中科院文章谷歌学术

  6. 6.

    图嵌入技术、应用与性能研究。Knowl-Based系统。2018;151:78 - 94。https://doi.org/10.1016/j.knosys.2018.03.022

    文章谷歌学术

  7. 7.

    Robinson DF, Foulds LR。加权标记树木的比较。in:Horadam Af,Wallis Wd,编辑。组合数学六。柏林:施普林格;1979. p。119-26。https://doi.org/10.1007/BFb0102690

    谷歌学术

  8. 8。

    Robinson DF, Foulds LR。系统发育树的比较。数学Biosci。1981;53(1 - 2):131 - 47。https://doi.org/10.1016/0025-5564 (81)90043-2

    文章谷歌学术

  9. 9。

    Torgerson WS。标度理论与方法。1958.https://doi.org/10.1002/BS.383004030308.

  10. 10.

    博格I,格罗宁PJ。现代多维尺度:理论与应用。柏林:施普林格;2005.

    谷歌学术

  11. 11.

    Escofier B,页J.多因素分析(afmult封装)。计算统计数据肛门。1994; 18(1):121-40。https://doi.org/10.1016/0167-9473(94)90135-x

    文章谷歌学术

  12. 12.

    Abdi H,Williams LJ,Valentin D.多因素分析:多元化和多块数据集的主要成分分析。电线计算机统计数据。2013; 5(2):149-79。https://doi.org/10.1002/wics.1246

    文章谷歌学术

  13. 13.

    RAU A,Manansala R,Flister MJ,Rui H,Jaffrézicf,Laloëd,奥尔PL。使用多因素分析的个性化多个OMIC途径偏差分数。生物统计学。2020; 827022。https://doi.org/10.1093/biostatistics/kxaa029

  14. 14.

    Schölkopf B, Tsuda K, Vert J-P。计算生物学中的核方法。剑桥:麻省理工学院出版社;2004.

    谷歌学术

  15. 15.

    庄j,王j,hoi sc,lan x.无监督多个内核学习。J Mach Learn Res。2011; 20:129-44。

    谷歌学术

  16. 16.

    Szklarczyk D,山墙,Lyon D,Junge A,Wyder S,Huerta-Cepas J,Simonovic M,Doncheva NT,Morris JH,Bork P等人。串v11:蛋白质 - 蛋白质关联网络,覆盖率增加,支持基因组实验数据集中的功能发现。核酸RES。2019; 47(D1):607-13。https://doi.org/10.1093/nar/gky1131

    中科院文章谷歌学术

  17. 17.

    Fortuna ma,Ortega r,Bascompte J. Life Web。arxiv预印刷品arXiv: 1403.2575, 2014年。

  18. 18。

    Poisot T,Baiser B,Dunne Ja,KéfiS,Massol F,Mouquet N,Romanuk TN,Stouffer DB,Wood SA,砾石D. Mangal制作生态网络分析简单。生态学。2016; 39(4):384-90。https://doi.org/10.1111/ecog.00976

    文章谷歌学术

  19. 19。

    Chessel D,Hanafi M.分析De La Co-Inertie de\ (k \)nuages de点。统计杂志appliquée。1996年,44(2):35-60。

    谷歌学术

  20. 20。

    L'Hermier H. Structureds desTableauxàtroisindice de la Statistique。论文,UniversitédeMontpellierII;1976年。

  21. 21。

    Escoufier Y. L ' analysis of conjoindeplusieurs matrices in données。Biometrie临时工。1980; 58:59 - 76。

  22. 22。

    Gerlach RW, Kowalski BR, Wold HOA。带有潜在变量的偏最小二乘路径建模。技术报告。1979;4。https://doi.org/10.1016/s0003-2670(01)85039-x

  23. 23。

    Sankaran K,Holmes SP。微生物组数据集成的多元化方法。前群体。2019年。https://doi.org/10.3389/fgene.2019.00627

    文章PubMedpmed中央谷歌学术

  24. 24。

    高尔半岛JC。多元分析中潜在根的一些距离性质和向量方法。生物统计学。1966;53(3 - 4):325 - 38。https://doi.org/10.1093/biomet/53.3-4.325

    文章谷歌学术

  25. 25。

    高尔半岛JC。欧几里德距离几何。数学科。1982; 7(1):1-14。

    谷歌学术

  26. 26。

    Dokmanic I,Parhizkar R,Ranieri J,Vetterli M.欧几里德距离矩阵:穿过理论,算法和应用的短暂散步。COR ABS / 1502.07541。arXiv: 1502.07541;2015年

  27. 27。

    威廉姆斯CK。关于内核PCA与度量多维缩放的联系。在:神经信息处理系统的进步,2001; 675-681。https://doi.org/10.1023/A:1012485807823

  28. 28。

    Schleif F-M,Tino P. Indefinite接近学习:综述。神经计算。2015; 27(10):2039-96。https://doi.org/10.1162/NECO_a_00770

    文章PubMed谷歌学术

  29. 29。

    可加常数问题的解析解。心理测量欧宝直播官网app学。1983;48(2):305 - 8。https://doi.org/10.1007/BF02294026.

    文章谷歌学术

  30. 30.

    灵格斯JC。对称矩阵单调分析的若干边界条件。心理测量欧宝直播官网app学。1971;36(2):195 - 203。https://doi.org/10.1007/BF02291398

    文章谷歌学术

  31. 31.

    谢泼德rn。附近分析:具有未知距离功能的多维缩放。I. Psyc欧宝直播官网apphometrika。1962; 27(2):125-40。https://doi.org/10.1007/BF02289630

    文章谷歌学术

  32. 32.

    Kruskal简森-巴顿。非度量多维标度:一种数值方法。心理测量欧宝直播官网app学。1964;29(2):115 - 29。https://doi.org/10.1007/BF02289694

    文章谷歌学术

  33. 33.

    用客观方法比较树状图。分类单元。1962;11:33-40。https://doi.org/10.2307/1217208

    文章谷歌学术

  34. 34.

    用Rao的二次熵从异同度度量多样性:有什么异同点合适吗?中国科学(d辑:地球科学)2005;https://doi.org/10.1016/j.tpb.2005.01.004

  35. 35.

    R核心团队:R:统计计算的语言和环境。统计计算基金会,维也纳,奥地利,2020年。统计计算基金会。https://www.R-project.org

  36. 36.

    沃德的层次凝聚聚类方法:哪些算法实现沃德准则?J Classif。2014;31:274 - 95。https://doi.org/10.1007/s00357-014-9161-z

  37. 37.

    Lês,Josse J,Husson F.Ifacominer:用于多变量分析的R包。j stat softw。2008; 25(1):1-18。https://doi.org/10.18637/jss.v025.i01

  38. 38.

    Vinh NX,EPPS J,Bailey J.集群的理论措施比较:变体,属性,归一化和校正机会。J Mach Learn Res。2010; 11:2837-54。https://doi.org/10.5555/1756006.1953024

    文章谷歌学术

  39. 39.

    比较分区。J Classif。1985;2:193 - 218。https://doi.org/10.1007/BF01908075

    文章谷歌学术

  40. 40。

    Chiquet J, Rigaill G, Sundqvist M. Aricode:标准聚类比较测度的有效计算。2020.R包版本1.0.0。https://cran.r-project.org/package=aricode.

  41. 41。

    Langfelder P,张B,从分层群集树Horvath的S.定义集群:动态树剪切包R.生物信息学。2007; 24(5):719-20。https://doi.org/10.1093/bioinformatics/btm563

    中科院文章PubMed谷歌学术

  42. 42。

    CSARDI G,NEPUSZ T.复杂网络研究的IGAPH软件包。间歇性系统。2006; 1695年。

  43. 43。

    Pijuan-Sala B, Griffiths J, Guibentif C, Hiscock T, Jawaid W, Calero-Nieto F, Mulas C, Ibarra-Soria X, Tyser R, Ho D, Reik W, Srinivas S, Simons B, Nichols J, Marioni J, Göttgens B.小鼠原肠形成和早期器官发生的单细胞分子图谱。自然》2019。https://doi.org/10.1038/s41586-019-0933-9.

  44. 44。

    Ramos M. CutatedTCGADATA:从癌症基因组Atlas(TCGA)的愈合数据,作为MultiAsaySayexperiment对象2021. R包版本1.12.1。

  45. 45。

    里奇ME,Phipson B,吴d,胡Y,法律CW,施W,史密斯GK。LIMMA权力用于RNA测序和芯片研究差异表达分析。核酸RES。2015; 43(7):47。https://doi.org/10.1093/nar/gkv007

    中科院文章谷歌学术

  46. 46。

    弗里德曼J,Hastie T,Tibshirani R.稀疏反向协方差与图形套索估算。生物统计学。2008; 9(3):432-41。https://doi.org/10.1093/biostatistics/kxm045

    文章PubMed谷歌学术

  47. 47。

    Banerjee O,Ghaoui Le,D'Aspremont A.通过稀疏最大似然估计来选择多变量高斯或二进制数据的模型选择。J Mach Learn Res。2008; 9(MAR):485-516。

  48. 48。

    Schwarz G等。估计模型的维度。安Stat。1978;6(2):461 - 4。https://doi.org/10.1214/aos/1176344136

    文章谷歌学术

  49. 49。

    赵特,刘H,罗德尔k,leafferty j,wasserman l。R. J Mach Learn Res中的高维无向图估计的巨大包装。2012; 13(4月):1059-62。

    PubMedpmed中央谷歌学术

  50. 50。

    Kohonen T.自组织形成的拓扑正确的特征图。Biol Cyber​​n。1982; 43(1):59-69。

    文章谷歌学术

  51. 51。

    贝叶斯层次聚类。[j] .中文信息学报,2005,26(2):1 - 5。

  52. 52.

    多块冗余分析在流行病学研究中的应用。J Chemom。2011;25(9):467 - 75。

    中科院文章谷歌学术

  53. 53.

    饶CR.主成分分析在应用研究中的应用与解释。Sankhyā:印度J Stat Ser A 1964;26:329 - 358。

下载参考

致谢

此处显示的结果是在基于由TCGA研究网络生成的数据部分:https://www.cancer.gov/tcga.我们感谢Julien Chiquet对这项工作的宝贵帮助和评论。

资金

这项工作得到了RFI CASDAR项目no。1726 BIOMARQLAIT由法国农业部支持。该资助机构在研究的设计、数据的收集、分析和解释,或撰写手稿方面没有作用。

作者信息

隶属关系

作者

贡献

DL提供了主要思想。DL,FJ和AH设计了模拟研究。啊,DL写了代码。FJ和AH执行数据应用程序所有作者都写了稿件。所有作者阅读并认可的终稿。

相应的作者

对应到奥黛丽洛

道德声明

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1。

结果为分层聚类数据的仿真研究。根据每个模拟分类,在MFA的四个第一因子轴上的单个坐标。

额外的文件2。

单单元数据应用程序的组可视化由内核组合给出。A)细胞类型的树状图C-系数矩阵,对变换后的相似点采用全连杆。使用DynamicTreeCut选择集群并相应地着色。B)表间$C$-系数的热图。这些相似之处被转化为不同之处,并用于创建图A中的层次聚类。黑色网格显示了图A中的树状图中的聚类。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Hulot, A., Laloë, D. & Jaffrézic, F.一个从多源数据集成多个层次集群或网络的统一框架。欧宝娱乐合法吗22,392(2021)。https://doi.org/10.1186/s12859-021-04303-4

下载引用

关键字

  • 数据集成
  • 聚类
  • 网络
  • MDS
  • MFA.
1 0 11 1)" / >