跳到主要内容GydF4y2Ba

针叶树:克隆树推理肿瘤异质性的单细胞和批量测序数据GydF4y2Ba

摘要GydF4y2Ba

背景GydF4y2Ba

克隆进化过程中发生的肿瘤的遗传异质性是癌症治疗失败的原因之一,因为它增加了耐药的机会。克隆是具有不同基因型的细胞群体,由癌症发展过程中发生和积累的体细胞突变的差异造成。确定克隆的合适方法是确定肿瘤中发生的突变的变异等位基因频率。尽管批量测序数据可用于提供信息,但频率信息不足以识别具有相同流行率的不同克隆及其进化关系。另一方面,单细胞测序数据提供了关于癌症进化中分支事件的宝贵信息。然而,突变的时间顺序可以仅使用单细胞数据来确定,而来自批量测序数据的变异等位基因频率可以提供有益的信息来推断具有较少模糊性的突变的时间顺序。GydF4y2Ba

结果GydF4y2Ba

本研究提出了一种名为Conifer(克隆树推断肿瘤异质性)的新方法,该方法结合了大量测序数据中聚集的变异等位基因频率和单细胞测序数据中的分支事件信息,从而更准确地识别克隆及其进化关系。在不同的模拟数据集上,与现有的其他方法相比,采用针叶树方法可以提高克隆鉴定和克隆树推断的准确性。此外,还讨论了由Conifer在真实癌症数据集上提供的进化树与大量和单细胞数据的信息高度一致。GydF4y2Ba

结论GydF4y2Ba

在本研究中,我们通过结合单细胞和批量测序数据,提供了一种准确而稳健的方法来鉴定肿瘤异质性克隆及其进化史。GydF4y2Ba

同行评审报告GydF4y2Ba

背景GydF4y2Ba

基因突变是细胞异常生长和癌症的主要原因。虽然癌细胞最初通常来自一个突变细胞,因此共享突变基因,但在癌症发展过程中可能会发生新的突变[GydF4y2Ba1.GydF4y2Ba].换句话说,肿瘤中的癌细胞不是同质的,许多研究显示肿瘤基因组异质性[GydF4y2Ba1.GydF4y2Ba,GydF4y2Ba2.GydF4y2Ba,GydF4y2Ba3.GydF4y2Ba].肿瘤由不同的克隆体组成,每个克隆体都是一组细胞,它们从共同的祖先遗传而来,具有共同的基因型[GydF4y2Ba4.GydF4y2Ba].为了理解个体肿瘤的异质性和它们的系统发育推断,这可能是个性化癌症治疗的一个有用组成部分,正确地识别它们的克隆是至关重要的,确定癌症细胞的发展阶段,并识别导致细胞快速生长的早期单核苷酸变异(SNVs) [GydF4y2Ba5.GydF4y2Ba,GydF4y2Ba6.GydF4y2Ba,GydF4y2Ba7.GydF4y2Ba].GydF4y2Ba

大量数据的排序集中在数千或数百万癌症和/或正常细胞的DNA的混合,被广泛用于为每个体细胞突变提供变异等位基因频率(VAFs)的混合信号。为了发现进化历史,批量测序数据需要进行反褶积分析[GydF4y2Ba8.GydF4y2Ba],通常包括两个连续的演绎步骤。第一步,通过对体样品的混合信号进行去卷积,推导出共发生的SNV团簇[GydF4y2Ba9GydF4y2Ba]. 然后,利用SNV簇频率推导出簇间的演化关系[GydF4y2Ba10GydF4y2Ba].然而,在一些方法如PhyloWGS [GydF4y2Ba11GydF4y2Ba],这两个推断步骤是联合进行的,以避免系统发育不兼容的SNV簇。在大多数基于大量测序数据的肿瘤异质性分析中,例如PyClone[GydF4y2Ba9GydF4y2Ba], PhyloSub [GydF4y2Ba12GydF4y2Ba],克隆的[GydF4y2Ba13GydF4y2Ba],及祖宗[GydF4y2Ba14GydF4y2Ba],一般认为VAFs相似的snv属于同一个无性系。GydF4y2Ba

在各种情况下,仅仅依靠在一个大样本中观察到的频率可能不足以推断进化历史,需要采集多个样本[GydF4y2Ba8.GydF4y2Ba].此外,频率相似的snv属于同一克隆的假设也可能被违背,因为一个肿瘤可能是由频率相似但基因型不同的克隆组成的。GydF4y2Ba

此外,尽管低频snv很常见,并在肿瘤多样性中发挥决定性作用,但从批量测序中发现其流行程度的过程并不足够准确[GydF4y2Ba15GydF4y2Ba].GydF4y2Ba

为了获得更高的分辨率来推断进化史,引入了单细胞测序,它允许直接获取细胞基因型,而无需对混合信号进行反褶积[GydF4y2Ba16GydF4y2Ba,GydF4y2Ba17GydF4y2Ba,GydF4y2Ba18GydF4y2Ba,GydF4y2Ba19GydF4y2Ba,GydF4y2Ba20.GydF4y2Ba,从而降低了忽略低频snv的可能性。此外,关于共发snv的单细胞信息可以用来区分具有相同流行率的snv群集[GydF4y2Ba21GydF4y2Ba].GydF4y2Ba

单细胞测序在SCITE等方法中得到了很好的应用[GydF4y2Ba22GydF4y2Ba],肿瘤学家[GydF4y2Ba23GydF4y2Ba],和SiFit [GydF4y2Ba24GydF4y2Ba来推断突变树,尽管克隆频率在这些树中没有报道。此外,在SiCloneFit [GydF4y2Ba25GydF4y2Ba]介绍了一种基于中国餐馆过程的非参数贝叶斯混合模型(CRP),用于基于有限位点模型推断克隆基因型及其进化。虽然SiCloneFit在克隆树推断中假设树的每个节点最多只能有两个子树(二叉树),但是可以通过删除后处理步骤中突变不支持的分支来推断二叉克隆树的多原子。另一方面,针叶树通过对体细胞和单细胞测序数据的联合建模,可以通过多切面直接推断肿瘤系统发育。GydF4y2Ba

尽管单细胞测序方法有这些优点,但它成本高昂且容易出错。假阳性错误是由于DNA扩增错误,假阴性错误是由于缺失一个或两个等位基因(dropout)。此外,由于对两个或多个细胞的偶然测序,数据中可能会出现另一种类型的噪声。GydF4y2Ba

考虑到批量和单细胞测序数据的优缺点,在一些研究中使用了两种数据类型的想法,以减少每种方法的不准确性,从而实现更准确的克隆树推断。作为这种组合的好处的一个例子,可以通过从批量测序数据中减少VAFs来确定突变的时间顺序,这比仅使用单细胞数据的歧义更少。另一方面,通过单细胞数据可以更准确地推断进化树中的分支事件。GydF4y2Ba

ddClone [GydF4y2Ba26GydF4y2Ba使用单细胞和批量测序数据]分析肿瘤内异质性和提出了一种基于非参数贝叶斯法推导出肿瘤克隆的概率模型。现有贝叶斯法是从单细胞数据得出的,以及从大容量测序数据获得的似然。然而,ddClone不能由此推断肿瘤系统发育和不充分理解肿瘤的演变。GydF4y2Ba

B-SCITE [GydF4y2Ba21GydF4y2Ba]是第一个从单细胞和批量测序数据推断肿瘤系统发育的计算方法。这种概率方法搜索肿瘤系统发生树,以最大化两种数据类型的联合可能性。在该方法中,使用定制的马尔可夫链蒙特卡罗(MCMC)算法在标记树空间上进行树搜索[GydF4y2Ba21GydF4y2Ba].B-赛特主要设计用于推断突变的树和直接克隆树推断不提供。GydF4y2Ba

此外,物理iscs [GydF4y2Ba27GydF4y2Ba]是一个组合方法使用整数基于单细胞和批量测序数据突变树推理线性规划。然而,PhISCS不能由此推断直接肿瘤的亚克隆及其进化关系。GydF4y2Ba

在这项研究中,我们提出了一种新的方法针叶树,它利用单细胞和批量测序数据来推断肿瘤克隆及其进化关系。与SiCloneFit相比,推断出的针叶树的深度和分枝数没有限制。在针叶树中,单细胞测序数据用于解决识别肿瘤中类似普遍克隆的挑战,并解决系统发育推断中的歧义。另一方面,针叶树使用批量测序数据来减少取样偏差和假阴性突变的负面影响。据我们所知,针叶树是第一种利用单细胞和批量测序数据引入肿瘤克隆树的方法。GydF4y2Ba

由于无性系及其进化树不是预先定义的,针叶树提供了一个贝叶斯非参数模型,并使用树结构中国餐馆过程(CRP)作为其先验知识。为了逼近贝叶斯模型的后验值,针叶树所执行的特定MCMC算法是一种折叠Gibbs抽样,其中一些潜在变量被边缘化,以加速链的覆盖。因此,针叶树引入了一种克隆树,其中每个节点代表一起出现并在不同细胞之间共享的克隆基因型。值得注意的是,针叶树采用了无限位点假设(ISA),这意味着突变一旦发生就会持续。在靠近树根的节点中,相应的克隆基因型在更多的细胞之间共享,当从根向叶移动时,克隆对这些路径中的特定细胞变得更加专业化。GydF4y2Ba

在不同数量的无性系、体细胞和单细胞样本等模拟数据集上,我们综合评估了针叶树在无性系鉴定方面的表现,并将其与B-SCITE等最佳方法进行了比较[GydF4y2Ba21GydF4y2Ba]和ddClone[GydF4y2Ba26GydF4y2Ba],基于V-measure [GydF4y2Ba28GydF4y2Ba]和调整后的兰德分数[GydF4y2Ba29GydF4y2Ba] 标准。此外,针叶树引入了用相同的B-赛特[方法相比于模拟数据克隆进化树GydF4y2Ba21GydF4y2Ba],肿瘤学家[GydF4y2Ba23GydF4y2Ba],及[GydF4y2Ba11GydF4y2Ba基于共聚准确性和祖先-后代准确性准则(这些准则的定义见[GydF4y2Ba21GydF4y2Ba])。结果表明,在大多数情况下,针叶树在克隆鉴定和系统发育推断方面具有较高的准确性。此外,通过与其他方法的进化树的比较,Conifer更能对癌症的真实数据集进行评估。通过深入研究发现,针叶树进化树与大量数据中突变的VAFs完全一致,在单细胞数据中也存在突变共现现象。GydF4y2Ba

结果和讨论GydF4y2Ba

针叶树利用单细胞数据中的突变共现信息推断树木分支,同时利用批量测序数据中的VAF识别克隆及其时间顺序。无花果。GydF4y2Ba1.GydF4y2Ba,它示意地展示了如何连接两个数据类型来推断克隆树。如图所示。GydF4y2Ba1.GydF4y2Ba一,单细胞数据被表示为具有行和列分别示出个SNV和细胞,和每个元素指示在相应细胞的SNV存在或不存在的基质。此外,散装测序数据被认为是一个矩阵,其中有关SNV不同散装测序样品中的每个元素呈现VAFs(图GydF4y2Ba1.GydF4y2Bab)。GydF4y2Ba

图1GydF4y2Ba
图1GydF4y2Ba

结合单细胞和批量测序数据的针叶树方法克隆树推断的示意图表示,GydF4y2BaA.GydF4y2Ba\(N \乘以m \)GydF4y2Ba矩阵,其中每一行和每列分别表示snv和单元格。白色元素表示未发生突变,蓝色元素表示发生过突变。红色字体1和0分别表示假阳性和假阴性(退出事件),GydF4y2BaBGydF4y2Ba\ (n \ b \)GydF4y2Ba矩阵,其行为SNV,列为批量样本和GydF4y2Ba\(B_{ij}\)GydF4y2Ba是大量样本中的变异等位基因频率,GydF4y2BaCGydF4y2Ba由虚线矩形确定的单细胞轮廓中snv的共现模式,GydF4y2BaDGydF4y2Ba推测的无性系树和细胞附着GydF4y2Ba

在针叶树方法中,假设在不同的批量样本中具有相似VAF的SNV最有可能属于一个共同的簇,除非没有单个细胞显示两个SNV同时发生。单细胞谱中的所有共发生模式被认为是突变聚类的先验知识。无花果。GydF4y2Ba1.GydF4y2BaC,共现模式显示为虚线矩形。利用这些模式,可以推断带有单细胞样本的克隆树,每个模式的突变在其每个路径中都显示出来(图。GydF4y2Ba1.GydF4y2Bad).在“材料和方法”部分详细描述了聚类技术和系统发育推断。GydF4y2Ba

模拟数据的性能GydF4y2Ba

由于克隆树对于真实癌症肿瘤的数据是未知的,因此模拟了一整套数据并用于评估针叶树的性能。为了模拟数据,ddClone的思想[GydF4y2Ba26GydF4y2Ba]及B-SCITE [GydF4y2Ba21GydF4y2Ba]研究(见附加文件GydF4y2Ba1.GydF4y2Ba有关详细信息)。模拟的数据覆盖了各种细胞计数(25,50,100和500),克隆(10,15,20,和40)的数字,并在单细胞数据不同类型的错误。每个克隆树的根节点代表一个健康的细胞群,和个SNV被其他节点之间随机分布的。GydF4y2Ba

为了评估针叶树隐生无性系树的准确性,将其与B-SCITE [GydF4y2Ba21GydF4y2Ba],肿瘤学家[GydF4y2Ba23GydF4y2Ba],及[GydF4y2Ba11GydF4y2Ba],根据共聚准确度测度。B-SCITE同时使用单细胞和批量测序数据,而OncoNEM和PhyloWGS分别只使用单细胞和批量测序数据。GydF4y2Ba

此外,在存在拷贝数变异(CNV)的情况下,祖先-后代精度测量用于比较针叶树和B-SCITE。绘图由ggplot2生成[GydF4y2Ba30GydF4y2Ba,以说明方法在不同标准下的准确性。GydF4y2Ba

此外,为了评估聚类的准确性,V-measure [GydF4y2Ba28GydF4y2Ba]以及调整后的兰德分数[GydF4y2Ba29GydF4y2Ba]使用的标准在scikit learn Python包0.19.2中实现。它们对应的分数在0到1之间,0表示与聚类数无关的随机标记,1表示准确的聚类。GydF4y2Ba

为了测量单细胞测序数据中有关错误的方法敏感性,在附加文件中检查并解释了不同类型的错误,如分类偏差和双重率GydF4y2Ba1.GydF4y2Ba.分类偏差误差由参数表示GydF4y2Ba\ \ uplambda \ ()GydF4y2Ba,较大的值表示较少的分类偏差,单细胞和批量基因型患病率之间的差异也相当小。GydF4y2Ba

克隆树精度GydF4y2Ba

图中显示了针叶树与B-SCITE和PhyloWGS方法使用共聚类精度度量的比较。GydF4y2Ba2.GydF4y2Ba和GydF4y2Ba3.GydF4y2Ba为100模拟克隆树木10个克隆和25,50,和100号细胞和1个2 10000覆盖散装测序样品。这是用来通过两个针叶树和B-赛特模拟单细胞数据与的假阳性率而生成GydF4y2Ba\({10}^{-5}\)GydF4y2Ba,假阴性率为0.2,缺失率为0.05,双重率为0.1,各取值范围为GydF4y2Ba\ \ uplambda \ ()GydF4y2Ba(GydF4y2Ba\(\uplambda\hspace{0.17em}\)GydF4y2Ba= 1、5、10和1000),而PhyloWGS方法仅使用批量测序数据。与单细胞测序数据和批量测序数据之间常见的突变不同,本次比较中考虑了批量数据中的所有突变。如图所示。GydF4y2Ba2.GydF4y2Ba对于一个散装样品和图。GydF4y2Ba3.GydF4y2Ba对于两个大样本,虽然三种方法的性能都会通过增加大样本数量而得到改善,但对于不同的单细胞测序数据和不同数量的大样本,针叶树的精确度最高。此外,在针叶树法和B-SCITE法中,对于特定数量的散装样品,通过增加单个细胞的数量来提高准确性。此外,通过降低B-SCITE的值,B-SCITE的准确性也会降低GydF4y2Ba\ \ uplambda \ ()GydF4y2Ba而针叶树对于不同的碳含量几乎是稳定的GydF4y2Ba\ \ uplambda \ ()GydF4y2Ba.另外,需要注意的是,虽然在Conifer模型中没有考虑双峰率,但根据图中所示的结果,双峰率为0.1是准确的。GydF4y2Ba2.GydF4y2Ba.GydF4y2Ba

图2GydF4y2Ba
图2.GydF4y2Ba

比较B-SCITE、Conifer和PhyloWGS模型对10个克隆和50个突变的100株克隆树的共聚准确性GydF4y2Ba\λ(\ \)GydF4y2Ba = 1、5、10和1000。对于单细胞数据,每个克隆树提取25、50和100个基因型。有两个覆盖范围为10000的批量测序样本。单细胞数据中添加了以下错误:假阳性率为10GydF4y2Ba–5GydF4y2Ba假阴性率为0.2,缺失率为0.05,双重阴性率为0.1GydF4y2Ba

图3GydF4y2Ba
图3.GydF4y2Ba

用10个克隆和50个突变模拟100个克隆树,比较B-SCITE、针叶树和PhyloWGS模型的共聚类精度。对于GydF4y2Ba\λ(\ \)GydF4y2Ba = 1、5、10和1000。对于单细胞数据,每个克隆树提取25、50和100个基因型。批量测序样本数量为2个,覆盖范围为10000。单细胞数据中添加了以下错误:假阳性率为10GydF4y2Ba–5GydF4y2Ba假阴性率为0.2,缺失率为0.05,双重阴性率为0.1GydF4y2Ba

上述比较在针叶树和Oncene之间重复,如图所示。GydF4y2Ba4.GydF4y2Ba.由于OncoNEM仅使用单细胞数据,因此在Conifer中只考虑单细胞和批量测序数据之间常见的SNVs,以使比较有意义。与OncoNEM相比,Conifer使用一个批量测序样本,对不同范围的值显示出更好的准确性GydF4y2Ba\ \ uplambda \ ()GydF4y2Ba. 此外,对于更大的GydF4y2Ba\ \ uplambda \ ()GydF4y2Ba再加上针叶树的高精度,即使对于较小的GydF4y2Ba\ \ uplambda \ ()GydF4y2Ba是Conifer方法在结合单细胞和大量测序数据方面的有效性的证据,λ的大值表明单细胞和大量基因型频率之间的差异较小。GydF4y2Ba

图4GydF4y2Ba
图4.GydF4y2Ba

用20个克隆和100个突变模拟的100个克隆树的Oncem和针叶树模型的共聚类精度比较GydF4y2Ba\λ(\ \)GydF4y2Ba = 1、5、10和1000。对于单细胞数据,每个克隆树提取25、50和100个基因型。有一个覆盖范围为10000的批量测序样本。以下错误添加到单细胞数据中:假阳性率为10GydF4y2Ba–5GydF4y2Ba假阴性率为0.2,缺失率为0.05,双重阴性率为0.1GydF4y2Ba

CNV的存在GydF4y2Ba

尽管针叶树假定SNVs得到copy-number-neutral地区和VAFs不受拷贝数变化的影响,它仍然是准确的关于CNV的改变,单细胞测序数据的事实也被用于克隆鉴定和树推理。在只依赖大量测序数据中VAF相似性的模型中,CNV引起的VAF改变可能导致突变聚类的错误推断。GydF4y2Ba

附加文件中显示了在两个模拟数据集(CNV为30%和50%)上针叶树和B-SCITE的祖先-后代精度测量的比较GydF4y2Ba1.GydF4y2Ba:无花果。S1和S2,分别。由此可以得出的结论是针叶树的精度也不会通过改变的CNV的比例显著影响,并且它比B-赛特在两个数据集的细胞的各种数目的更准确。GydF4y2Ba

克隆识别准确率GydF4y2Ba

在附加文件中评估和比较了Conifer, ddClone和B-SCITE方法在SNV聚类中的准确性GydF4y2Ba1.GydF4y2Ba:无花果。S3和S4,用于100个克隆树模拟,10个、20个和40个克隆,100个snv,一个覆盖10000个的批量测序样本,以及50个单细胞基因型。模拟的单细胞数据产生的错误如下:假阳性率GydF4y2Ba\({10}^{-5}\)GydF4y2Ba,假阴性率为0.2,漏检率为0.05,双胎率为0.1。在这个比较中,忽略了单细胞测序数据中不存在的突变。在附加文件中GydF4y2Ba1.GydF4y2Ba图S3,根据调整后的rand评分测量,Conifer在不同数量的克隆和不同范围的λ值上优于两种方法。在附加文件GydF4y2Ba1.GydF4y2Ba图S4, Conifer和B-SCITE都能很好地根据V-measure来检测正确的无性系,而ddClone的准确率较低。这可以从附加文件中得出结论GydF4y2Ba1.GydF4y2Ba:图S4,三种方法的结果对λ的不同值都不是高度敏感的。GydF4y2Ba

大假阳性率GydF4y2Ba

针叶树的表现更容易被评估为假阳性率的较大值。在附加文件中比较了针叶树、B-SCITE和Oncene的推断树木GydF4y2Ba1.GydF4y2Ba:图S5为1%的假阳性率。由于这一相对较大的假阳性率,三种方法的共聚类精度都略有下降,但针叶树的精度仍在可接受的范围内。通过增加λ的值,所有方法的精度都得到了提高,其中针叶树对λ的精度最高 = 此外,对于较大的假阳性率(5%和10%)值,使用V-测量精度比较针叶树和ddClone的聚类精度。在附加文件中GydF4y2Ba1.GydF4y2Ba从图S6可以看出,尽管V-measure的准确性因较大的假阳性率值而适度降低,但Conifer仍然足够准确,并优于ddClone。然而,准确率下降的原因是假阳性误差可能违反假设突变共现,这是Conifer在基于VAFs的snv聚类中使用的先验知识。GydF4y2Ba

性能上的真实数据GydF4y2Ba

结肠直肠癌GydF4y2Ba

Leung等人的研究中提供的结直肠癌患者(CRC2)的真实数据进一步评估了针叶树的性能[GydF4y2Ba31GydF4y2Ba].值得注意的是,在此数据集有原发性和转移性肿瘤的两个批量测序数据与单细胞测序数据一起。GydF4y2Ba

对于CRC2患者,从原发性结直肠癌和肝转移瘤中对182个细胞进行测序。原始研究报告的SNV数量为36。以二元值报告的基因型表明SNV位点存在或不存在突变。在这项研究中,没有突变的细胞被忽略,25个SNV和86个细胞被考虑用于CRC2患者。GydF4y2Ba

针叶树为该数据集推断的克隆树如图所示。GydF4y2Ba5.GydF4y2Ba.树中的每个分支表示的一个或一组单元的突变轮廓,并且每个克隆是一组已发生一个分支,以及它们的VAF频率是不同的散装测序样品中的相似突变。GydF4y2Ba

图5GydF4y2Ba
图5.GydF4y2Ba

通过针叶树推断CRC2患者肿瘤数据的克隆进化树。对于每个SNV,报告了两个数字:大肠肿瘤块样本中的VAF和转移肝块样本中的VAFGydF4y2Ba

针叶树方法引入了一棵有7个节点(克隆)的树,使根节点为非突变型(C1), C2和C3为其后代节点。C2是一个包含体细胞突变(SPEN_1, NR3C2, EPHB6, ATR)的簇。它不同于原发和转移性肿瘤克隆,在克隆树中有一个单独的分支。在Leung等人的原始研究中也提到了这种克隆及其分离分支[GydF4y2Ba31GydF4y2Ba]. C3是第一个从健康细胞进化而来的克隆,有9个突变,包括肿瘤抑制基因tp53。细胞群CP3附加于C3克隆基因型。GydF4y2Ba

在C3克隆形成后和肿瘤转移前的进化过程中,C4克隆通过突变(CHN1、ATP7B、APC: 1、LRP1B)和CP4细胞群形成。该克隆是由于VAFs在一个单细胞谱中的相似性和突变发生而引入的。在Leung等人的原始研究中[GydF4y2Ba31GydF4y2Ba], SCITE方法[GydF4y2Ba22GydF4y2Ba]用来推断突变的进化树,并根据单细胞测序数据报道了转移细胞的两个不同分支,假设突变在进化过程中没有遗漏。GydF4y2Ba

基于体块和单细胞测序数据,Conifer方法显示初生克隆C4的一组细胞已迁移到肝脏,且仅发生过一次迁移。针叶树的结论是,迁移的细胞在肝脏中受到FUS突变的影响,创造出克隆的C5,然后进化成两个独立的分支。针叶树的原因是付家突变作为一个单独的克隆虽然付家突变应该属于克隆C6考虑邻近突变频率与基于单细胞数据,随着VAF不是类似于其他突变克隆(NR4A3, HELZ TSHZ3),创建一个单独的集群。如图所示。GydF4y2Ba5.GydF4y2Ba,Conifer得出结论,除了克隆C6外,克隆C5也是克隆C7的祖先,这可以通过8个细胞轮廓中出现的假阳性来解释。事实上,这表明FUS突变可能与克隆C7(SPEN_2、F8、LAMB4)突变同时发生。GydF4y2Ba

SiCloneFit引种的针叶树与克隆树的比较[GydF4y2Ba25GydF4y2Ba,显示了一些值得一提的差异。在SiCloneFit [GydF4y2Ba25GydF4y2Ba两种“IL2IR”和“APC: 2”突变在原发肿瘤的第一个克隆中同时发生。相反,Conifer根据这两种突变VAFs的相似性,认为它们属于原发肿瘤的第二克隆。此外,SiCloneFit的克隆树[GydF4y2Ba25GydF4y2Ba用于患者CRC2表示多克隆播种。换句话说,它示出了用于转移两个不同分支的存在。事实上,在SiCloneFit可以得出结论,具有不同突变的细胞的两个不同的组已经从初级克隆迁移并形成两个独立的转移性的克隆,和FUS突变发生在两者独立地,并且在两个不同的进化过程。但是,针叶树推断树是更可能是与VAFs相似度作为FUS突变的转移性样本(29.1)在VAF值一致近似等于C6(2.36)和C7(27.56)的总平均VAF值。最近的一项研究,提出了一种方法命名SCARLET [GydF4y2Ba32GydF4y2Ba]也示出通过研究在单细胞测序数据的拷贝数变异,这证实了针叶树的树变化单克隆播种。GydF4y2Ba

三阴性乳腺癌(TNBC)GydF4y2Ba

在Wang等人的研究中,通过分析三阴性乳腺癌,针叶树的性能更多地基于真实数据进行评估[GydF4y2Ba33GydF4y2Ba]. 在进行拷贝数分析和外显子组测序后,提供了16个细胞的单细胞图谱。原始研究推断的克隆树,PHICS[GydF4y2Ba27GydF4y2Ba]和针叶树,用于选定的18个突变(覆盖率为GydF4y2Ba\({10}^{5}\)GydF4y2Ba),如图所示。GydF4y2Ba6.GydF4y2Ba.Conifer提供了基于大量和单细胞数据的克隆树,而原始研究中的克隆进化是基于单细胞外显子组和拷贝数数据推断的,PhISCS以单细胞测序数据矩阵和SCS实验估计噪声率作为输入(克隆树在Karpov等人的研究中有报道[GydF4y2Ba34GydF4y2Ba])。GydF4y2Ba

图6GydF4y2Ba
图6.GydF4y2Ba

三阴性乳腺癌患者的克隆树推断,GydF4y2BaA.GydF4y2Ba克隆树在原始研究中推断[GydF4y2Ba33GydF4y2Ba]基于单细胞外显子组和拷贝数数据,GydF4y2BaBGydF4y2BaPHICS基于单细胞数据推断的克隆树,GydF4y2BaCGydF4y2Ba基于体细胞和单细胞数据的针叶树克隆树推断GydF4y2Ba

其在所有的树(分支前)的线性部分呈现突变是除外,其在下文中讨论的突变ECM1相当彼此相似。GydF4y2Ba

如图所示。GydF4y2Ba6.GydF4y2BaC,针叶树引入4个不同克隆C1,C2,C3,和C4的那些突变这都属于在最初的研究克隆C1。这种差异是因为在最初的研究的克隆C1中的突变具有不同VAFs和针叶树使用散装测序VAFs与单细胞数据一起,提出了不同的聚类是具有突变VAFs相似更加一致。GydF4y2Ba

此外,在针叶树和PhISCS之间,VAF值为35.3%的突变SETBP1和VAF值为42.2%的突变NOTCH2的克隆是不同的。在PhISCS中,它们分别属于无性系C1和C2,而在针叶树中,它们相反地聚集在一起。换句话说,在针叶树中,NOTCH2突变属于克隆C1,平均VAF值为39.05%,SETBP1突变属于克隆C2,平均VAF值为35.7%。此外,与具有35.4%VAF值的突变AFF4属于克隆C3(也包含具有26.1%VAF值的突变NTRK1)的PhISCS相比,针叶树将其置于具有35.3%和36%VAF值的突变SETBP1和NOTCH3的同一克隆中,这与VAFs的相似性更为一致。针叶树和PhISCS之间MAP2K7突变位置的差异也值得一提。针叶树将VAF值为13.4%的突变MAP2K7放在一个不同的克隆C4中,而在PhISCS树中,它位于突变NOTCH2和NOTCH3的同一克隆中,VAF值分别为42.2%和36%,这与突变MAP2K7的VAF值显著不同,似乎与VAF相似性不一致。GydF4y2Ba

突变ECM1的单细胞共现频率与克隆C5(TGFB2,CHRM5)的突变频率不相似,因此ECM1和C5(TGFB2,CHRM5)位于针叶树的不同分枝中。另一方面,突变ECM1与克隆C6和C8中单细胞共现频率的突变相似,因此,针叶树引入克隆C7(包含突变ECM1)作为克隆C6和C8的祖先。这种突变的位置清楚地表明针叶树是如何依赖VAFs相似性数据来识别克隆的,同时使用单细胞数据来寻找树中克隆的最合适位置。GydF4y2Ba

最后,原始研究树(C2, C3, C4)叶片无性系的突变与针叶树(C5, C6, C8)叶片无性系的突变非常相似,而与PhISCS树(C4, C5), (C7, C8)和(C9)叶片无性系的突变略有不同。根据VAF相似性形成C10),然后合并每对克隆,得到的克隆分别相当于原始研究树中的C2、C3和C4克隆。GydF4y2Ba

结论GydF4y2Ba

在本研究中,引入了一种新的可靠和有效的方法——针叶树法,通过结合单细胞和批量测序数据来推断肿瘤克隆树。针叶树为基于单细胞和批量测序数据的无性系及其进化关系的识别提供了一个生成性非参数模型,该模型考虑了无限位点假设(ISA)。GydF4y2Ba

针叶树方法具有同时识别克隆和系统发育树的特点。每个树枝包含一个或多个细胞的突变,它们的共同克隆是通过不同批量测序样本中的VAFs相似性获得的。在针叶树中,具有在更多细胞中常见基因型的克隆更接近根。GydF4y2Ba

为了评估针叶树的性能,使用不同数量的SNV、细胞、大量样本和克隆模拟了一整套单细胞和批量测序数据。此外,还考虑了大范围的错误率、分类偏差和双重性。通过对模拟数据集的研究表明,在不同的无性系鉴定标准和无性系进化树评价标准下,针叶树方法比其他现有方法更准确。为了评估针叶树在真实数据集上的表现,使用了一名结直肠癌患者的数据。在本研究中,针叶树通过综合考虑原发性和转移性肿瘤的单细胞和批量测序数据,提供克隆、细胞群体和克隆树的基因型。在获得的克隆树中,清楚地确定了发生转移的进化阶段。GydF4y2Ba

此外,通过三阴性乳腺癌患者的真实数据评估了Conifer的表现,结果表明,Conifer推断树在整体和单细胞数据中分别与VAFs和共现突变完全一致。GydF4y2Ba

总之,与其他现有方法相比,针叶树提供了更准确的肿瘤异质性克隆树。这是通过结合单细胞和批量测序数据实现的,前者用于解决识别肿瘤中共同出现的类似普遍克隆的挑战,并解决系统发育推断的模糊性,后者用于减少单细胞测序错误的影响,如假阴性率和取样偏差。GydF4y2Ba

材料与方法GydF4y2Ba

针叶树的目的是引进有根的克隆树GydF4y2Ba\(T\)GydF4y2Ba与GydF4y2Ba\ (\)GydF4y2Ba其被标记为节点GydF4y2Ba\(N\left(T\right)=\left\{{\vartheta{0}、\vartheta{1}、\ldots、\vartheta{s}}\ right\})GydF4y2Ba通过使用不同批量测序样本的单细胞突变谱和VAFs。针叶树提供了一个贝叶斯非参数模型来推断无性系树,而不需要知道无性系或它们的进化树。在贝叶斯非参数模型中,必须找到无限树层次和克隆集合上的后验分布。后验分布的推断是通过MCMC算法来近似分布在树,克隆和snv分配。GydF4y2Ba

该算法的两个主要步骤是采样路径分配和采样级别分配,这两个步骤连续重复足够的迭代次数,以使马尔可夫链收敛到平稳分布。本节将对这两个步骤进行说明。GydF4y2Ba

Blei等人研究中引入的巢状CRP [GydF4y2Ba35GydF4y2Ba]作为Conifer提供的贝叶斯非参数模型的先验。此外,通过针叶树对嵌套CRP模型进行了扩展,使其不再是普通CRP,而是与距离相关的CRP[GydF4y2Ba36GydF4y2Ba用于级别分配。为了回顾针叶树的主要成分,下面简要说明。GydF4y2Ba

巢式CRPGydF4y2Ba

这是一个提供树拓扑的先验过程,对树拓扑的宽度和深度没有任何限制。为了理解嵌套CRP,首先应该定义中餐厅过程(Chinese Restaurant Process, CRP)。CRP是引入顾客分布的随机过程,依次进入有无限张桌子的餐厅,并坐在一张桌子前。坐在一张桌子旁的概率与已经坐在那张桌子旁的顾客人数成正比。顾客也可以坐在新桌子与概率成正比的模型参数GydF4y2Ba\(\gamma\)GydF4y2Ba.形成的坐席规划代表了客户集群。为了显示CRP的配方,Blei等人研究中的标记[GydF4y2Ba36GydF4y2Ba使用)。为客户分配餐桌GydF4y2Ba我\ \ ()GydF4y2Ba是GydF4y2Ba\(c_{i}\)GydF4y2Ba,并在客户GydF4y2Ba我\ \ ()GydF4y2Ba他的入口,GydF4y2Ba\(K\)GydF4y2Ba桌子被客人占据了GydF4y2Ba\ [1 \)GydF4y2Ba到GydF4y2Ba\(i-1\)GydF4y2Ba.假设GydF4y2Ba\(n{k}\)GydF4y2Ba坐在桌子旁的顾客人数是多少GydF4y2Ba\(k\)GydF4y2Ba,然后GydF4y2Ba\(c_{i}\)GydF4y2Ba为Eq. (GydF4y2Ba1.GydF4y2Ba).GydF4y2Ba

$$p\left({c{i}=k{124;}c{1:\left({i-1}\right)}、\gamma}\right)\propto\left\{{begin{array}{20}{l}{n{k}\hfill&{for\quad k\le k}\hfill \\\gamma hfill&{for\quad k=k+1\hfill end}\hfill right}$$GydF4y2Ba
(1)GydF4y2Ba

嵌套的CRP是一个扩展的CRP,其中不是只有一个餐馆,而是假设有无限多的中餐馆和无限多的桌子。一个餐厅被选为根,在每一张桌子上,都有一张写着下一个餐厅名字的卡片,坐在那张桌子上的人第二天晚上应该去哪家餐厅。实际上,由于每个餐厅只涉及一次,所以不同餐厅之间的关系形成了树形结构。因此,嵌套的CRP提供了树拓扑的优先级,树的每个节点在其后代上提供一个CRP。GydF4y2Ba

距离依赖性CRPGydF4y2Ba

这个过程是CRP的另一种表示方式,客户不是连接不同的表,而是相互连接。军事c反应蛋白(GydF4y2Ba36GydF4y2Ba]意味着,如果两个客户必须通过一系列的客户连接的互相访问,然后他们坐在同一张桌子。因此,客户的座位分配取决于它们之间的距离。用于表示用户连接,曲线图被限定在其中的节点和边表示的客户和他们的连接,分别。换句话说,如果GydF4y2Ba\ (z_{我}\)GydF4y2Ba客户的索引是否加入该客户GydF4y2Ba我\ \ ()GydF4y2Ba,然后是二进制GydF4y2Ba\(left({i,z_{i}}})\)GydF4y2Ba为图的方向边。根据该相似图中的连通子图定义聚类。让GydF4y2Ba\({\varvec{t}}\)GydF4y2Ba和GydF4y2Ba\ \ (f)GydF4y2Ba分别是客户和衰减函数之间的距离测量值。客户分配由距离相关的CRP作为等式绘制(GydF4y2Ba2.GydF4y2Ba).GydF4y2Ba

$$ p \左({Z_ {I} = j的{|} T,\ ETA} \右)\ propto \左\ {{\开始{阵列} {* {20} L} {F \左(T_ {{IJ}} \右)} \ hfill&{如果\四I \ NEĴ} \ hfill \\?\ ETA \ hfill&{如果\四I = j的} \ hfill \\?\ {端阵列}} \右。$$GydF4y2Ba
(2)GydF4y2Ba

的范围GydF4y2Ba我\ \ ()GydF4y2Ba和GydF4y2Ba\ (j \)GydF4y2Ba从1到客户数量,以及GydF4y2Ba\(\eta\)GydF4y2Ba是控制连接图中自循环的模型参数。此外,诱导表赋值由GydF4y2Ba\(左/左(z/右)\)GydF4y2Ba.GydF4y2Ba

输入数据GydF4y2Ba

单细胞数据由一个GydF4y2Ba\(N \乘以m \)GydF4y2Ba矩阵GydF4y2Ba\(M\)GydF4y2Ba其中每行和每列表示SNV和细胞,分别和其具有零表明没有突变发生在对应的位置的值的元件,而其中一个装置的值发生了突变。GydF4y2Ba

此外,批量数据由GydF4y2Ba\(N \次数b {} \)GydF4y2Ba矩阵GydF4y2Ba\ (B \)GydF4y2Ba它的行是snv,它的列是大样本,每个元素GydF4y2Ba\(B_{ij}\)GydF4y2Ba是一种变异等位基因频率,对应于第j个批量样本中的第i个SNV。GydF4y2Ba

采样路径GydF4y2Ba

在第一次迭代时,Conifer使用嵌套的CRP生成树路径,每个单元都被视为客户。来表示每个单单元GydF4y2Ba我\ \ ()GydF4y2Ba,GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba定义为该单元格中值为1的一组SNV。使用嵌套CRP生成路径的过程如下:在第一步(嵌套CRP中的第一个夜晚),根节点GydF4y2Ba\ (\ vartheta_ {0} \)GydF4y2Ba没有任何孩子,因此对于GydF4y2Ba\({\varvec{w}}{1}\)GydF4y2Ba(第一个客户)它生成节点GydF4y2Ba\ (\ vartheta_ {1} \)GydF4y2Ba以1的概率。这一过程对每个人都重复GydF4y2Ba\(k\)GydF4y2Ba步骤(夜)和生成GydF4y2Ba\(k\)GydF4y2Ba水平GydF4y2Ba\(k\)GydF4y2Ba随机数的大小是否受限制GydF4y2Ba\({\varvec{w}}{1}\)GydF4y2Ba.对应路径GydF4y2Ba\({\varvec{w}}{1}\)GydF4y2Ba标记为GydF4y2Ba\ ({\ varvec {c}} _ {1} \)GydF4y2Ba. 用于生成下一个单元格的路径(GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba与GydF4y2Ba\ (d > 1 \)GydF4y2Ba),有两个选择;产生节点作为根节点的一个新的子GydF4y2Ba\ (\ vartheta_ {0} \)GydF4y2Ba有可能GydF4y2Ba\(frac{gamma}{{gamma + d - 1{}}}}\)GydF4y2Ba(GydF4y2Ba\(\gamma\)GydF4y2Ba是模型参数),还是选择孩子GydF4y2Ba\ (\ vartheta_ {j} \)GydF4y2Ba根节点的GydF4y2Ba\ (\ vartheta_ {0} \)GydF4y2Ba有可能GydF4y2Ba\(\压裂{{\左| {N_ {Ĵ}} \右|}} {{\伽马+ d - 1 {}}} \)GydF4y2Ba(GydF4y2Ba\(\left{n{j}\right})GydF4y2Ba选择的单元格数是多少GydF4y2Ba\ (\ vartheta_ {j} \)GydF4y2Ba到目前为止)去通过。在处理每个GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba并生成相应的路径GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba,它的突变被分配到路径节点GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba随机。生成的树的概率通过乘以所有路径的概率计算,并用作贝叶斯模型的先验概率。GydF4y2Ba

对于下一次迭代的采样路径步骤,Conifer将删除每个迭代的相应路径GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba从树中删除可能的空节点。然后,使用上面解释的相同过程(除了随机分配突变)将移除的路径添加到树中。GydF4y2Ba

另外,对于那些不存在于任何单个小区个SNV,针叶树增加了额外的套具有一个突变和如下用于产生他们的路径相同的过程。GydF4y2Ba

为了使采样路径更清晰,举例说明了输入定义为单细胞突变矩阵的情况GydF4y2Ba\(M\)GydF4y2Ba和批量数据矩阵GydF4y2Ba\ (B \)GydF4y2Ba如图所示。GydF4y2Ba7.GydF4y2Ba.在此图GydF4y2Ba\ ({\ varvec {w}} _{1} = \左\ {{M_ {1}, M_ {2}, M_ {3}, M_ {4}, M_{5}} \右\}\)GydF4y2Ba定义为一组snv,其值在第一个单元格中为1 (GydF4y2Ba\(d=1\)GydF4y2Ba)及GydF4y2Ba\ ({\ varvec {w}} _ {2} \)GydF4y2Ba,GydF4y2Ba\({\varvec{w}}{3}\)GydF4y2Ba和GydF4y2Ba\({\varvec{w}}{4}\)GydF4y2Ba对其他单元格的定义类似。无花果。GydF4y2Ba7.GydF4y2Bab显示树的第一条路径对应于GydF4y2Ba\({\varvec{w}}{1}\)GydF4y2Ba是由四层生成的,节点标签是GydF4y2Ba\(\左\ {{\ vartheta_ {0},\ vartheta_ {1},\ vartheta_ {2},\ vartheta_ {3}} \右\} \)GydF4y2Ba. 无花果。GydF4y2Ba7.GydF4y2Bac、 生成的路径GydF4y2Ba\ ({\ varvec {w}} _ {2} \)GydF4y2Ba如图所示。要生成此路径,GydF4y2Ba\ ({\ varvec {w}} _ {2} \)GydF4y2Ba将首先指定给节点GydF4y2Ba\ (\ vartheta_ {1} \)GydF4y2Ba有可能GydF4y2Ba\ \(压裂{1}{\伽马+ 1}\)GydF4y2Ba然后,不是把它赋值给nodeGydF4y2Ba\ (\ vartheta_ {2} \)GydF4y2Ba,一个新的节点GydF4y2Ba\(\ vartheta_ {4} \)GydF4y2Ba产生的概率是GydF4y2Ba\(frac{{gamma}{{gamma + 1{}}}}\)GydF4y2Ba. 生成新节点的过程一直持续到级别GydF4y2Ba\ (k = 4 \)GydF4y2Ba.生成路径后,导致树GydF4y2Ba\({\varvec{w}}{3}\)GydF4y2Ba和GydF4y2Ba\({\varvec{w}}{4}\)GydF4y2Ba如图所示。GydF4y2Ba7.GydF4y2BaD当生成初始树时,每个树的GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba被分配给随机图如图所示的其相应的路径中的节点。GydF4y2Ba7.GydF4y2Bae。GydF4y2Ba

图7GydF4y2Ba
图7.GydF4y2Ba

一个示意图示例显示了针叶树推断的采样步骤,GydF4y2BaA.GydF4y2Ba变量GydF4y2Ba\({\varvec{w}}{1}\)GydF4y2Ba,GydF4y2Ba\({} {\ varvec {瓦特}} _ {2} \)GydF4y2Ba,GydF4y2Ba\ ({} {\ varvec {w}} _ {3} \)GydF4y2Ba和GydF4y2Ba\({\varvec{w}}{4}\)GydF4y2Ba对于单元1至4由多组与一个在对应单元的值的个SNV定义。矩阵GydF4y2Ba\({\ varvec {A}} \)GydF4y2Ba和GydF4y2Ba\({\varvec{B}}\)GydF4y2Ba显示个SNV的单细胞数据和VAFs不同批量样品中,分别GydF4y2BaBGydF4y2Ba生成的路径GydF4y2Ba\ ({\ varvec {c}} _ {1} \)GydF4y2Ba对应于GydF4y2Ba\({\varvec{w}}{1}\)GydF4y2Ba节点标签为GydF4y2Ba\(\左\ {{\ vartheta_ {0},\ vartheta_ {1},\ vartheta_ {2},\ vartheta_ {3}} \右\} \)GydF4y2Ba,GydF4y2BaCGydF4y2Ba生成的路径GydF4y2Ba\({\varvec{c}}{2}\)GydF4y2Ba对应于GydF4y2Ba\ ({\ varvec {w}} _ {2} \)GydF4y2Ba节点标签为GydF4y2Ba\(\left\{\vartheta\{0}、\vartheta\{1}、\vartheta\{4}、\vartheta\{5}\ right\})GydF4y2Ba,GydF4y2BaDGydF4y2Ba生成的路径GydF4y2Ba\({\ varvec {C}} _​​ {3} \)GydF4y2Ba和GydF4y2Ba\ ({\ varvec {c}} _ {4} \)GydF4y2Ba对应于GydF4y2Ba\({\varvec{w}}{3}\)GydF4y2Ba和GydF4y2Ba\({\varvec{w}}{4}\)GydF4y2Ba节点标签为GydF4y2Ba\(左\ \ {{\ vartheta_ {0}, \ vartheta_ {6}, \ vartheta_{7}} \右\}\)GydF4y2Ba和GydF4y2Ba\(左\ \ {{\ vartheta_ {0}, \ vartheta_ {8}, \ vartheta_{9}} \右\}\)GydF4y2Ba分别GydF4y2BaEGydF4y2Ba初始树,随机变异赋值GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba到对应路径的节点,GydF4y2BaFGydF4y2Ba路径采样电平结果GydF4y2Ba\ ({\ varvec {c}} _ {1} \)GydF4y2Ba,GydF4y2BaGGydF4y2Ba路径采样电平结果GydF4y2Ba\({\varvec{c}}{2}\)GydF4y2Ba,GydF4y2BaHGydF4y2Ba最后两条路径的采样级别结果GydF4y2Ba\({\ varvec {C}} _​​ {3} \)GydF4y2Ba和GydF4y2Ba\ ({\ varvec {c}} _ {4} \)GydF4y2Ba,GydF4y2Ba我GydF4y2Ba采样路径和采样级别连续迭代后的最终树GydF4y2Ba

抽样水准GydF4y2Ba

基于不同批量测序样本中的VAFs相似性,每个路径的针叶树簇突变。可能有两个不同的克隆具有相同的VAFs平均值,这使得它们的突变聚类不明确。考虑到这些突变在单细胞测序数据中的共现模式及其VAFs相似性,有助于解决这种模糊性。因此,针叶树采用距离依赖型CRP而非Blei等人研究的普通CRP进行采样[GydF4y2Ba35GydF4y2Ba考虑突变的共现频率作为它们之间的距离。换言之,距离依赖性CRP导致的连接突变模式是基于单细胞数据的贝叶斯模型的先验知识,并且这些模式的可能性是通过基于不同批量样本中突变的VAF的聚类之间的连接强度来计算的。此外,采用最大后验期望调整Rand(MPEAR)方法对Gibbs采样器SNV水平分配的后验样本进行了总结[GydF4y2Ba37GydF4y2Ba].此外,节点按照其平均VAF值和snv出现数均值的加权平均值(ISA假设)排序,使得平均均值较高的节点位于较低的水平。GydF4y2Ba

在Fig的例子中。GydF4y2Ba7.GydF4y2Ba,路径的采样级别的结果GydF4y2Ba\ ({\ varvec {c}} _ {1} \)GydF4y2Ba如图所示。GydF4y2Ba7.GydF4y2Ba其中有两个突变簇GydF4y2Ba\(\left\{M{1}、M{2}、M{3}\ right\})GydF4y2Ba和GydF4y2Ba\(\left\{M{4},M{5}}\right\}\)GydF4y2Ba将生成和节点GydF4y2Ba\ (\ vartheta_ {3} \)GydF4y2Ba没有突变的基因被移除。然后,对突变进行聚类GydF4y2Ba\(\left\{M{1},M{2},M{3},M{9},M{10}\ right\})GydF4y2Ba在节点中GydF4y2Ba\ (\ vartheta_ {1} \)GydF4y2Ba,GydF4y2Ba\ ({} \ vartheta_ {4} \)GydF4y2Ba和GydF4y2Ba\ (\ vartheta_ {5} \)GydF4y2Ba在路上GydF4y2Ba\({\varvec{c}}{2}\)GydF4y2Ba和节点GydF4y2Ba\ (\ vartheta_ {5} \)GydF4y2Ba,得到的结果树如图所示。GydF4y2Ba7.GydF4y2BaG最后两条路径的采样级别结果GydF4y2Ba\({\ varvec {C}} _​​ {3} \)GydF4y2Ba和GydF4y2Ba\ ({\ varvec {c}} _ {4} \)GydF4y2Ba如图所示。GydF4y2Ba7.GydF4y2Ba中的H哪些节点GydF4y2Ba\(\vartheta_{7}\)GydF4y2Ba和GydF4y2Ba\(\vartheta_u{9}\)GydF4y2Ba由于没有指定突变,因此被删除。如图所示。GydF4y2Ba7.GydF4y2BaH,在抽样水平的最后,两个节点GydF4y2Ba\ (\ vartheta_ {6} \)GydF4y2Ba和GydF4y2Ba\ (\ vartheta_ {1} \)GydF4y2Ba呈现相同的基因型,并在下一次迭代的采样路径中合并在一起。迭代执行采样路径和采样电平步骤,最终得到如图所示的树。GydF4y2Ba7.GydF4y2Ba一世。GydF4y2Ba

为了解释如何计算突变共现频率用于距离依赖性CRP,一个独特的途径GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba被考虑在内。路径中所有SNV对的共现频率GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba定义为GydF4y2Ba\(N _ {{{\ varvec {C}} _​​ {d}}} \ n次_ {{{\ varvec {C}} _​​ {d}}} \)GydF4y2Ba矩阵GydF4y2Ba\ ({\ varvec {t}} _ {{{\ varvec {c}} _ {d}}} \)GydF4y2Ba哪一个GydF4y2Ba\(n_{{{varvec{c}}_{d}} {}\)GydF4y2Ba路径上snv的数量是多少GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba.的每个元素GydF4y2Ba\ ({\ varvec {t}} _ {{{\ varvec {c}} _ {d}}} \)GydF4y2Ba由两个SNV发生的细胞数除以单细胞基质中的细胞总数计算得出GydF4y2Ba\ ({\ varvec {M}} \)GydF4y2Ba.GydF4y2Ba

为了基于VAF的相似性对SNV进行聚类,aGydF4y2Ba\(N _ {{{\ varvec {C}} _​​ {d}}} \ n次_ {{{\ varvec {C}} _​​ {d}}} \)GydF4y2Ba连接矩阵GydF4y2Ba\({\varvec{V}}}{{{\varvec{c}}}{d}}\)GydF4y2Ba为每个不同的路径计算GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba在树中。的每个元素GydF4y2Ba\({\varvec{V}}}{{{\varvec{c}}}{d}}\)GydF4y2Ba为路径中对应SNV对的VAFs的欧氏距离。GydF4y2Ba

以共现频率矩阵的计算为例GydF4y2Ba\({\ varvec {吨}} _ {{{\ varvec {C}} _​​ {1}}} \)GydF4y2Ba连通性矩阵GydF4y2Ba\({\varvec{V}}}{{{\varvec{c}}}{d}}\)GydF4y2Ba为图的样本输入。GydF4y2Ba7.GydF4y2Ba如图所示。GydF4y2Ba8.GydF4y2Ba.GydF4y2Ba

图8GydF4y2Ba
图8.GydF4y2Ba

A.GydF4y2Ba显示克隆树的示意图示例,GydF4y2BaBGydF4y2Ba突变共现频率的计算GydF4y2Ba\({\ varvec {吨}} _ {{{\ varvec {C}} _​​ {1}}} \)GydF4y2Ba为路径GydF4y2Ba\ ({\ varvec {c}} _ {1} \)GydF4y2Ba在无性系树上,GydF4y2BaCGydF4y2Ba连通矩阵的计算GydF4y2Ba\({\ varvec {V}} _ {{{\ varvec {C}} _​​ {1}}} \)GydF4y2Ba为路径GydF4y2Ba\ ({\ varvec {c}} _ {1} \)GydF4y2Ba在克隆树中GydF4y2Ba

配方GydF4y2Ba

在Baldassano等人的研究中使用符号[GydF4y2Ba38GydF4y2Ba]对于连通性聚类模型,Conifer的生成模型公式描述如下:GydF4y2Ba

$$ {\ varvec {C}} _​​ {d} {} \ SIM {} NCRP \左({\γ,{\ varvec {瓦特}} _ {d}} \右)\四{\文本{嵌套}} \ {\文本{CRP}} \; \左({{\文本{抽样}} \ {\文本{路径}}} \右)$$GydF4y2Ba
(3)GydF4y2Ba
$ $ {\ varvec {z}} _ {{{\ varvec {c}} _ {d} {}}} \ sim左({{}ddCRP \ \埃塔,{\ varvec {f}}, {\ varvec {t}} _ {{{\ varvec {c}} _ {d}}}, {\ varvec {V}} _ {{{\ varvec {c}} _ {d } }} { }} \ 右)\四{\文本{距离-依赖}}\;文本{CRP}}{\ \; \离开({{\文本抽样}{}\;{\文本{水平}}}\右)$ $GydF4y2Ba
(4)GydF4y2Ba
{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{}}}}}{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{}}}}}}{{{{{{{{{{{{{{{{{{}}}},}}}}}}}}}}}}}}}}}}}}{{{{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}{{{{{{{{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}}}}}}}}}vec{c}}{d}{{}}\右{{j}}、{\varvec{\ sigma}}}{{l \左({{\ varvec{z}}}{{{{\ varvec{c}}}}{{d}\右){{{i},{}l\左({{\varvec{z}}{{{{\varvec{c}}}}{d}{}}}}}\右){{j}}{{2}\右)$$GydF4y2Ba
(5)GydF4y2Ba
$ $ {\ varvec{一}}_ {{l \离开({{\ varvec {z}} _ {{{\ varvec {c}} _ {d } { }}} } \ 右)_{我}{},{}l \离开({{\ varvec {z}} _ {{{\ varvec {c}} _ {d } { }}} } \ 右)_ {j}}}, {\ varvec{\σ}}_ {{l \离开({{\ varvec {z}} _ {{{\ varvec {c}} _ {d } { }}} } \ 右)_{我}{},{}l \离开({{\ varvec {z}} _ {{{\ varvec {c}} _ {d } { }}} } \ 右)_ {j}}} ^{2}{} \正常sim{} -逆\气^ {2}{} \离开({{\ upmu} _ {0} {}, \ kappa_ {0}, \ sigma_ {0} ^ {2}, \ nu_{0}} \右)$ $GydF4y2Ba
(6)GydF4y2Ba
$$f{ij}=\frac{\exp\left({-t{{\varvec{c}}}{d},ij}{}+a}\right)}{{\left({1+exp}\left({-t{\varvec{c}}}},ij}{{d},ij}+a}\right)}}{{\left({-t{\varvec}{d},ij}+a}\right}}$$GydF4y2Ba
(7)GydF4y2Ba

在这个模型中GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba被定义为一组snv,在cellGydF4y2Ba\(d\left({d = 1}to{}m} \right)\)GydF4y2Ba和GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba是嵌套CRP生成的相应路径,带有参数GydF4y2Ba\(\gamma\)GydF4y2Ba伽马分布。GydF4y2Ba\({\varvec{z}}{{{\varvec{c}}}{d}}}\)GydF4y2Ba是一个向量,其大小与路径中的突变数有关GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba由依赖距离的c反应蛋白产生。它为路径中的所有突变定义突变链接GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba. 也,GydF4y2Ba\(升\左({{\ varvec {Z}} _ {{{\ varvec {C}} _​​ {d} {}}}} \右)\)GydF4y2Ba级别分配是从GydF4y2Ba\({\varvec{z}}{{{\varvec{c}}}{d}}}\)GydF4y2Ba,为路径上的每个突变GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba.GydF4y2Ba

此外,GydF4y2Ba\(\eta\)GydF4y2Ba是遵循Gamma分布的模型参数,控制连接图中的自环。衰减函数表示为GydF4y2Ba\({\varvec{f}}}\)GydF4y2Ba和超参数GydF4y2Ba\(a\)GydF4y2Ba. 变量GydF4y2Ba\ ({\ varvec {t}} _ {{{\ varvec {c}} _ {d}}} \)GydF4y2Ba表示路径中所有SNV对的共现频率矩阵GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba. 此外GydF4y2Ba\({\ varvec {A}} \)GydF4y2Ba表示两个集群的连通性强度GydF4y2Ba\ (l \离开({{\ varvec {z}} _ {{{\ varvec {c}} _ {d } { }}} } \ 我右)_ {}\)GydF4y2Ba和GydF4y2Ba\ (l \离开({{\ varvec {z}} _ {{{\ varvec {c}} _ {d } { }}} } \ 右)_ {j} \)GydF4y2Ba和GydF4y2Ba\ ({\ varvec{\σ}}^ {2}{}\)GydF4y2Ba是它们的连通性差异。GydF4y2Ba\({\ varvec {A}} \)GydF4y2Ba和GydF4y2Ba\({\ varvec {\西格玛}} ^ {2} \)GydF4y2Ba遵循GydF4y2Ba\(正态-逆- \chi^{2} {}\)GydF4y2Ba具有标量先验均值和精度的分布函数GydF4y2Ba\(\left({\upmu}{0}、\kappa{0}}\right)\)GydF4y2Ba和GydF4y2Ba\(\左({\ sigma_ {0} ^ {2},\ nu_ {0}} \右)\)GydF4y2Ba,分别。GydF4y2Ba

针叶树概率图模型(附加文件GydF4y2Ba1.GydF4y2Ba:图S7)和表示法参考表(附加文件GydF4y2Ba1.GydF4y2Ba:表S1)在附加文件中提供GydF4y2Ba1.GydF4y2Ba.GydF4y2Ba

推论GydF4y2Ba

通过对单细胞和批量测序数据的突变路径和水平的后验分布推断,发现了肿瘤异质性克隆树GydF4y2Ba\(P({\ varvec {C}} _​​ {d},{\ varvec {Z}} _ {{{\ varvec {C}} _​​ {d} {}}} | \γ,\ ETA,{\varvec {F}},{\ varvec {吨}} _ {{{\ varvec {C}} _​​ {d}}},{\ varvec {V}} _ {{{\ varvec {C}} _​​ {d}}},{\ varvec {瓦特}} _ {d})\)GydF4y2Ba.通过迭代执行抽样路径和抽样水平分配,该后验近似于坍塌吉布斯抽样。GydF4y2Ba

  1. (1)GydF4y2Ba

    抽样路径:GydF4y2Ba

    $ $ p \离开({{\ varvec {c}} _ {d} {|} {\ varvec {c}} _ {- d}, {\ varvec {w}}, {\ varvec {z}}, \伽马\埃塔}\)\ propto p \离开({{\ varvec {c}} _ {d} {|} {\ varvec {c}} _ {- d},伽马}\ \右)p \离开({{\ varvec {w}} _ {d} {|} {\ varvec {c}}, {\ varvec {w}} _ {- d}, {\ varvec {z}},埃塔\}\右)$ $GydF4y2Ba
    (8)GydF4y2Ba

    在等式中(GydF4y2Ba8.GydF4y2Ba)表示贝叶斯模型,GydF4y2Ba\({\ varvec {C}} _​​ { - d} \)GydF4y2Ba在路径去除对应于该小区中的突变后的所有路径存在于树GydF4y2Ba\(d\)GydF4y2Ba.这个词GydF4y2Ba\(左({\varvec{w}}{d}{\varvec{c}、{\varvec{w}}}{-d}、{\varvec{z}、\eta}\right)\)GydF4y2Ba表示以下概率:GydF4y2Ba\({\varvec{w}}{d}\)GydF4y2Ba创造了一个特定的路径,GydF4y2Ba\ (p \离开({{\ varvec {c}} _ {d} {|} {\ varvec {c}} _ {- d},伽马}\ \右){}\)GydF4y2Ba是基于嵌套CRP的先验概率,可通过等式计算(GydF4y2Ba1.GydF4y2Ba).计算细节在附加文件中提供GydF4y2Ba1.GydF4y2Ba.GydF4y2Ba

  2. (2)GydF4y2Ba

    抽样水准作业:GydF4y2Ba

    针叶树在变异链接上进行采样GydF4y2Ba\ ({{\ varvec {z}}} _ {d} \)GydF4y2Ba如下:GydF4y2Ba

    $$ \开始{对齐}&P \左({\左({Z _ {{{\ varvec {C}} _​​ {d} {}}}} \右)_ {I} ^ {{\左({新} \右)}} {|} \左({{\ varvec {Z}} _ {{{\ varvec {C}} _​​ {d} {}}}} \右)_ { - 我},{\ varvec {C}} _​​ {d},{\ varvec {V}} _ {{{\ varvec {C}} _​​ {d}}},\ ETA,{\ varvec {F}},{\ mathbf {吨}} _ {{{\ mathbf {C}} _​​ {{\文本{d}}}}}} \右)\ propto \\&\四\四\四p \左({\左({Z_{{{\ varvec {C}} _​​ {d} {}}}} \右)_ {I} ^ {{\左({新} \右)}} {|} \ ETA,{\ varvec {F}},{\ varvec {吨}} _ {{{\ varvec {C}} _​​ {d}}}} \右)p {(} {\ varvec {V}} _ {{{\ varvec {C}} _ {d}}} {|}升\左({\左({{\ varvec {Z}} _ {{{\ varvec {C}} _​​ {d} {}}}} \右)_ {- I} \杯\左({Z _ {{{\ varvec {C}} _​​ {d}}}} \右)_ {I} ^ {{\左({新} \右)}}} \右),{\ varvec {C}} _​​ {d})\\ \ {端对齐} $$GydF4y2Ba
    (9)GydF4y2Ba

在Eq的贝叶斯模型中(GydF4y2Ba9GydF4y2Ba),GydF4y2Ba\(\左({z{{\varvec{c}}}{d}}}}}\右){i}\)GydF4y2Ba表示与突变的联系GydF4y2Ba我\ \ ()GydF4y2Ba和GydF4y2Ba\(\left({\varvec{z}}}{{{\varvec{c}}}}{d}}}}\right){-i}\)GydF4y2Ba突变的载体是从哪里来的GydF4y2Ba\(\左({z{{\varvec{c}}}{d}}}}}\右){i}\)GydF4y2Ba被移除。为了考虑不同的取样选择,符号GydF4y2Ba\(\left({z{{\varvec{c}}}}{d}}}}}\right){i}}{\left({new}\right)}}GydF4y2Ba用于表示突变的新链接GydF4y2Ba我\ \ ()GydF4y2Ba去除后GydF4y2Ba\(\左({z{{\varvec{c}}}{d}}}}}\右){i}\)GydF4y2Ba.在等式中(GydF4y2Ba9GydF4y2Ba),这个词GydF4y2Ba\(p\left({\left({z{{\varvec{c}}}}}{d}}}}}\right){\left({new}\right}}}}}}}{eta,{\varvec{f}},{\varvec{t}}{t}{d}{GydF4y2Ba为先验概率,先验概率基于距离依赖的CRP,可通过公式(GydF4y2Ba2.GydF4y2Ba). 术语GydF4y2Ba\ (p {} {\ varvec {V}} _ {{{\ varvec {c}} _ {d}}} {|} l \离开({\离开({{\ varvec {z}} _ {{{\ varvec {c}} _ {d}}}} \右)_{——我}\杯\离开({z_ {{{\ varvec {c}} _ {d}}}} \右)_{我}^{{\离开({新}\右)}}}\右),{\ varvec {c}} _ {d}) \)GydF4y2Ba是否有可能GydF4y2Ba\({\varvec{V}}}{{{\varvec{c}}}{d}}\)GydF4y2Ba根据给出的簇GydF4y2Ba\ (l \离开({\左({{\ varvec {z}} _ {{{\ varvec {c}} _ {d}}}} \右)_{——我}\杯\离开({z_ {{{\ varvec {c}} _ {d}}}} \右)_{我}^{{\离开({新}\右)}}}\)\)GydF4y2Ba在路上GydF4y2Ba\({\varvec{c}}{d}\)GydF4y2Ba.计算细节在附加文件中GydF4y2Ba1.GydF4y2Ba.GydF4y2Ba

可用性数据和材料GydF4y2Ba

当前研究期间分析的测序数据集可从序列读取档案中获得,登录号为SRP074289(对于患者CRC2)和SRA053195(对于TNBC患者)。以下链接中提供了所有源代码:GydF4y2Bahttps://github.com/LeilaBagha/ConiferGydF4y2Ba.GydF4y2Ba

缩写GydF4y2Ba

背景:GydF4y2Ba

脱氧核糖核酸GydF4y2Ba

CRP:GydF4y2Ba

中国餐馆的过程GydF4y2Ba

CNV:GydF4y2Ba

拷贝数变化GydF4y2Ba

密度:GydF4y2Ba

马尔可夫链蒙特卡罗GydF4y2Ba

MPEAR:GydF4y2Ba

最大后验预期调整兰特GydF4y2Ba

VAF:GydF4y2Ba

不同的等位基因频率GydF4y2Ba

SNV:GydF4y2Ba

单核苷酸变异GydF4y2Ba

ISA:GydF4y2Ba

无限场地假设GydF4y2Ba

参考GydF4y2Ba

  1. 1.GydF4y2Ba

    肿瘤细胞群的克隆进化。科学。1976;194(4260):23–8.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba谷歌学者GydF4y2Ba

  2. 2.GydF4y2Ba

    肿瘤异质性。柏林:自然出版集团;2013.GydF4y2Ba

    谷歌学者GydF4y2Ba

  3. 3.GydF4y2Ba

    肿瘤内部异质性:癌症的一面镜子?中华癌症杂志。2012;12(5):323-34。GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba谷歌学者GydF4y2Ba

  4. 4.GydF4y2Ba

    Merlo LM、Pepper JW、Reid BJ、Maley CC。癌症是一个进化和生态过程。纳特·雷夫癌症。2006;6(12):924–35.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba谷歌学者GydF4y2Ba

  5. 5.GydF4y2Ba

    伯勒尔,斯旺顿市。肿瘤异质性与多克隆耐药性的演变。摩尔-安可。2014;8(6):1095–111.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  6. 6.GydF4y2Ba

    格雷夫斯M。癌症的进化决定因素。癌症迪斯科。2015;5(8):806–20.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  7. 7.GydF4y2Ba

    达戈戈杰克一世,肖在。肿瘤异质性和对癌症治疗的耐药性。Nat Rev Clin Oncol。2018;15(2):81.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba谷歌学者GydF4y2Ba

  8. 8.GydF4y2Ba

    奎伯斯Ĵ,雅恩K,Beerenwinkel N.进展通过单细胞测序理解肿瘤演进。生物化学生物物理学学报(BBA)-REV癌症。2017; 1867(2):127-38。GydF4y2Ba

    中科院GydF4y2Ba谷歌学者GydF4y2Ba

  9. 9.GydF4y2Ba

    Roth A, Khattra J, Yap D, Wan A, Laks E, Biele J, Ha G, Aparicio S, Bouchard-Côté A, Shah SP. PyClone:肿瘤克隆群体结构的统计推断。Nat方法。2014;11(4):396 - 8。GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  10. 10.GydF4y2Ba

    Popic V, Salari R, Hajirasouliha I, Kashef-Haghighi D, West RB, Batzoglou S.快速和可扩展的多样本癌症谱系推断。基因组医学杂志。2015;16(1):17。GydF4y2Ba

    中科院GydF4y2Ba谷歌学者GydF4y2Ba

  11. 11.GydF4y2Ba

    Deshwar AG,Vembu S,容CK,张GH,斯坦因L,莫里斯Q. PhyloWGS:从肿瘤的全基因组测序重构亚克隆组合物和演化。基因组Biol。2015; 16(1):1-20。GydF4y2Ba

    谷歌学者GydF4y2Ba

  12. 12.GydF4y2Ba

    焦W,维姆布S,德斯瓦尔股份公司,斯坦因L,莫里斯Q。从单核苷酸体细胞突变推断肿瘤的克隆进化。BMC生物信息。2014;15(1):1–16.GydF4y2Ba

    谷歌学者GydF4y2Ba

  13. 13.GydF4y2Ba

    扎雷H,王建,胡甲,韦伯K,史密斯Ĵ,尼克森d,宋C,威滕d,布劳CA,高贵WS。推断从乳腺癌的多个区段克隆组合物。PLOS计算BIOL。2014; 10(7):e1003703。GydF4y2Ba

    PubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  14. 14GydF4y2Ba

    El-Kebir M, Oesper L, Acheson-Field H, Raphael BJ。从多样本测序数据重建克隆树和肿瘤组成。生物信息学,2015,31 (12):i62 - 70。GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  15. 15GydF4y2Ba

    Griffith M,Miller CA,Griffith OL,Krysiak K,Skidmore ZL,Ramu A,Walker JR,Dang HX,Trani L,Larson DE.优化癌症基因组测序和分析。细胞系统。2015;1(3):210–23.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  16. 16GydF4y2Ba

    王毅,纳文。单细胞测序技术的进展和应用。摩尔细胞。2015;58(4):598–609.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  17. 17GydF4y2Ba

    纳文。癌症基因组学:一次一个细胞。基因组生物学。2014;15(8):1–13.GydF4y2Ba

    谷歌学者GydF4y2Ba

  18. 18GydF4y2Ba

    Roth A、McPherson A、Laks E、Biele J、Yap D、Wan A、Smith MA、尼尔森CB、McAlpine JN、Aparicio S。从单细胞肿瘤测序推断克隆基因型和群体结构。Nat方法。2016;13(7):573–6.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba谷歌学者GydF4y2Ba

  19. 19GydF4y2Ba

    Kuipers J, Jahn K, Raphael BJ, Beerenwinkel N.单细胞测序数据揭示了肿瘤生活史中广泛的复发和突变缺失。基因组研究》2017;27(11):1885 - 94。GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  20. 20.GydF4y2Ba

    使用单细胞测序数据来模拟肿瘤的进化历史。BMC Bioinform。2014;15(1):1-13。GydF4y2Ba

    谷歌学者GydF4y2Ba

  21. 21.GydF4y2Ba

    Malikic S,雅恩K,Kuipers在Ĵ,Sahinalp SC,从单细胞和批量测序数据亚克隆肿瘤演进的Beerenwinkel N.一体化推断。NAT Communce。2019; 10(1):1-12。GydF4y2Ba

    中科院GydF4y2Ba谷歌学者GydF4y2Ba

  22. 22.GydF4y2Ba

    雅恩K,Kuipers在Ĵ,Beerenwinkel N.树推断为单细胞的数据。基因组Biol。2016; 17(1):1-17。GydF4y2Ba

    谷歌学者GydF4y2Ba

  23. 23.GydF4y2Ba

    罗斯·埃姆,马科维茨·F。OncoNEM:从单细胞测序数据推断肿瘤进化。基因组生物学。2016;17(1):1–14.GydF4y2Ba

    谷歌学者GydF4y2Ba

  24. 24.GydF4y2Ba

    扎法尔H,Tzen A,纳文N,陈K,Nakhleh L. SiFit:按照有限的站点模式单细胞测序数据推断肿瘤的树木。基因组Biol。2017; 18(1):1-20。GydF4y2Ba

    谷歌学者GydF4y2Ba

  25. 25GydF4y2Ba

    扎法尔H,纳文N,陈K,纳克勒L。SiCloneFit:从单细胞基因组测序数据对肿瘤克隆的群体结构、基因型和系统发育进行贝叶斯推断。基因组研究2019;29(11):1847–59.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  26. 26GydF4y2Ba

    Salehi S, Steif A, Roth A, Aparicio S, Bouchard-Côté A, Shah SP. ddClone:从单细胞和大体积肿瘤测序数据对克隆群体的联合统计推断。基因组医学杂志。2017;18(1):队。GydF4y2Ba

    谷歌学者GydF4y2Ba

  27. 27GydF4y2Ba

    Malikic S、Mehrabadi FR、Ciccolella S、Rahman MK、Ricketts C、Haghshenas E、Seidman D、Hach F、Hajirasouliha I、Sahinalap SC.PhISCS:通过综合使用单细胞和批量测序数据进行亚完美肿瘤系统发育重建的组合方法。基因组研究2019;29(11):1860–77.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  28. 28GydF4y2Ba

    罗森伯格A,赫希伯格J。V-测度:一种基于条件熵的外部聚类评价测度。2007年自然语言处理和计算自然语言学习经验方法联合会议论文集(EMNLP CoNLL);2007年,第页。410–420.GydF4y2Ba

  29. 29GydF4y2Ba

    休伯特L,阿拉比P。比较分区。J Classif。1985;2(1):193–218.GydF4y2Ba

    谷歌学者GydF4y2Ba

  30. 30GydF4y2Ba

    Hadley W. Ggplot2:用于数据分析的精美图形。柏林:施普林格;2016.GydF4y2Ba

    谷歌学者GydF4y2Ba

  31. 31GydF4y2Ba

    Leung ML、Davis A、Gao R、Casasent A、Wang Y、Sei E、Vilar E、Maru D、Kopetz S、Navin NE。单细胞DNA测序揭示了转移性结直肠癌的晚期扩散模式。基因组研究2017;27(8):1287–99.GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  32. 32GydF4y2Ba

    萨塔斯G Zaccaria S Mon G Raphael BJ。Scarlet:带有拷贝数限制突变损失的单细胞肿瘤系统发育推断。细胞系统。2020;10 (4):323 - 332. - e328。GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  33. 33GydF4y2Ba

    王Y,沃特斯Ĵ,梁ML,安鲁A,卢武铉W,石X,陈K,Scheet P,Vattathil S,梁H.克隆演变乳腺癌揭示的单核基因组测序。自然。2014; 512(7513):155-60。GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  34. 34.GydF4y2Ba

    Karpov N,Malikic S,Rahman MK,Sahinalp SC.一种用于比较肿瘤进展的“克隆树”的多标记树差异性度量。摩尔生物。2019;14(1):1–18.GydF4y2Ba

    中科院GydF4y2Ba谷歌学者GydF4y2Ba

  35. 35.GydF4y2Ba

    王志强。基于贝叶斯非参数推理的主题层次结构研究。J ACM (JACM)。57 2010;(2):行。GydF4y2Ba

    谷歌学者GydF4y2Ba

  36. 36.GydF4y2Ba

    布莱德,弗雷泽·皮。距离相关的中国餐馆流程。J Mach Learn Res.2011;12(8):2461–88.GydF4y2Ba

    谷歌学者GydF4y2Ba

  37. 37.GydF4y2Ba

    基于后验相似度矩阵的聚类算法。贝叶斯肛门。2009;4(2):367 - 91。GydF4y2Ba

    谷歌学者GydF4y2Ba

  38. 38GydF4y2Ba

    张志强,王志强,王志强。空间地图的分割连接。PeerJ。2015; 3: e784。GydF4y2Ba

    PubMedGydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

下载参考GydF4y2Ba

致谢GydF4y2Ba

一个也没有。GydF4y2Ba

资金GydF4y2Ba

本研究没有收到公众,商业或非营业部门的资金机构的任何特定补助金。GydF4y2Ba

作者信息GydF4y2Ba

从属关系GydF4y2Ba

作者GydF4y2Ba

贡献GydF4y2Ba

LBA设计和实现该方法,收集和分析数据,并撰写手稿。BG和SG概念化、解释结果、监督、项目管理和编辑手稿。MFA和SPS:概念化、验证、编辑手稿。所有作者都阅读并批准了最终手稿。GydF4y2Ba

通讯作者GydF4y2Ba

对应到GydF4y2Ba巴拉姆·戈利埃GydF4y2Ba.GydF4y2Ba

道德声明GydF4y2Ba

伦理批准和同意参与GydF4y2Ba

不适用。GydF4y2Ba

同意出版GydF4y2Ba

不适用。GydF4y2Ba

相互竞争的利益GydF4y2Ba

作者声明他们没有相互竞争的利益。GydF4y2Ba

额外的信息GydF4y2Ba

出版说明GydF4y2Ba

欧宝体育黑玩家Springer Nature在公布的地图和机构附属机构的管辖权主张方面保持中立。GydF4y2Ba

补充资料GydF4y2Ba

额外的文件1GydF4y2Ba

. 吉布斯抽样算法公式。GydF4y2Ba

权利和权限GydF4y2Ba

开放获取GydF4y2Ba本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问GydF4y2Bahttp://creativecommons.org/licenses/by/4.0/GydF4y2Ba.创作共用及公共领域专用豁免书(GydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/GydF4y2Ba)适用于本文提供的数据,除非在数据的信贷额度中另有说明。GydF4y2Ba

重印和许可GydF4y2Ba

关于这篇文章GydF4y2Ba

通过CrossMark验证货币和真实性GydF4y2Ba

引用这篇文章GydF4y2Ba

巴加拉巴尼,L.,戈利埃,S.,福洛曼德·阿拉比,MH。GydF4y2Ba等GydF4y2Ba针叶树:克隆树推断肿瘤异质性与单细胞和批量测序数据。GydF4y2Ba欧宝娱乐合法吗22日,GydF4y2Ba416(2021)。https://doi.org/10.1186/s12859-021-04338-7GydF4y2Ba

下载引用GydF4y2Ba

关键词GydF4y2Ba

  • 肿瘤的异质性GydF4y2Ba
  • 无性系树GydF4y2Ba
  • 大部分测序GydF4y2Ba
  • 单细胞测序GydF4y2Ba
  • 贝叶斯非参数模型GydF4y2Ba