跳过主要内容

PhyliCS:一个用于探索scCNA数据和量化空间肿瘤异质性的Python库

抽象的

背景

肿瘤由许多癌细胞亚群(亚克隆)组成,其特征是一组可区分的突变。这种现象被称为肿瘤内异质性(ITH),可以通过拷贝数畸变(CNAs)进行研究。如今,利用单细胞DNA (scDNA)测序技术可以以最高的分辨率评估ITH。此外,来自同一肿瘤多个样本的单细胞CNA (scCNA)谱原则上可以用来研究肿瘤块内亚克隆的空间分布。然而,由于生成大型scDNA测序数据集的技术相对较新,专用的分析方法仍然缺乏。

结果

我们提出了PhyliCS,这是第一个利用来自同一肿瘤的多个样本的scCNA数据来估计肿瘤的不同克隆是否很好地混合或空间分离的工具。从使用第三方工具生成的CNA数据开始,它计算一个评分,即空间异质性评分,旨在区分空间混合细胞群和空间分离细胞群。此外,它还提供了便利scDNA分析的功能,如特征选择和降维方法、可视化工具和灵活的聚类模块。

结论

PhyliCS是一种有价值的工具,用于探索多区域肿瘤样本的空间异质性程度,挖掘scCNA数据的潜力。

背景

肿瘤是由躯体突变的积累引起的。肿瘤的创始细胞累积的一组突变被定义为克隆并通过其整个后代遗传。在已经存在的肿瘤中产生的突变仅用于细胞的次群,并且被定义为亚克力[12].因此,癌细胞具有内在的遗传多样性,称为肿瘤内异质性(ITH) [3.].

ITH是癌症研究界感兴趣的一个重要课题,因为它被认为是导致肿瘤复发和治疗失败的主要原因之一[3.4567].评估ITH最常用的方法是对大量DNA测序数据使用反褶积技术[89].这种技术通常基于机器学习模型,用于根据突变的患病率将突变聚类成亚克隆,并利用这种聚类推断肿瘤系统发育结构[10.11.12.13.14.15.16.17.18.].一些研究提出了基于基因表达的ITH评价方法[19.20.21或蛋白质-蛋白质相互作用[22].

一些研究表明,使用从同一病变的不同区域采集的多个样本,可以提高推断肿瘤亚克隆结构的能力[3.45232425262728并评估ITH。例如,Jamal-Hanjani等人进行的一项研究。29,从100个早期非小细胞肺癌的327个区域取样,发现30%的体细胞突变是亚克隆的,并指出如果取样较少的区域,许多突变会被错误地解释为克隆。

在此背景下,新兴的单细胞DNA测序(scDNA-SEQ)技术提供了一个难得的机会来解决这些问题,因为它们允许研究肿瘤的异质以前所未有的分辨率。特别地,单细胞的低覆盖全基因组测序是适合用于检测染色体畸变,其可以被利用来重建细胞群亚克隆结构[30.].

然而,仍然有限地限制了单细胞CNA(SCCNA)分析的现有方法。许多人 [3132333435363738]只通过分析与一个位点对齐的观察到的序列数与期望的序列数的差异或读深比来识别总拷贝数,即每个位点上拷贝数的总和。他们中的一些人也使用他们计算的CNAs来推断肿瘤的系统发育[39].

然而,据我们所知,能够利用单细胞DNA数据和多样本分析的粒度来定量ITH的仪器仍然不存在。

因此,我们目前PhyliCS,一个探索CNA调用第三方工具获得并利用它们灵活的Python库来计算一个新的度量,空间异质性得分(SHscore)。当多个区域取样可这个分数是评价肿瘤的空间异质性是有用的,量化如何从同一患者不同的样品多细胞在它们CN景观有分歧。这种评估既可以排名基于他们的异质性不同肿瘤,并找出最发散特定肿瘤的空间样本。此外,它可能有助于探索不同的肿瘤没有测序细胞和/或区域采样的数量庞大,只选择用于进一步分析的最异类的。

此外,PhyliCS为用户提供了简单的单样本和多样本聚类方法,便于对结果进行比较,并针对每个具体的实验定制每个分析。我们通过在300个模拟数据集上运行SHscore来展示它的潜力,以在一些选定的理想场景中验证SHscore,在这些场景中,SHscore比较了具有已知关系的单元格集。之后,我们通过更广泛的模拟实验,在分析中证明了所提出的SHscore与样本细胞间进化距离的相关性。最后,我们给出了三个公开可用的scDNA数据集的分析结果,一个是来自乳腺肿瘤的多个空间样本,另一个包括原发性肺肿瘤及其衍生转移,第三个是一个细胞系和两个单细胞的克隆扩增,使用SHscore来描述在多次采样的更大背景下考虑细粒度单细胞水平时,他们的CN配置文件的差异。

执行

在本节中,我们将首先描述文学的主要模块;然后我们将介绍Shscore的数学细节及其解释。

PhyliCS

PhyliCS是一个全面的工具包,它将scCNA调用分析过程集成到一个单一的模块化Python包中。

如图。1节目,文学,作为输入由现有的SCCNA呼叫者中的一个进行的SCCNA调用[313233343536373839],并允许用户执行:

  • 数据预处理(特征选择、PCA、UMAP、数据过滤)

  • 数据可视化(基于umap的散点图,热图),

  • 数据聚类(亲和繁殖[40],桦木[41], DBSCAN [42], HDBSCAN [43,层次凝聚[44], KMeans [45],光学[46),光谱(47]),

  • 聚类算法评价(Silhouette Coefficient, Davies-Bouldin Index, Calinski-Harabasz Index, Adjusted Rand Index, V-Measure, fowlkes - malallows Score, Mutual Information),

  • 多样本聚类、可视化和空间肿瘤内异质性估计(SHscore)。

图1
图1

PhyliCS逻辑模式。PhyliCS允许对scCNA第三方调用者计算的scCNA概要文件执行下游分析。具体来说,它接受表格数据,并允许执行数据过滤、特征选择、降维,以便在执行多种可用的聚类算法之一之前准备数据。它还允许通过内部和外部评价指标对聚类结果质量进行评价。但是,最重要的是,它提供了从多个样本聚合scCNA数据的可能性,共同聚类和可视化它们,通过SHscore估计它们的空间ITH

上输入采样数据的聚集PhyliCS多样品分析模块作品和产生两个主要结果:图形表示和空间肿瘤内异质性的数值量化,所述SHscore。具体而言,产生与计算的执行单元的分级聚类树形图的聚合热图。热图的行,表示来自不同样品的细胞中,由不同彩色标签识别。以这种方式,有可能评估聚类算法是否分离细胞来自不同样品的始发到树状的,或者如果所产生的混合集群不同分支:前者的情况下将指示的是,尽管从相同的肿瘤中,基因组的化妆始发属于不同样品的细胞是不同的(空间帧内肿瘤异质性);后者的情况下,相反,将表示不同的样品通过填充细胞具有相似的基因组方差。

PhyliCS实现基于一个专用类,命名为CnvData,是一种模块化的数据结构,在不影响数据矩阵的情况下,存储所有数据注释(如细胞倍性、细胞MAD等)和每个分析步骤的结果(如PCA、聚类结果等)。一方面,这种实现选择简化并加快了计算速度;另一方面,它允许有经验的开发人员以较低的编程工作量扩展框架并添加新功能。

PhyliCS并不代表现有scCNA工具的替代方案,为识别scCNA事件而开发的工具[3132333435363738或为系统发育分析而设计的工具[39].实际上,文学提供了一个API,用于处理SCCNA数据,利用不同的第三方工具的输出,并实现一种用于表征空间iTh的方法。

空间异丙片分数

空间异质性评分(SHscore)是一个相对的衡量标准,衡量从同一患者中提取的不同样本的基因组构成相对于每个样本的内部方差有多大的差异。

定义SHscore的基本原则受到Silhouette分数的启发,Silhouette分数是经典数据科学中用来估计质量聚类结果的指标[48].事实上,我们可以将细胞视为数据点,由其CNA谱描述,以及样品作为它们所属的集群。可以为每个单元格计算,P.从属于自己的集群中的所有其他细胞的平均距离,一个P.),然后将其与属于“最近”或最相似,群集的单元格的平均距离进行比较,bP.).数字2显示了一个肿瘤的概念模式,它分为两个子样本:绿色箭头表示给定细胞之间的成对距离,P.和其样本的所有细胞;橙色,相同细胞与最近样本的细胞之间的距离。在这些距离上计算的平均值是一个P.),bP.).

图2
figure2

样本内和样本间的成对距离。考虑到细胞P.一个P.),平均成对距离之间P.从它自己的样本中提取的所有细胞bP.)是平均成对距离之间P.以及来自“最近”样本的细胞

这些距离用于计算剪影分数,所以我们可以重新使用它的实现,并根据我们的目的调整它。

对于每个单元格P.和样本\ (S_p \),这样在S_p \ (p \ \),让一个P.) (Eq。1)为两者之间的平均两两距离P.和属于其样本的其他细胞bP.) (Eq。2)为最小平均两两距离P.和其他样品的细胞。现在,我们可以计算上海P.) (Eq。3.),它测量平均两两距离之间的差值P.样本中最接近的单元格,以及它们之间的平均两两距离P.和自己样本的细胞。

$ $ \开始{对齐}(p) = &{} \压裂{1}{1}中期\ S_p中期\ \和_ {p在S_p \ \ ne p} d (p, q) \{对齐}$ $
(1)
$$ \ {开始对准} B(P)=&{} {min_ķ\ NE p} \压裂{1} {\中间S_K \中间} \总和_ {Q \在S_K} d(P,Q)\END {对齐} $$
(2)
$ $ \{对齐}开始sh (p) = &{} \压裂{b (p) - (p)}{马克斯\ {(p)、b (p) \}} \{对齐}$ $
(3)

除以\ (max \ {(p)、b (p) \} \)使上海P.)相对的差异。

为了减轻SCCNA数据的高度维度的负面影响,我们采用了L1,或曼哈顿,用于计算成对距离。事实上,已经证明,对于20或更高的维度,规范,le 1 \ (K \ \),更好地判别[4950]之间的最近和最远的邻居相比,更高级别的规范(例如:L2,或欧几里德规范)。

从方程。3.很清楚\(-1 \le sh(p) \le +1\)

为了上海)接近我们要求的1\ ((p) < < b (p) \).作为一个P.)是一种衡量基因图谱在多大程度上P.与自身样本的平均轮廓不同,值越小表示相似度越高。此外,一个大bP.)表明,P.CNA轮廓是从在分析样品中的最相似的平均轮廓高度不同。因此,A.上海P.)接近1表示P.CNA基因图谱与它所属样本的平均基因组图谱相匹配。如果上海P.)接近−1,那么根据同样的逻辑,我们可以这样说P.CNA的基因组图谱更类似于邻近样本的基因组图谱,而不是自身样本中其他细胞的基因组图谱。一个上海P.)接近0表示CNA配置文件位于两个自然集群的边界上,因此P.可能属于他们俩。

在数学上,Shscore,\(SHscore(S_1, S_2, \ldots, S_n)\),用于这组样本(s_1,s_2,\ ldots,s_n \),是衡量样本分离程度的指标,定义为平均值上海P.)遍历整个数据集中的所有单元格,\(D = [S_1 \cup S_2 \cup \cdots \cup S_n]\)(Eq。4).

$$ \ begin {seconed} shscore(s_1,s_2,\ ldots,s_n)= \ frac {\ sum _ {p,p \ in d} sh(p)} {\ mid d \ mid}。\结束{对齐} $$
(4)

从方程。4,很明显,SHscore也可以假定值在区间内\ ([1] \)它的解释可以从单细胞评分的解释中得到。具体来说,接近1的SHscore表明,在不同的样品中,许多细胞具有a上海P.)接近1,表示此样品是均质的内部并且相对于其他分离。同样,SHscore接近-1表明,许多细胞,在数据集中,看起来更类似于另一个样本比那些自己样本的细胞;此,可以表示与定序质量或数据预处理的问题。最后,SHscore接近0意味着许多细胞可以隐约属于自己的样品或到另一个,这可能表明两种方案:将样品在内部均匀的,但彼此之间非常相似,从而它们共享相同的亚克隆结构和细胞可以属于一个或另一个;或样品是异质的内部,使得它们的细胞的CN型材不能清楚地分配给它们中的任何一个。

应用方案

假设有三个单单元数据集,\(S_1,S_2,S_3 \),来源于同一肿瘤的三个不同区域,作为输入样本提供给PhyliCS。SHscore评估阶段将进行如下:

  1. 1

    这些单元被分配给三个预定义的集群,\ (S_1、S_2、S_3 \),方法如下:\(p: p \in s_i\} \右tarrow p \in s_i\),在那里\(我在[1,2,3]\ \).SHscore计算为\(hs_{1,2,3} = SHscore(S_1, S_2, S_3)\)

  2. 2

    的细胞\ (s_1 \)\ (s_2 \)组合在一个集群中,\ (S_ {12} \),以及来自\ (s_3 \)分配给一个单独的集群,\ (S_3 \).SHscore再次计算为\(hs_{12,3} = SHscore(S_{12}, S_3)\)

  3. 3.

    的细胞\ (s_1 \)\ (s_3 \)组合在一个集群中,\ (S_ {13} \),以及来自\ (s_2 \)分配给一个单独的集群,\ (S_2 \).SHscore再次计算为\({sh_ 13.2} = SHscore(S_ {13},S_2)\)

  4. 4

    的细胞\ (s_2 \)\ (s_3 \)组合在一个集群中,\ (S_ {23} \),以及来自\ (s_1 \)分配给一个单独的集群,\ (S_1 \).SHscore再次计算为S_{23}, S_{23}, S_{23}, S_{23}, S_{23}, S_{23}

现在让我们假设\ (hs_{23日1}\)为计算得分的最大值。具体来说,我们假设:

$$\begin{aligned} sh_{23,1} > sh_{1,2,3}。\结束{对齐} $$
(5)

这意味着样本\ (S_2 \)\ (S_3 \)彼此相似,但在某种程度上与样本不同\ (S_1 \)把它们的细胞放在一起,就会产生更好的聚集。

综上所述,SHscore是一种量化同一肿瘤不同样本间CNAs基因组距离的方法,并用于研究肿瘤内部空间异质性。

结果与讨论

本文介绍了在不同环境下对SHscore行为进行研究的实验。此外,还描述了生成模拟数据集所执行的程序。

详细说明,SHScore已在200个模拟数据集上使用,该数据集代表了一些理想场景(空间隔离,空间混合,早期转移扩散和延迟转移蔓延),以检查它是否正确反映了多个样品的克隆结构中的异质性。之后,在一组100模拟上测试得分以分析其行为,当平均CNA尺寸和所获得的副本的平均数量以受控方式变化时。然后,进行更广泛的模拟以验证Shscore之间的相关性和在样品的演变期间积累的分歧。最后,SNSCORE在3个公开可用的SCCNA数据集中进行了测试,以研究其在一些现实世界的情况下的行为。

实验1:合成数据的Shscore

数据生成

我们进行了一种模拟研究,分析了四种不同场景(空间亚板子分离,空间亚旋转沉想,早期和晚期转移扩展)的Shscore行为,并研究其与细胞CN谱的一些特征相关(CNA区域尺寸,CN级别)。

为此,我们扩展了Fan等人提出的模型[51],利用β -分裂模型的概括,从参考基因组开始生成系统发育树[52].在模拟过程结束时,所生成的树的叶子代表从患者采集的细胞,而内部节点表示中间CN状态,其不存在了。

空间隔离为了模拟在肿瘤进化过程中亚克隆在分离的早期位置分离的极端情况,我们跟踪了前5个细胞的后代(图。3.A)由模拟器生成。我们让树长到有2500片叶子。在这一点上,我们能够区分从系统发育学上分离的细胞群,并将它们视为我们的亚样本,每一个都包含一个不同的亚克隆(图。3.b)。因此,最后,我们将每个数据集分成5组与前5个生成的单元的5组细胞对应的5个归档。从现在开始,我们称这种情况为HOM方案

图3.
图3

空间亚间隔和混合仿真。我们生成了50棵系统发育树(一个)由2500个细胞制成。对于我们模拟的每棵树:(i)亚克隆的早期隔离(力宏)通过跟踪前五个生成的细胞的后代,并分配叶到五个不同的子样本,对应于五个亚克隆(b);(II)的亚克隆的空间混合(het),将其随机分配给5个子样本(c

空间混合我们还模拟了肿瘤细胞亚群在空间上很好地混合的情况,因此一个区域的亚抽样将产生非常相似的样本。这是通过对之前生成的树的叶子进行洗牌,并将它们随机分配给5个子样本来完成的。3.c).从现在开始,我们把这种情况称为het-scenario

转移扩散我们模拟了另一种不同的空间分离情况,在这种情况下,一个细胞种子转移,开始一个完全分离的无性系扩展。为此,我们生成了新的系统发育树:当这些树生成了最终数量的1/4或3/4的细胞时,我们随机选择一个细胞,然后播种另一棵树,分别模拟原发肿瘤进化过程中的早期或晚期转移扩散。我们让树的生成并行进行,直到所有树都包含500个叶子(图。4).从现在开始,我们将这些场景分别称为early-met-scenariolate-met-scenario

图4
图4.

转移播种和扩展模拟。我们生成了100对原发性转移的样本(50对早期转移,50晚些时候转移)。通过播种原发性肿瘤树并连续发起一棵新树,当原代树生成1/3(早期)或3/4(晚期)的最终数量的所需细胞的时,通过随机选择的细胞来获得。当两棵树产生500叶时,模拟停止

对于到目前为止描述的四个场景中的每一个,我们为总共200个模拟生成了50个合成数据集。

变参数模拟用不同的参数模拟100个数据集,生成具有不同结构特征的CN profile,并检查这些特征是否以及如何与SHscore相关。准确地说,我们改变了预期的CNA大小(\θ(\ \)),它被模拟器用来从指数分布中取样,以及期望得到的拷贝数的倒数(P.),用于从几何分布中取样。具体来说,对于每个模拟,\θ(\ \)是从区间[500,5000000]内定义的均匀分布中随机抽取的,而P.从区间[0.1,0.9]定义的均匀分布中取样(补充材料:补充图1a和1b)。每棵模拟树有1000片叶子,并被分成两棵子树,每棵子树代表一个肿瘤子样本。从现在开始,我们称这种情况为var-scenario

SHscore统计

SHSCORE在合成数据集上计算,构建以表示先前描述的异质性情景,以评估其捕获其差异的能力。

同一病区的空间异质性首先,我们计算了来自同一疾病位点的100组模拟区域子采样的样本的SHscore(图。3.图b, c)5的SHscoresHOM方案(空间隔离)和het-scenario(混)。分数,在两种情况下,是不同的(未配对的Wilcoxon的p值\(3.5 \倍10 ^ { - 18} \)):het-scenario值落入一个非常小的间隔(分:-0.020,最大:-0.004,中值:-0.010,IQR:0.004);这HOM方案相反,它产生的分数范围更广(min: 0.043, max: 0.295,中位数:0.151,IQR: 0.064),反映了不同“克隆”(前5个细胞的后代)在模拟样本之间均匀分布的更高的异质性(图。5b)。

图5
图5.

SHscore分布。我们计算了100个模拟区域子采样(一个(Mann-Whitney U检验p值\(3.5 \倍10 ^ { - 18} \)).et-scenario = min: -0.020, max: -0.004,中位数:-0.010,IQR: 0.004。home -scenario = min: 0.043, max: 0.295,中位数:0.151,IQR: 0.064。在100个模拟转移扩散的合成数据集(b)(曼-惠特尼U p值0.0029)。EarlyMet场景= min: 0.103, max: 0.461,中位数:0.267,IQR: 0.124;LateMet场景= min: 0.195, max: 0.547,中位数:0.320,IQR: 0.084

这个实验的结果表明我们的分数能够区分两个描述的场景。

不同病区的空间异质性数字5B显示了两个转移性场景的​​结果:这里的差异很大(Mann-Whitney U P值0.0029),尽管不同的种子历史如何导致不同的Shscores的底层。即使使用所选择的参数为我们的仿真选择差异也很小,不同模拟之间的场景变异性高(早遇见:Min:0.103,MAX:0.461,中位数:0.267,IQR:0.124;迟到了: min: 0.195, max: 0.547,中位数:0.320,IQR: 0.084)。

SHscore与CNA大小和获得的拷贝数无关为了研究SHscore是否与平均CNA大小和获得副本的平均数量相关,我们计算了在var-scenario.然后,我们计算了SHscores和参数之间的Pearson相关系数\θ(\ \)(平均CNA大小)和P.(获得副本的平均数量的倒数)。结果(\θ(\ \):皮尔逊相关系数=−0.101,p值= 0.319;P.: Pearson相关系数=−0.109,p值= 0.282),表明两者之间无显著相关性,说明SHscore对于不同的CN积累率和事件的大小是稳健的(图2)。6).

图6
图6.

从平均CNA大小和平均获得副本SHscore独立。我们测试了SHscore上的多个模拟取样对,其特征在于由不同的和已知的平均尺寸CNA\θ(\ \)和平均获得的副本数量P..我们发现,SHscore与这些特征不相关,平均CNA大小的皮尔逊相关系数c =−0.101 (p值= 0.319),平均获得拷贝数的皮尔逊相关系数c =−0.109 (p值= 0.282)

实验2:SHscore与进化距离

由SHscore定量的异质性反映所分析的样品的细胞之间的进化距离。另一个模拟实验的目的是要验证SHscore和它起源样品的突变轮廓复制数量的状态之间的距离之间的相关性的存在。这些CN状态可以被认为是现有CN型材最近的共同祖先(MRCA)。

数据生成

100Kcells和10Kcells。为了生成一个深入的进化历史,从而生成一个更加异构的数据集,我们模拟了一个具有100K最终叶子的细胞分裂树。跟踪最初生成的200个细胞中的子树,模拟来自这些细胞的亚克隆的完全空间分离(参见同一疾病部位的空间异质性)。生成的数据集的基数相当均匀(平均单元格数= 500单元格),除了一些例外(最小单元格数= 91,最大单元格数= 3112)。为了得到一个平衡的数据集,只保留了第1和第3个四分位数(分别为208.75和746.50个叶子)之间的基数子树。对每一个子树提取叶子,生成CNA矩阵;此外,它们的根在亲代树中的位置也被跟踪。从现在开始,我们把这个场景称为100年kcells实验。

执行相同的过程来生成具有10K叶子的树,跟踪前20个生成的细胞的子树。同样在这种情况下,只保留1和3个四分位数之间的基数(分别为318和623.75个叶子)的数据集。从现在开始,我们把这个场景称为10kcell.实验。

SHscore和MRCA距离相关性

为了调查SHSCORE与样本单元的MRCAS之间的距离之间的相关性,我们使用了所生成的数据集100年kcells实验。首先,我们计算了SHscores为4950可能对样本。之后,我们随机取样千对和计算其MRCAs,通过连接发起两个子树的单电池的边缘的数目表示之间的距离。我们验证了随机选择的是代表整个集对(补充材料:补充图2)的。

最后,我们可以证明这两个量是正相关的,Pearson相关系数c = 0.628 (p值= 1e−11,图。7一种)。

图7
图7.

SHscore与进化距离。我们对SHscores和MRCA距离进行Pearson相关检验,证明这两个量是正相关的(coef = 0.628, p value = 1e−11)(一个).我们汇总了在从树木中导出的数据集上计算的SHScores,该树是在不同的高度停止的生长。三种情况下的分数围绕不同的中值(2.5K细胞=中位数:0.151,IQR:0.064,10K细胞=中位数:0.278,IQR:0.061,100 K细胞=中位数:0.498,IQR:0.092),哪个值随着样本MRCA之间的平均距离而增加(b

这一结果验证了SHscore测量的异质性捕获了被分析样本细胞的进化距离的假设。

SHscore表示不同的进化跨度

我们计算了45对样本之间的SHscores10kcell.并将所得结果与实验结果进行了比较hom_scenario在这一点100年kcells实验。在三种情况下的样品中含有的细胞的数量相当(\ \ (sim \)500),但是从生长停止在不同高度的树木派生。这意味着样品历史,在三种情况下,在发散该家长树不同的高度并保持对生长对于可比较的数量倍增,以相同的突变率,这是由所述生成模型固定。因此,样品的细胞,在三种不同的情况下,都有可能已经积累相同量的异质性的,从它们的MRCAs开始,而其发散主要是由于可以通过MRCAs,它们位于不同的距离上的亲本中累积的异质树(非常接近上2.5K细胞树木,很遥远在100K细胞树,在10K细胞树中间距离)。数字7(b)所示,在三种情况下的得分围绕不同的中值分布(2.5K细胞=中位数:0.151,IQR:0.064,10K细胞=中值:0.278,IQR:0.061,100K细胞=中位数:0.498,IQR:0.092),随着样品MRCA之间的平均距离增加,该值增加。

这是先前研究的另一个证据:mrca越接近,得分越高。

本节显示的结果使我们得出结论,得分低于0.2表明亚克隆在肿瘤样本中混合良好,或它们在空间中分离,但空间差异非常小,可以认为肿瘤是均匀的。如果得分大于或等于0.2,则表明同一肿瘤的不同区域之间存在不可忽略的进化距离,这使得它们非常不同,这应该在最终的进一步分析中加以考虑。

实验3:肿瘤数据的Shscore

在这里,我们给出了三个在真实scCNA公共数据集上应用PhyliCS的例子。

来自同一病区的空间子样本

这个例子显示了如何使用PhyliCS来研究单个疾病部位的空间肿瘤内部异质性。

我们在5个单细胞CNA数据集上使用了PhyliCS,这些数据集由Cell Ranger DNA生成,并发表在10x Genomics网站上[53].数据集来自五个部分(S_AS_BS_CS_DS_E),分别包含2137、2224、1722、1916和2053个细胞的数据。

scCNA通话我们执行了几个初步步骤来生成PhyliCS输入文件。具体来说,我们使用基于c++的工具将10x多单元对齐文件解复用,以获得单单元的。bam文件,ScTools.我们发展了与SeqAn库[54].之后,我们使用银杏进行了一些质量检查和计算的CNA事件[34].此时,我们已经准备好将scCNA数据集加载到PhyliCS中。

数据预处理使用预处理模块,我们去除了二倍体或伪二倍体细胞(倍性范围在区间[1.6,2.9]),这是没有信息的,以及那些CNA profile特征为高(>95百分位数)中位数绝对偏差(MAD)的细胞,因为它们被认为是噪声,因为单细胞扩增问题或正在进行的DNA复制结果,5个样本的细胞分别为110、1172、1040、1137和1473。自S_A与其他样本相比,含有的肿瘤细胞很少,我们在接下来的分析步骤中没有包括它。

多试样分析数字8A显示在聚集阶段之后产生的图形结果。来自四个样本的细胞共享类似的CNA谱,并通过聚类算法混合。

图8
图8.

测试案例:乳腺肿瘤数据。我们在包含同一乳腺肿瘤的五个部分(S_A,S_B,S_C,S_D,S_D,S_D,S_E)的数据的SCCNA数据集上进行了测试。经过一些初步操作,我们丢弃了S_A并保留其他人进行进一步分析。我们获得了这些部分份额相似的基因组模式(一个), S_B除外;这是由SHscore (b),通过将S_C、S_D、S_E与S_B进行聚合得到最优值(0.1824)

数字8相反,给出了一个包含不同样本聚合计算的SHscores的图表。值表示为S_B vs . S_C vs . S_D vs . S_E表示样本之间的差异有多大。根据我们在模拟实验中所看到的,−0.0201表示这四个样本的基因组构成非常相似,这使得它们几乎无法区分。此外,可以注意到,通过组合样本S_CS_DS_E并测试他们反对S_B, SHscore增长到\ (\ texttt {0.182388} \),表明其基因组化妆可以从其它样品的被克隆分离。SHscores确认中示出的图形结果。8a,突出S_B作为更多样化的样本,这一结果得到了CHISEL克隆重建的支持[39],它揭示了几乎私下的子句(J-I)。

来自不同疾病部位的空间子样本

我们还将我们的方法应用于一对来自原发肿瘤和匹配的转移瘤的样本。为了做到这一点,我们利用了Garvin等人在数据集上进行的CNA分析的结果来验证银杏[34].数据集对应于原发性乳腺肿瘤及其肝转移(T16P / M),并通过使用纳文等人。[55],用于研究肿瘤内部异质性特征。由于CNA调用在Ginkgo网站上可用,我们能够直接将数据加载到PhyliCS。

数据预处理同样在本例中,我们过滤掉了二倍体和伪二倍体细胞以及MAD值较高的细胞,将聚集的数据集基数从100减少到42个细胞。

多试样分析数字9显示从对该数据集执行的分析中获得的结果。这表明,显然,启动肿瘤的相同细胞群也播下了转移的种子,证实了最初发表的研究结果[55].这一次,分层聚类算法将细胞组织在两个独立的块中,对应于原发肿瘤和转移肿瘤的两个种群。这强调了两个样本之间的一定程度的分离,这也可以用SHscore来表示。即使我们不能比较不同样本安排的得分,SHscore(0.5361)与我们在转移场景模拟中获得的结果是一致的。高SHscore意味着,尽管原发和转移性样本具有共同的突变模式,但它们的独立进化使它们能够清晰地区分开来。这表明,原发和转移对之间的差异一直是通过批量测序来测量的,可以用scDNA方法进一步研究[5657].

图9
图9.

测试用例:肺肿瘤数据。我们在源自原发性肺肿瘤和匹配的肝转移的样品上测试了文学。这次,两个样本显示了一定程度的遗传多样性,并且在高世纪的特征在于(0.5361)

细胞系的克隆扩张

这个例子展示了一个扩展的用例,展示了如何使用PhyliCS来研究由无性扩增细胞系获得的异质性。

具体来说,我们利用了Minussi等人最近发表的单细胞数据集[58]在NCBI序列读取存档(加入PRJNA629885数量),包含测序读三阴性乳腺癌细胞系的细胞(mda - mb - 231)(508细胞)和2个女儿的克隆扩张造成的细胞(MDA231-EX1和MDA231-EX2)从亲代细胞行了19细胞倍增(995年和897年的细胞,分别)。从测序读取,与GRCh38参考基因组对齐,我们使用银杏称为CNA事件[34(关于对齐和CNA调用过程的更多细节,请参阅补充材料:补充方法1)。

多试样分析我们向文本提供了CNA矩阵,并计算了三个数据集的所有可能分区的Shscores。数字10.b表明,将MDA-MB-231-EX1数据集与亲本数据集进行聚合时,得到了最好的SHscore(0.7102)。这一结果表明MDA-MB-231-EX1细胞与亲本细胞具有共同的基因组模式。对聚合数据集进行分层聚类的结果证实了这一点,如图所示。10.一个:从MDA-MB-231-EX1细胞很好地与亲本那些混合,而来自MDA-MB-231-EX2将细胞放入一个完全独立的块。这可能是由于两个原因:从MDA-MB-231-EX2始发细胞比MDA-MB-231-EX2始发细胞是从亲本没有代表采样的其他一个或克隆的亚群产生更多的异质性的克隆扩增数据集(补充材料:补充方法1)。总之,我们可以说,所提出的得分能够多个样本中采集不同层次的多样性,并以比较的方式使用它的时候它是非常翔实。

图10
图10.

测试用例:MDA-MB-231细胞系数。我们在MDA-MB-231细胞系上测试了文学。详细信息,我们将父母细胞系与两个Dauther细胞,MDA-MB-231-EX1和MDA-MB-231-EX2的克隆膨胀产生的数据集进行了比较,用于19个倍增。数据集分别包含508,995和897个细胞。我们获得了从MDA-MB-231-ex1扩展的扩展的数据集更类似于父母线,关于来自MDA-MB-231-EX2的数据的基因组剖面(一个).实际上,将MDA-MB-231-EX1数据集与亲代数据集(b

我们利用这个数据集来展示其他的PhyliCS特征,分别分析亲代和衍生细胞系。特别地,我们能够证明,当比较两个不同细胞数量的样本时,SHscore是稳健的;具体来说,当对两种样本取样不同的细胞组分时,所测量的衍生细胞系之间的异质性没有显著变化(补充材料:补充方法2和3,补充图3、4、5和6)。

结论

在这项工作中,我们提出PhyliCS,灵活的和用户友好的软件包,它允许处理scCNA电话,并通过空间异质性分数评价空间ITH。这个分数结合scDNA测序数据的高分辨率和多区域取样,提供指示多少组不同的细胞在其CN景观有分歧的信息,从而得到快速和易于理解有关单个肿瘤的信息。

PhyliCS已经被实现为一个模块化和灵活的Python库,具有许多功能,它指导那些想要探索他们的数据集的生物信息学家使用特定于scDNA的单一API,并为其分析量身定制。

我们在不同的情况下测试了SHscore。首先,我们在200个合成数据集上对其进行了计算,研究了其在四种不同情况下(空间分离、空间混合、早期转移扩散和晚期转移扩散)的行为。这组模拟结果表明,SHscore正确地反映了多个样本克隆组成的异质性,因此可以可靠地比较不同空间样本下真实肿瘤的异质性。之后,我们在一组100个模拟上测试了SHscore,这些模拟是由随机改变平均CNA大小和获得拷贝的平均数量生成的,发现分数与CN profile的这些结构特征不相关。我们进行了更广泛的模拟实验,生成了两棵大的细胞分裂树,以生成具有重要进化历史的数据集。我们得到的证据表明,在分析中,SHscore与生成样本细胞的拷贝数状态之间的距离密切相关。这证实了SHscore捕获了肿瘤亚样本的进化历史。我们使用我们的得分来分析三个真实的scDNA数据集,得出与最先进的系统发育方法一致的结论[39]及原始文件[5558]所呈现他们。最后,我们进行了两个细胞系的数据的下采样实验以证明SHscore是鲁棒的样品基数,并且可以在上不平衡集一起使用。

我们还展示了图书馆的一些分析功能,允许用户无缝执行任务,这通常需要使用不同的库和管理它们之间的数据流。

我们认为,试图定义SHscore的临床相关阈值还为时过早。事实上,来自不同肿瘤患者的大量临床注释单细胞数据集,将需要将每个肿瘤的进化特征与其临床特征相关联,并随后定义阈值,以区分“空间分离”和“空间良好混合”的临床相关性情景。不幸的是,这种单细胞DNA数据集还没有得到。然而,从我们的扩展模拟研究中,我们得到的证据是,得分低于0.2表明亚克隆在肿瘤样本中混合良好或在空间中分离,但空间差异非常小,可以认为肿瘤是均匀的。如果得分大于或等于0.2,则表明同一肿瘤的不同区域之间存在不可忽略的进化距离,这使得它们非常不同,这应该在最终的进一步分析中加以考虑。

目前,PhyliCS的一个局限性是,它所有关于进化距离的结果都来自于样本关系和基于聚类的度量。我们选择这种方法是为了得出这样的结论:尽管过于简单,但相比于进行系统发育重建所需的机制,我们对驱动CN积累的机制的假设较少。由于无限位点假设对中枢神经系统无效,我们认为系统发育重建对单细胞数据仍然是一个悬而未决的问题;但我们预计,在未来,将有更可靠的方法在单细胞上调用snv,为开发建立在批量测序基础上的理论知识开辟新的途径。

总之,PhyliCS是一种有价值的工具,可以探索多区域肿瘤样本的空间异质性程度,挖掘scCNA数据的潜力。

在未来,scDNA测序应该会流行起来,更多的数据将在公共存储库上可用;在这一点上,我们想测试和提高我们的分数在大规模的数据集。此外,集成不同的单细胞测量,如ATACseq或scRNA,以扩展其功能也很有趣。发展图书馆的选择应该有助于今后朝着这个方向努力。

可用性和要求

项目名称:PhyliCS

项目主页:欧宝直播官网apphttps://github.com/bioinformatics-polito/PhyliCS


操作系统:GNU / Linux,MacOS和Windows


编程语言:Python


其他要求:GCC安装HDBSCAN Python库


许可证:GNU Affero General Public License v3 (AGPL3)


非学术界使用的任何限制:无

可用性数据和材料

PhyliCS经由的PyPI(分布式https://pypi.org/project/phylics/)和Bioconda(https://anaconda.org/bioconda/phycics.).

它的源代码和最小的文档可以在GitHub上获得:https://github.com/bioinformatics-polito/PhyliCS

本文中讨论的数据和结果全部存储在专用存储库中,并通过jupyter笔记本可通过以下方式进行总结:https://github.com/bioinformatics-polito/PhyliCS_usage

基准测试中使用的数据集是通过仿真得到的。

演示中使用的数据集可在10x Genomics (https://support.10xgenomics.com/single-cell-dna/datasets)、银杏(http://qb.cshl.edu/ginkgo/?q=/igjlK8I6pGAWvGWeqS9P)网站和NCBI序列读取档案(PRJNA629885)。

SCtools的源代码可以在Github上找到https://github.com/bioinformatics-polito/SCTools

缩写

i:

Intra-tumor异质性

scDNA:

单细胞DNA

中央社:

复制号码像差

scCNA:

单细胞人类畸变

SCDNA-SEQ:

单细胞DNA测序

SHscore:

空间差异性的分数

参考

  1. 1。

    诺维尔电脑。肿瘤细胞群的克隆进化。科学。1976;194(4260):洋基。

    中科院PubMed文章谷歌学术搜索

  2. 2.

    癌症的克隆进化。大自然。2012;481(7381):306 - 13所示。

    中科院PubMedpmed中央文章谷歌学术搜索

  3. 3.

    达尔文模型如何告知癌症药物中由克隆异质性引发的治疗失败。中国癌症杂志。2010;10(8):1139-43。

    中科院PubMedpmed中央文章谷歌学术搜索

  4. 4.

    肿瘤内异质性:只见树木不见树木。4(127):127ps10-127ps10。

    文章中科院谷歌学术搜索

  5. 5.

    癌症的异质性:靶向治疗的意义。中国癌症杂志。2013;108(3):479-85。

    中科院PubMedpmed中央文章谷歌学术搜索

  6. 6.

    伯勒尔RA,斯旺顿C.肿瘤的异质和多克隆耐药性的演变。mol on col。2014; 8(6):1095-111。

    中科院PubMedpmed中央文章谷歌学术搜索

  7. 7.

    Maley CC, Galipeau PC, Finley JC, Wongsurawat VJ, Li X, Sanchez CA, et al.;基因克隆多样性预测食管腺癌的进展。38 Nat麝猫。2006;(4):468 - 73。

    中科院PubMed文章谷歌学术搜索

  8. 8.

    丁磊,李志强,李志强,等。全基因组测序揭示复发急性髓系白血病的克隆进化。大自然。2012;481(7382):506 - 10。

    中科院PubMedpmed中央文章谷歌学术搜索

  9. 9.

    Xiao Y, Wang X, Zhang H, Ulintz PJ, Li H, Guan Y. FastClone是一种用于大样本测序的反卷积肿瘤异质性的概率工具。Nat Commun。2020;11(1):1 - 11。

    文章中科院谷歌学术搜索

  10. 10。

    Schröderj,hsu a,boyle se,macintyre g,cmero m,tothill rw等。苏格拉底:通过重新对准软夹读数来鉴定肿瘤基因组中的基因组重排。生物信息学。2014; 30(8):1064-72。

    PubMedpmed中央文章中科院谷歌学术搜索

  11. 11.

    Strino F, Parisi F, Micsinai M, Kluger Y. TrAp:一种树状方法用于识别亚克隆肿瘤成分。核酸学报2013;41(17):e165-e165。

    中科院PubMedpmed中央文章谷歌学术搜索

  12. 12.

    王志强,王志强,王志强,等。单核苷酸体细胞突变对肿瘤克隆进化的影响[j]。BMC Bioinform。2014;15(1):1 - 16。

    文章中科院谷歌学术搜索

  13. 13.

    Schwarz RF, Trinh A, Sipos B, Brenton JD, Goldman N, Markowetz F.肿瘤内异质性的系统发育量化。中国科学:地球科学(英文版),2014;

    PubMedpmed中央文章中科院谷歌学术搜索

  14. 14.

    Yung CK, zhang GH, Stein L, Morris Q. PhyloWGS:从肿瘤全基因组测序重建亚克隆组成和进化。基因组医学杂志。2015;16(1):1 - 20。

    文章谷歌学术搜索

  15. 15.

    元K,Sakoparnig T,Markowetz F,Beerenwinkel N. Beakphylogy:重建肿瘤内部文学的概率框架。基因组Biol。2015; 16(1):1-16。

    文章谷歌学术搜索

  16. 16.

    王建军,王建军,王建军,等。肿瘤基因组结构变异的反褶积和系统发育推断。生物信息学。2018;34 (13):i357 - 65。

    中科院PubMedpmed中央文章谷歌学术搜索

  17. 17.

    Urrutia E,Chen H,Zhou Z,张NR,江Y.分析DNA拷贝数和推断肿瘤发育的综合管线。生物信息学。2018; 34(12):2126-8。

    中科院PubMedpmed中央文章谷歌学术搜索

  18. 18.

    来自单细胞和批量测序数据的亚克隆肿瘤进化的综合推断Nat Commun。2019;10(1):1 - 12。

    中科院文章谷歌学术搜索

  19. 19.

    基于基因表达谱变化的肿瘤内异质性量化算法。Commun医学杂志2020;3(1):-。

    PubMedpmed中央文章谷歌学术搜索

  20. 20.

    Norton N, Advani PP, Serie DJ, Geiger XJ, Necela BM, Axenfeld BC等。多灶浸润性乳腺小叶肿瘤患者的肿瘤异质性评估,通过基因表达谱、通路激活和基因拷贝数证明。PLoS ONE。2016; 11 (4): e0153411。

    PubMedpmed中央文章中科院谷歌学术搜索

  21. 21.

    李伟文,刁磊,王静,张建军,等。多区域基因表达谱揭示了肺癌分子亚型和免疫治疗应答信号的异质性。国防部分册,2018,31(6):947 - 55。

    中科院PubMed文章谷歌学术搜索

  22. 22。

    Park Y,Lim S,Nam JW,Kim S.使用RNA-SEQ数据通过网络熵测量腹腔内异质性。SCI REP。2016; 6(1):1-12。

    文章中科院谷歌学术搜索

  23. 23。

    Zaccaria S, Raphael BJ。准确定量拷贝数畸变和全基因组重复在多样本肿瘤测序数据。Nat Commun。2020;11(1):1-13。

    文章中科院谷歌学术搜索

  24. 24.

    Manica M,Kim HR,Mathis R,Chouvarine P,Rutishauser D,Roditi LDV,等。从多个肿瘤活组织检查中推断克隆组合物。NPJ SYST BIOL APPL。2020; 6(1):1-13。

    文章中科院谷歌学术搜索

  25. 25.

    罗志强,王志强,王志强,等。PyClone:癌症中克隆群体结构的统计推断。Nat方法。2014;11(4):396 - 8。

    中科院PubMedpmed中央文章谷歌学术搜索

  26. 26.

    等。克隆:推断克隆结构和跟踪肿瘤进化的空间和时间模式。中国科学:地球科学(英文版),2014;

    PubMedpmed中央文章中科院谷歌学术搜索

  27. 27.

    TargetClone:一种重建肿瘤亚克隆进化的多样本方法。PLoS ONE。2018; 13 (11): e0208002。

    PubMedpmed中央文章中科院谷歌学术搜索

  28. 28.

    Dagogo-Jack I, Shaw AT。肿瘤的异质性和对癌症治疗的耐药性。中国科学(d辑:地球科学)2018;15(2):81。

    中科院PubMed文章谷歌学术搜索

  29. 29.

    Jamal-Hanjani M,Wilson Ga,McGranahan N,Birkbak NJ,Watkins TB,Veeriah S等人。跟踪非小细胞肺癌的演变。n Engl J Med。2017; 376(22):2109-21。

    中科院PubMed文章谷歌学术搜索

  30. 30.

    Navin N, Kendall J, Troge J, Andrews P, Rodgers L, McIndoo J,等。通过单细胞测序推断肿瘤进化。大自然。2011;472(7341):90。

    中科院PubMedpmed中央文章谷歌学术搜索

  31. 31.

    Andor N,Lau Bt,Catalanotti C,Kumar V,Sathe A,Belhocine K,等人。胃癌联合单细胞DNA-SEQ和RNA-SEQ揭示了基因组不稳定性和基因表达的亚基签名。生物XIV。2020;p。445932。

  32. 32.

    Zahn H,Steif A,Laks E,Eirew P,Vaninsberghe M,Shah Sp,等。可扩展的全基因组单细胞库制剂无前置放大。NAT方法。2017; 14(2):167。

    中科院PubMed文章谷歌学术搜索

  33. 33.

    张志强,张志强,张志强,等。克隆分解和DNA复制状态定义的规模单细胞基因组测序。细胞。2019;179(5):1207 - 21所示。

    中科院PubMedpmed中央文章谷歌学术搜索

  34. 34。

    Garvin T, Aboukhalil R, Kendall J, Baslan T, Atwal GS, Hicks J,等。单细胞拷贝数变异的交互分析和评估。Nat方法。2015;12(11):1058 - 60。

    中科院PubMedpmed中央文章谷歌学术搜索

  35. 35。

    巴克B,Taudt A,Belderbos ME,Porubsky d,Spierings DC,de Jong的电视,等。单细胞测序显示鼠和人类恶性肿瘤中的核型异质性。基因组Biol。2016; 17(1):1-15。

    文章中科院谷歌学术搜索

  36. 36。

    王旭,陈浩,张宁宁。基于单细胞测序的DNA拷贝数分析。短暂的Bioinform。2018;19(5):731 - 6。

    PubMed文章中科院谷歌学术搜索

  37. 37.

    董晓霞,张丽丽,郝晓霞,王涛,Vijg J. SCCNV:一种用于单细胞全基因组测序中拷贝数变异识别的软件工具。麝猫。2020;败坏。

    谷歌学术搜索

  38. 38.

    王R,林Dy,江Y.范围:单细胞DNA测序的标准化与拷贝数估计方法。细胞系统。2020; 10(5):445-52。

    PubMedpmed中央文章中科院谷歌学术搜索

  39. 39.

    Zaccaria S, Raphael BJ。用凿子在单细胞中表征等位基因和单倍型特异性拷贝数。NAT BIOTECHNOL。2020; 66:1-8。

    谷歌学术搜索

  40. 40。

    弗雷BJ,Dueck聚类D.通过使数据点之间的消息。科学。2007; 315(5814):972-6。

    中科院PubMed文章谷歌学术搜索

  41. 41。

    张涛,Ramakrishnan R, Livny M. BIRCH:一种用于大型数据库的高效数据聚类方法。中国科学(d辑:地球科学)1996;25(2):103-14。

    文章谷歌学术搜索

  42. 42.

    徐晓东,李晓东,李晓东,等。一种基于密度的大型空间数据库聚类发现算法。:知识发现(Kdd)。卷。96;1996.226 - 31页。

  43. 43.

    Mcinnes L,Healy J.加速基于分层密度的聚类。在:2017 IEEE数据矿业研讨会(ICDMW)国际会议。IEEE;2017. p。33-42。

  44. 44.

    层次聚类方案。心理测量欧宝直播官网app学。1967;32(3):241 - 54。

    中科院PubMed文章谷歌学术搜索

  45. 45.

    macqueen j等。多变量观测分类和分析的一些方法。在:第五伯克利研讨会上的数学统计和概率的讨论。卷。1.奥克兰,加州,美国;1967. p。281-97。

  46. 46。

    Ankerst M, Breunig MM, Kriegel HP, Sander J. OPTICS:排序点识别聚类结构。中国科学(d辑:地球科学)1999;28(2):49-60。

    文章谷歌学术搜索

  47. 47。

    吴志强,王志强,王志强,等。关于光谱聚类:分析与算法。《神经过程》2002;2:849-56。

    谷歌学术搜索

  48. 48。

    rousseeuw pj。剪影:对聚类分析的解释和验证的图形辅助。j计算appl math。1987; 20:53-65。

    文章谷歌学术搜索

  49. 49.

    什么时候“最近的邻居”有意义?见:数据库理论国际会议。施普林格;1999.217 - 35页。

  50. 50.

    Aggarwal CC, Hinneburg A, Keim DA。高维空间中距离度量的奇异行为。见:数据库理论国际会议。施普林格;2001.420 - 34页。

  51. 51。

    从单细胞DNA测序数据评估拷贝数畸变检测方法的性能。中国科学:地球科学(英文版),2017;

    中科院PubMedpmed中央文章谷歌学术搜索

  52. 52。

    Blum mg,FrançoisO.哪种随机过程描述了生命之树?系统发育树不平衡的大规模研究。系统中的生物学。2006; 55(4):685-91。

    PubMed文章谷歌学术搜索

  53. 53。

    10x Genomics:生物学在真分辨率;2019.https://www.10xgenomics.com

  54. 54.

    Reinert K,Dadi Th,Ehrhardt M,Hauswedell H,Mehringer S,Rahn R等。用于高效序列分析的SEQAN C ++模板库:程序员的资源。j biotechnol。2017; 261:157-68。

    中科院PubMed文章谷歌学术搜索

  55. 55.

    Navin N, Krasnitz A, Rodgers L, Cook K, Meth J, Kendall J,等。从基因组异质性推断肿瘤进展。基因组研究》2010;20(1):68 - 80。

    中科院PubMedpmed中央文章谷歌学术搜索

  56. 56.

    梁茂林,王永强,王永强,等。单细胞DNA测序揭示了转移性结直肠癌的晚期传播模型。基因组研究》2017;27(8):1287 - 99。

    中科院PubMedpmed中央文章谷歌学术搜索

  57. 57.

    Lawson Da,Kessenbrock K,达维斯Rt,Pervolarakis N,Werb Z.肿瘤异质性和单细胞分辨率的转移。NAT细胞BIOL。2018; 20(12):1349-60。

    中科院PubMedpmed中央文章谷歌学术搜索

  58. 58。

    王凯,王志强,王志强,等。乳腺肿瘤在扩张过程中保持着亚克隆多样性。大自然。2021;592(7853):302 - 8。

    中科院PubMed文章谷歌学术搜索

下载参考

确认

计算资源由都灵理工大学控制与计算机工程系的学术计算项目HPC@POLITO提供。http://www.hpc.polito.it).

资金

这项工作得到了SmartData@PoliTO大数据和数据科学中心、AIRC 5x1000基金(21091)和欧洲研究理事会整合基金(724748 - BEAT)的支持。没有一个资助机构参与了研究的设计、数据的收集、分析和解释以及手稿的撰写。

作者信息

从属关系

作者

贡献

MM实施了文学;MM从例如GU和AB的主要贡献中生成测试;MM用来自例如GU和AB的主要贡献写出了出版物;CGP和AB监督出版物的生物方面;AB和EF设计和监督该项目。所有作者均审查,阅读并批准了最终手稿。

相应的作者

对应到Marilisa Montemurro

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1。

含有在主要文本中引用的补充图和方法的补充材料。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

蒙特莫罗,格拉西,E.,皮兹诺,C.G.et al。PhyliCS:一个用于探索scCNA数据和量化空间肿瘤异质性的Python库。欧宝娱乐合法吗22,360(2021)。https://doi.org/10.1186/s12859-021-04277-3.

下载引用

关键字

  • 单细胞测序
  • Intra-tumor异质性
  • 癌症进化
  • 克隆
  • DNA
  • 算法