跳到主要内容gydF4y2Ba

Scconsensus:在单细胞RNA测序数据中相结合的细胞类型鉴定进行细胞类型鉴定gydF4y2Ba

抽象的gydF4y2Ba

背景gydF4y2Ba

聚类是分析单细胞数据的关键步骤。以无监督方式鉴定的簇通常基于差异表达基因向细胞类型注释。相比之下,监督方法使用标记的转录om的参考面板来指导聚类和细胞类型识别。监督和无监督的聚类方法具有不同的优势和局限性。因此,它们可以导致不同但通常互补的聚类结果。因此,利用聚类范式的优点的共识方法可能导致更准确的聚类和更精确的细胞类型注释。gydF4y2Ba

结果gydF4y2Ba

我们提出gydF4y2Bascconsensus.gydF4y2Ba, 一个gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba通过(1)整合来自非监督和监督方法的结果和(2)使用差异表达基因细化共识聚类,生成共识聚类的框架。我们的方法的价值在几个现有的单细胞RNA测序数据集上得到了证实,包括分类PBMC亚种群的数据。gydF4y2Ba

结论gydF4y2Ba

scconsensus.gydF4y2Ba将无监督和监督方法的优点与细胞分离和均匀性更好的分区单元格相结合,从而提高了我们对检测不同细胞类型的置信度。gydF4y2Bascconsensus.gydF4y2Ba是实施的gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba可以在GitHub上免费下载gydF4y2Bahttps://github.com/prabhakarlab/scConsensusgydF4y2Ba。gydF4y2Ba

背景gydF4y2Ba

自第2009年发表了第一个单细胞实验以来[gydF4y2Ba1gydF4y2Ba],单细胞RNA测序(scRNA-seq)已成为异构数据集转录组分析的准标准。与批量rna测序相比,scRNA-seq能够以一种不匹配的分辨率阐明转录组的异质性,从而允许下游分析以细胞类型特异性的方式进行,非常容易。这已被证明是特别重要的例如在病例对照研究或肿瘤异质性研究中[gydF4y2Ba2gydF4y2Ba]。如今,由于实验技术的进步,可以用高通量微流体系统来分析超过100万单细胞转录om。需要可扩展且鲁棒的计算框架来分析这种高度复杂的单个小区数据集。gydF4y2Ba

用于批注细胞类型的单个细胞的聚类是该分析中的主要步骤。有两种方法可以应用于群集和注释细胞类型:(1)未经监督的聚类,然后使用标记基因进行群集注释[gydF4y2Ba3.gydF4y2Ba(2)使用参考数据集的监督方法对群集单元格[gydF4y2Ba4gydF4y2Ba]或将细胞分类为细胞类型[gydF4y2Ba5gydF4y2Ba]。gydF4y2Ba

存在多种方法来进行无监督的聚类,使用不同距离度量的每种方法,特征集和模型假设。基于图形的聚类方法gydF4y2BaSeurat.gydF4y2Ba(gydF4y2Ba6gydF4y2Ba及其Python对应版本gydF4y2BaScanpygydF4y2Ba(gydF4y2Ba7gydF4y2Ba]是最普遍的。此外,基于分层的许多方法[gydF4y2Ba8gydF4y2Ba],基于密度的[gydF4y2Ba9gydF4y2Ba]和k均值聚类[gydF4y2Ba10gydF4y2Ba]通常用于该领域。Kiselev等人。(gydF4y2Ba3.gydF4y2Ba]提供了关于无监督聚类方法的广泛概述,并详细讨论了不同的方法。重要的是,他们的结论是,目前还没有强劲的方法可以适用于任何类型的scRNA-seq数据集,作为方法的性能可以通过数据集的大小,影响测序类型的细胞的数量和性质以及技术方面,如辍学,样品质量和批处理的效果。gydF4y2Ba

无监督聚类方法对于发现新的细胞类型特别有用。然而,基于标记的标注是一项耗时费力的工作,给研究者带来了很大的负担。此外,手动、基于标记的注释可能容易产生噪声和退出效应。此外,不同的研究小组倾向于使用不同的标记基因组来注释集群,使得结果在不同的实验室中不具有可比性。gydF4y2Ba

为了克服这些限制,提出了监督的细胞类型分配和聚类方法。监督聚类对无监督聚类的主要优势是其对批量效应及其重现性的鲁棒性。这已被证明对不同数据集的综合分析有益[gydF4y2Ba4gydF4y2Ba]。由[gydF4y2Ba5gydF4y2Ba]。虽然他们发现有几种方法在细胞类型识别中实现高精度,但它们还指出了某些警告:在其实验中不能准确地识别CD4 +和CD8 + T细胞的几个次级。(gydF4y2Ba5gydF4y2Ba[将其追溯到某些测试方法使用的参考数据组中的这些单元格类型的不恰当和/或缺少的标记基因。这暴露了监督聚类和分类方法的漏洞 - 参考数据集对该方法可以检测到的小区类型的约束。除此之外,对参考数据的强烈依赖,另一个一般观察结果是细胞类型分配的准确性随着细胞数量的越来越多的细胞和它们之间的成对相似性增加而降低。此外,不允许细胞注释为的聚类方法gydF4y2Ba可知gydF4y2Ba,如果他们不匹配任何参考单元类型,更容易发生错误的预测。gydF4y2Ba

总之,尽管细胞类型识别在scRNA-seq数据分析中具有明显的重要性,但单细胞群体尚未汇聚到一种细胞分型方法上[gydF4y2Ba3.gydF4y2Ba]。由于许多聚类方法的不同优点和缺点,这不太可能在不久的将来发生。然而,由于无监督和监督方法都具有不同的优势,因此希望利用最好的,以改善单细胞数据的聚类。如附加文件中的例子gydF4y2Ba1gydF4y2Ba:图S1使用FACS-Sorfed外周血单核细胞(PBMC)SCRNA-SEQ数据来自[gydF4y2Ba11gydF4y2Ba],监督和非监督方法都提供了对数据集单元类型组成的独特见解。具体来说,监督gydF4y2Ba美国广播公司gydF4y2Ba(gydF4y2Ba4gydF4y2Ba]能够检测不同的祖亚型,然而gydF4y2BaSeurat.gydF4y2Ba能够更好地确定t细胞亚型。因此,将两个聚类结果结合起来,可以获得更丰富的标注信息。gydF4y2Ba

受到无监督聚类方法中使用的共识方法的启发gydF4y2BaSC3gydF4y2Ba,这导致与基于图形的方法相比,小数据集的聚类结果改进了[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba10gydF4y2Ba),我们建议gydF4y2Bascconsensus.gydF4y2Ba,计算框架gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba基于至少两个不同的聚类结果获得一致的聚类集。gydF4y2Ba

首先,共识群集来自两个聚类方法的结果。该共识群集表示从群集结果导出的小区分组,从而包括来自两个输入的信息。有关如何生成此共识群集的详细信息,请在“Scconsensus的工作流程”部分中提供。gydF4y2Ba

图。1gydF4y2Ba
图1gydF4y2Ba

的gydF4y2Bascconsensus.gydF4y2Ba工作流。gydF4y2Ba一个gydF4y2Ba的gydF4y2Bascconsensus.gydF4y2BaWorkflow考虑了从任意一对监督和无监督聚类方法中获得的两个独立的单元簇注释。gydF4y2BabgydF4y2Ba生成一个联列表来说明单个单元级别上注释的重叠。共识标签是使用自动方法或由用户手动管理生成的。gydF4y2BacgydF4y2BaDE基因在所有成对的共识簇之间进行计算。这些DE基因被用来重新聚类数据。这样得到的精细化集群可以用细胞类型标签进行注释gydF4y2Ba

其次,通过使用一致簇特异性差异表达基因(DEG)的结合重新聚类细胞,对得到的一致簇进行细化(图。gydF4y2Ba1gydF4y2Ba)功能。每个初始共识聚类以成对的方式与其他聚类进行比较,以使强标记基因的聚类间距离最大化。因此,不同细胞类型的分离将得到改善,而代表相同细胞类型的簇将被合并在一起,而没有显示出不同的标记。这个过程可以以一种迭代的方式无缝地应用,以组合两个以上的聚类结果。gydF4y2Ba

在这里,我们说明了适用性gydF4y2Bascconsensus.gydF4y2Ba通过将群集结果集成到广泛使用的过程中的工作流程gydF4y2BaSeurat.gydF4y2Ba包(gydF4y2Ba6gydF4y2Ba] 和gydF4y2Ba斯gydF4y2Ba(gydF4y2Ba12gydF4y2Ba],与来自监督方法的人gydF4y2Ba美国广播公司gydF4y2Ba(gydF4y2Ba4gydF4y2Ba] 和gydF4y2Ba单gydF4y2Ba(gydF4y2Ba13gydF4y2Ba]。gydF4y2Ba

方法gydF4y2Ba

使用数据集gydF4y2Ba

我们总共使用了5个10X CITE-Seq scRNA-seq数据集。7817个脐带血单个核细胞和7583个PBMC细胞的两组数据分别来自[gydF4y2Ba14gydF4y2Ba[分别来自含有8242个粘液相关淋巴结细胞,7750和7627 PBMC的10X基因组学。此外,我们下载了[中生成的Facs-Sorfed PBMC SCRNA-SEQ数据gydF4y2Ba11gydF4y2Ba]对于CD14 +单核细胞,CD19 + B细胞,CD34 +细胞,CD4 +辅助T细胞,CD4 + / CD25 +调节T细胞,CD4 + / CD45ra + / CD25-NaIve T细胞,CD4 + / CD45RO +记忆T细胞CD56 +天然杀伤细胞,CD8 +细胞毒性T细胞和来自10x网站的CD8 + / CD45ra +天真T细胞。附加文件中提供了进一步的详细信息和下载链接gydF4y2Ba1gydF4y2BaS1:表。表格gydF4y2Ba1gydF4y2Ba提供纸张剩余部分中使用的首字母缩略词。有关FACS的处理的详细信息在附加文件中提供了PBMC数据gydF4y2Ba1gydF4y2Ba:注3。gydF4y2Ba

表1概述每个考虑SCRNA-SEQ数据集中包含的单元格数以及本文中使用的缩略语gydF4y2Ba

数据预处理和初始聚类gydF4y2Ba

我们使用gydF4y2Ba美国广播公司gydF4y2Ba(版本1.0)gydF4y2BaSeurat.gydF4y2Ba(3.1.0版)用于无监督群集(图。gydF4y2Ba1gydF4y2Ba一种)。作为参考面板包含在内gydF4y2Ba美国广播公司gydF4y2Ba只包含主要细胞类型,我们产生了一种基于来自[中的分选散装RNA-SEQ数据的免疫特异性参考面板。gydF4y2Ba15gydF4y2Ba]。关于生成此参考面板的详细信息在附加文件中提供gydF4y2Ba1gydF4y2Ba:注1。gydF4y2Ba

所有数据预处理都是使用的gydF4y2BaSeurat.gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba-包裹。在使用较低和上限的电池过滤后gydF4y2Ba检测基因数(NODG)gydF4y2Ba上界是gydF4y2Ba线粒体率gydF4y2Ba,我们过滤出在至少100个细胞中不表达的基因。数据集特定的QC度量标准在附加文件中提供gydF4y2Ba1gydF4y2Ba:表S2。请注意,我们没有申请阈值gydF4y2Ba唯一分子标识的数量gydF4y2Ba。gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba- 在附加文件中提供了代码gydF4y2Ba1gydF4y2Ba: 笔记2。gydF4y2Ba

Scconsensus的工作流程gydF4y2Ba

scconsensus.gydF4y2Ba将监督和无监督的聚类结果作为输入,执行以下两种主要步骤:gydF4y2Ba

  1. 1.gydF4y2Ba

    使用应急表将共识注释巩固来自聚类输入的结果,gydF4y2Ba

  2. 2.gydF4y2Ba

    使用de基因通过重新聚类细胞改进共识簇标签。gydF4y2Ba

图中显示了整个管道。gydF4y2Ba1gydF4y2Ba。gydF4y2Ba

生成共识聚类gydF4y2Ba

首先,我们使用gydF4y2Ba桌子gydF4y2Ba功能在gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba构建应急表(图。gydF4y2Ba1gydF4y2Bab).联列表中的每个值是指集群之间的重叠程度,以单元格的数量来衡量。gydF4y2Ba

scconsensus.gydF4y2Ba提供一种自动获得一致的群集标签集的方法gydF4y2Ba\({\ mathcal {c}} \)gydF4y2Ba。从具有较多群集的聚类开始,称为gydF4y2Ba\({\ mathcal {l}} \)gydF4y2Ba,gydF4y2Bascconsensus.gydF4y2Ba确定是否存在任何可能的子集群gydF4y2Ba\({\ mathcal {l}} \)gydF4y2Ba。为此,我们确定每个群集gydF4y2Ba(l \in {\mathcal {l}}\)gydF4y2Ba与较少群集的聚类重叠百分比(gydF4y2Ba\({\ mathcal {f}} \)gydF4y2Ba)在细胞号方面:gydF4y2Ba\(| l \ cap f | \)gydF4y2Ba。默认情况下,我们考虑任何群集gydF4y2BafgydF4y2Ba有重叠gydF4y2Ba\(\ ge 10 \%\)gydF4y2Ba与集群gydF4y2BaL.gydF4y2Ba作为集群的子群gydF4y2BaL.gydF4y2Ba,然后将新标签分配给重叠的单元格作为组合gydF4y2BaL.gydF4y2Ba和gydF4y2BafgydF4y2Ba。对于集群中的细胞gydF4y2Ba(l \in {\mathcal {l}}\)gydF4y2Ba重叠gydF4y2Ba\ (< 10 \ % \)gydF4y2Ba到任何集群gydF4y2Ba\(f \在{\ mathcal {f}} \)gydF4y2Ba,原始标签将保留。我们注意到用户可以更改重叠阈值。例如,通过将其设置为0,每个单元将基于考虑的聚类结果获得标签gydF4y2Ba\({\ mathcal {f}} \)gydF4y2Ba和gydF4y2Ba\({\ mathcal {l}} \)gydF4y2Ba。在不太可能的情况下,聚类方法都会导致相同数量的群集,gydF4y2Bascconsensus.gydF4y2Ba选择要最大限度地提高注释的多样性的注释,以避免信息丢失。gydF4y2Ba

除了自动共识生成和后者的细化外,gydF4y2Bascconsensus.gydF4y2Ba为用户提供手动集群整合的方式。这种方法特别适合于专家用户,他们对所分析的数据集中预计会出现的单元格类型有很好的理解。gydF4y2Ba

通过重新聚类细胞对de基因进行改进gydF4y2Ba

一旦共识聚类gydF4y2Ba\({\ mathcal {c}} \)gydF4y2Ba已经获得了,我们确定了前30名基因,通过折叠变化的绝对值排列,在每对簇之间gydF4y2Ba\({\ mathcal {c}} \)gydF4y2Ba并使用这些de基因的联合集重新聚类细胞(图。gydF4y2Ba1gydF4y2Bac).需要注意的是,DE基因的数量是一个用户参数,可以改变。根据经验,我们发现结果对这个参数相对不敏感(附加文件gydF4y2Ba1gydF4y2Ba:图S9),因此它一直被设置为默认值30。通常,对于UMI数据,我们使用gydF4y2BaWilcoxongydF4y2Ba测试确定统计显着性(Q值gydF4y2Ba\(\ Le 0.1 \)gydF4y2Ba)差异表达和耦合,具有折叠变化阈值(绝对日志折叠变化gydF4y2Ba\(\ ge 0.5 \)gydF4y2Ba)来选择差异表达基因。基于DE基因选择的主成分分析(PCA) [gydF4y2Ba16gydF4y2Ba进行以减少使用DE基因作为特征的数据的维度。可以使用弯头图选择要使用的主要组件(PC)的数量。对于这里使用的数据集,我们发现15个PC是保守估计,始终如一地解释了数据中的大部分方差(附加文件gydF4y2Ba1gydF4y2Ba:图S10)。然后,我们将PC空间中的细胞单元距离矩阵构成使用Ward的附近分层聚类方法来构建PC空间中的簇细胞[gydF4y2Ba17gydF4y2Ba]。gydF4y2Ba

多种聚类方法的顺序合并gydF4y2Ba

scConsensus可以被概括为依次合并三个或更多的方法。依次进行聚类结果的归并,将2个聚类结果的一致性作为输入与第三个聚类进行归并,将这2个聚类结果的两两归并的输出与第四个聚类进行归并,以此类推。这个过程在用户提供的所有集群中重复。默认情况下,输入聚类按照聚类数量的降序排列。gydF4y2Ba

抗体标签的聚类来导出Cite-SEQ数据的基础事实gydF4y2Ba

我们使用Cite-SEQ数据中的抗体导出标签(ADTS)进行聚类细胞使用的细胞类型识别gydF4y2BaSeurat.gydF4y2Ba。使用中心的日志比(CLR)归一化原始抗体数据[gydF4y2Ba18gydF4y2Ba“转换方法”,归一化数据以居中并缩放为均值和单位方差。使用PCA进行尺寸减少。使用Seurat的默认图形群集确定细胞集群。更多详细信息以及用于群集数据的源代码,可在附加文件中使用gydF4y2Ba1gydF4y2Ba: 笔记2。gydF4y2Ba

由于这些集群标签仅使用ADTS得出,因此他们提供了一个无偏见的基础真理来基准性能gydF4y2Bascconsensus.gydF4y2Ba在SCRNA-SEQ数据上。对于每种抗体衍生的簇,我们鉴定了与使用的所有其他细胞相比,我们鉴定了在每个ADT簇中的阳性上调的前30 de基因(SCRNA-SEQ数据)。gydF4y2BaSeurat.gydF4y2Bafindallmarkers.gydF4y2Ba功能。这些DE基因的联合组用于使用PCA至15ps的二维性降低,每个数据集合,并且使用该PC空间中电池之间的欧几里德距离构建细胞间距离矩阵。该距离矩阵用于剪影索引计算以测量集群分离。gydF4y2Ba

评价聚类质量的指标gydF4y2Ba

用于比较簇标签的标准化互信息(NMI)gydF4y2Ba

归一化互信息(NMI)决定了任何两组簇标签之间的一致性gydF4y2Ba\({\ mathcal {c}} \)gydF4y2Ba和gydF4y2Ba\ ({\ mathcal {C}} \)gydF4y2Ba。我们计算gydF4y2Ba\(nmi({\ mathcal {c}},{\ mathcal {c}}')\)gydF4y2Ba之间gydF4y2Ba\({\ mathcal {c}} \)gydF4y2Ba和gydF4y2Ba\ ({\ mathcal {C}} \)gydF4y2Ba作为gydF4y2Ba

$ $ \{对齐}开始敝中断({\ mathcal {C}}, {\ mathcal {C}}”)& = \压裂{[H ({\ mathcal {C}}) + H ({\ mathcal {C}}”)- H ({\ mathcal {C}} {\ mathcal {C}}”)]}{\马克斯(H ({\ mathcal {C}}), H ({\ mathcal {C}}”))}\{对齐}$ $gydF4y2Ba
(1)gydF4y2Ba

在哪里gydF4y2Ba(h(h({\ mathcal {c}})\)gydF4y2Ba是聚类的熵吗gydF4y2Ba\({\ mathcal {c}} \)gydF4y2Ba(见[gydF4y2Ba19gydF4y2Ba]以获得更多关于熵作为聚类质量的衡量指标的信息)。NMI越接近1.0,两类聚类结果越一致。gydF4y2Ba

使用自引导评估群集质量gydF4y2Ba

我们使用(1)余弦相似性gydF4y2Ba\(cs_ {x,y} \)gydF4y2Ba(gydF4y2Ba20.gydF4y2Ba(2)Pearson相关性gydF4y2Ba\(r_ {x,y} \)gydF4y2Ba为任一对单个单元格计算成对细胞 - 小区相似度(gydF4y2BaXgydF4y2Ba,gydF4y2BaygydF4y2Ba)在群集中gydF4y2BacgydF4y2Ba根据:gydF4y2Ba

$ $ \{对齐}开始cs_ {x, y} & = \压裂{\ \和限制_ {g \ {\ mathcal {g}}} x_g y_g}{\√6{\ \和限制_ {g \ {\ mathcal {g}}} x_g ^ 2} \√6{\ \和限制_ {g \ {\ mathcal {g}}} y_g ^ 2}}, \{对齐}$ $gydF4y2Ba
(2)gydF4y2Ba
$$ \ begin {senugented} r_ {x,y}&= \ frac {\ sum \ limits _ {g \在{\ mathcal {g}}}(x_g - {\ hat {x}})(y_g- {\ hat {y}})} {\ sqrt {\ sum \ limits _ {g \在{\ mathcal {g}}}(x_g - {\ hat {x}})^ 2} \ sqrt {\ sum \ limits_ {g \在{\ mathcal {g}}}(y_g - {\ hat {y}})^ 2}}。\结束{对齐} $$gydF4y2Ba
(3)gydF4y2Ba

为了避免不同聚类方法的特征空间所带来的偏差,这两个指标都在原始基因表达空间中计算gydF4y2Ba\ ({\ mathcal {G}} \)gydF4y2Ba在哪里gydF4y2Ba\ (x_g \)gydF4y2Ba代表基因的表达gydF4y2BaggydF4y2Ba在细胞中gydF4y2BaXgydF4y2Ba和gydF4y2Ba\(y_g \)gydF4y2Ba代表基因的表达gydF4y2BaggydF4y2Ba在细胞中gydF4y2BaygydF4y2Ba,分别。我们应用两个截断gydF4y2Ba\ ({\ mathcal {G}} \)gydF4y2Ba关于基因表达(0.5和1)的差异,从而忽略不太可能能够彼此区分不同簇的基因。使用引导映射,我们从考虑的基因表达空间中选择100个基因100次gydF4y2Ba\ ({\ mathcal {G}} \)gydF4y2Ba计算平均余弦相似度gydF4y2Ba\(cs_ {c} ^ i \)gydF4y2Ba以及皮尔逊相关均值gydF4y2Ba我\ \ (r_ {c} ^)gydF4y2Ba对于每个群集gydF4y2Ba\(c \在{\ mathcal {c}} \)gydF4y2Ba在每次迭代中gydF4y2Ba一世gydF4y2Ba:gydF4y2Ba

$ $ \{对齐}开始cs_ {c} ^我= \压裂{1}{c | |} \总和_{用c (x, y) \} cs_ {x, y}, \{对齐}$ $gydF4y2Ba
(4)gydF4y2Ba
$$ \ begin {对齐} r_ {c} ^ i&= \ frac {1} {| c |} \ sum _ {(x,y)\ in c} r_ {x,y}。\结束{对齐} $$gydF4y2Ba
(5)gydF4y2Ba

分数gydF4y2Ba\(cs_ {c} \)gydF4y2Ba和gydF4y2Ba\ (r_ c {} \)gydF4y2Ba用于所有考虑的数据集和所有三种聚类方法的计算,gydF4y2Bascconsensus.gydF4y2Ba,gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba。越接近gydF4y2Ba\(cs_ {c} \)gydF4y2Ba和gydF4y2Ba\ (r_ c {} \)gydF4y2Ba对于1.0,它们各自簇内的细胞越相似。使用单侧Wilcoxon-Mann-Whitney测试评估统计学意义。gydF4y2Ba

在FACS排序数据上测试小区类型分配的准确性gydF4y2Ba

使用FACS标签作为我们的地面真理细胞类型分配,我们计算了细胞类型识别的F1分数来证明改进gydF4y2Bascconsensus.gydF4y2Ba通过其输入聚类结果实现gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba。每个细胞类型的F1分数gydF4y2BaT.gydF4y2Ba被定义为精度的谐波平均值(gydF4y2BapregydF4y2Ba(gydF4y2BaT.gydF4y2Ba))和召回(gydF4y2BarecgydF4y2Ba(gydF4y2BaT.gydF4y2Ba))计算用于细胞类型gydF4y2BaT.gydF4y2Ba。换句话说,gydF4y2Ba

$$ \ begined {对齐} f1(t)&= 2 \ frac {pre(t)rec(t)} {pre(t)+ rec(t)},\结束{对齐} $$gydF4y2Ba
(6)gydF4y2Ba
$$ \ begined {对齐} pre(t)&= \ frac {tp(t)} {tp(t)+ fp(t)},\结束{对齐} $$gydF4y2Ba
(7)gydF4y2Ba
$$ \ begin {对齐} rec(t)&= \ frac {tp(t)} {tp(t)+ fn(t)}。\结束{对齐} $$gydF4y2Ba
(8)gydF4y2Ba

在这里,答:gydF4y2BaTP.gydF4y2Ba被定义为正确的单元格类型分配,agydF4y2BaFP.gydF4y2Ba指将一个细胞误认为是一种细胞类型gydF4y2BaT.gydF4y2Ba和一个gydF4y2BaFN.gydF4y2Ba是一个真实身份的细胞gydF4y2BaT.gydF4y2Ba但细胞的标记是不同的。gydF4y2Ba

使用UMAP可视化scRNA-seq数据gydF4y2Ba

目视检查gydF4y2Bascconsensus.gydF4y2Ba结果,我们计算每对地面真实集群之间的DE基因,并使用那些DE基因的联盟集作为PCA的特征。接下来,我们使用统一的歧管近似和投影(UMAP)尺寸减小技术[gydF4y2Ba21gydF4y2Ba]以两维的PCA空间中的细胞嵌入细胞的嵌入。gydF4y2Ba

结果gydF4y2Ba

scConsensus:一种用于聚类单个单元数据的混合方法gydF4y2Ba

scconsensus.gydF4y2Ba是一般gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba框架提供工作流程,以将两种不同聚类方法的结果组合。简要地,gydF4y2Bascconsensus.gydF4y2Ba是一种两步的方法。第一的,gydF4y2Bascconsensus.gydF4y2Ba使用两个输入聚类结果的笛卡尔乘积创建共识群集。下一个,gydF4y2Bascconsensus.gydF4y2Ba计算所有共识簇之间的DE基因。这些DE基因用于构建数据(PCA)的降维表示,其中细胞使用层次聚类重新聚类。的gydF4y2Bascconsensus.gydF4y2Ba管道在图2中示出。gydF4y2Ba1gydF4y2Ba。gydF4y2Ba

scConsensus产生的簇与抗体衍生的簇更一致gydF4y2Ba

我们使用了五个考虑的Cite-SEQ数据集的抗体导出的标签(ADT)信号,以为所有考虑的样本生成地面真实聚类(图。gydF4y2Ba2gydF4y2Baa).接下来,我们使用数据中的scRNA-seq成分计算基于抗体簇之间的所有差异表达(DE)基因。如图所示。gydF4y2Ba2gydF4y2Bab(附加文件gydF4y2Ba1gydF4y2Ba:图S2), DE基因的表达具有聚类特异性,从而表明抗体衍生的聚类在基因表达空间中是可分离的。因此,这些DE基因被用作特征集来评价不同的聚类策略。gydF4y2Ba

图2gydF4y2Ba
figure2gydF4y2Ba

抗体衍生的基础真理CITE-Seq数据。gydF4y2Ba一个gydF4y2Ba- - - - - -gydF4y2BaegydF4y2Ba在五个CITE-SEQ数据集中,每个单元格的簇特异性抗体信号。gydF4y2BafgydF4y2Ba- - - - - -gydF4y2BajgydF4y2Ba在每个细胞簇中,前30个差异表达基因的平均表达量。(a, f) CBMC, (b, g) PBMC Drop-Seq, (c, h) MALT, (d, i) PBMC, (e, j) PBMC- vdjgydF4y2Ba

图3.gydF4y2Ba
图3gydF4y2Ba

抗体衍生地面真理的正常化互信息(NMI),用SCRAN,SINGLER,SEURAT和RCA聚类结果的成对组合。gydF4y2Ba一个gydF4y2Ba- - - - - -gydF4y2BaegydF4y2Ba在五个cte - seq数据集上进行成对组合:(a) CBMC, (b) PBMC Drop-Seq, (c) MALT, (d) PBMC, (e) PBMC- vdj。“None”是指没有组合,即直接使用聚类方法的输出计算NMIgydF4y2Ba

在这里,我们评估了协议gydF4y2Ba斯gydF4y2Ba,gydF4y2Ba单gydF4y2Ba,gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba他们的一对gydF4y2Bascconsensus.gydF4y2Ba结果与抗体的单细胞集群在归一化的互信息(NMI)方面,评分与群集标签相似度的评分。在大多数情况下,我们观察到,使用SCConsensus将聚类结果与另一个方法组合,改善了其NMI评分。此外,在5种数据集中,我们观察到在合并一个监督和一个无人监督的方法时观察到更大的性能改善,与组合两个监督或两个无监督的方法相比(图。gydF4y2Ba3.gydF4y2Ba)。gydF4y2Ba

图4.gydF4y2Ba
装具gydF4y2Ba

基于ADT的PBMC数据集的聚类。gydF4y2Ba一个gydF4y2Ba- - - - - -gydF4y2BadgydF4y2Ba在DE基因空间中锚定的umap被从gydF4y2Ba一个gydF4y2BaADT数据,gydF4y2BabgydF4y2BaSeurat集群,gydF4y2BacgydF4y2BaRCA和gydF4y2BadgydF4y2Bascconsensus.gydF4y2Ba

对于这些集群的目视检查,我们提供了基于ADT集群之间计算的DE基因的地面真理特征空间中的群集导致的群集结果,该细胞根据由测试的聚类方法提供的群集标签(附加文件)gydF4y2Ba1gydF4y2Ba:无花果。S5-S8)。我们比较了PBMC数据集聚类结果gydF4y2BaSeurat.gydF4y2Ba,gydF4y2Ba美国广播公司gydF4y2Ba, 和gydF4y2Bascconsensus.gydF4y2Ba结合使用gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba(最常见的是图1中最佳性能的组合。gydF4y2Ba3.gydF4y2Ba)。通过在视觉上进行比较UMAP,我们发现例如Seurat集群3(图。gydF4y2Ba4gydF4y2Bab),对应于两个抗体簇4和7(图5)。gydF4y2Ba4gydF4y2Baa).与无监督结果相比,这种分离可以在有监督的RCA聚类中看到(图。gydF4y2Ba4gydF4y2Bac)并正确地反映在统一的聚类中gydF4y2Bascconsensus.gydF4y2Ba(图。gydF4y2Ba4gydF4y2Bad)。表现的另一插图gydF4y2Bascconsensus.gydF4y2Ba可以在监督簇3,4,9和12中找到(图。gydF4y2Ba4gydF4y2Bac),在很大程度上重叠。在ADT集群空间中,相应的单元只能形成一个簇(图。gydF4y2Ba4gydF4y2Ba一种)。这里gydF4y2Bascconsensus.gydF4y2Ba拾取Seurat提供的群集信息(图。gydF4y2Ba4gydF4y2Bab),更准确地反映了ADT标签(图5)。gydF4y2Ba4gydF4y2Bad)。这些视觉示例表示能力gydF4y2Bascconsensus.gydF4y2Ba充分合并监督和无监督的聚类结果,导致更合适的聚类。可以在附加文件中为其他数据集(CBMC,PBMC DROP-SEQ,MALT和PBMC-VDJ)找到类似的示例gydF4y2Ba1gydF4y2Ba:无花果。S5-S8。gydF4y2Ba

除了NMI,我们还评估了表现gydF4y2Bascconsensus.gydF4y2Ba在另一种互补的时尚。我们在使用余弦相似性和Pearson相关性的基因表达空间内的簇内相似性方面量化了簇的质量。使用引导(“使用引导”部分的群集质量评估),我们发现了gydF4y2Bascconsensus.gydF4y2Ba始终如一地改善聚类结果gydF4y2Ba美国广播公司gydF4y2Ba和gydF4y2BaSeurat.gydF4y2Ba(附加文件gydF4y2Ba1gydF4y2Ba:图S3和附加文件gydF4y2Ba1gydF4y2Ba:图S4)使用NMI支持基准测试。虽然这种比较的优点是它是通过抗体和聚类方法引入的偏差特定特征空间的偏见,但可以争辩说,使用所有基因作为比较的基础是不理想的。但是,与自动启动配对,它是最公平,最无偏见的比较之一。以前通过[gydF4y2Ba22gydF4y2Ba]使用批量RNA-SEQ数据进行比较CD4 + T细胞的表达谱。类似于NMI比较,所得到的簇的数量也与使用余弦相似性和Pearson相关性的性能估计相关。gydF4y2Ba

合并两个以上的集群方法没有好处gydF4y2Ba

使用gydF4y2Ba斯gydF4y2Ba,gydF4y2Ba单gydF4y2Ba,gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba,我们展示了Scconsensus的能力顺序合并了最多3个聚类结果。但是,我们观察到,当组合2种聚类方法时,倾向于发生最佳聚类性能,并且进一步合并聚类方法导致子最优聚类结果(附加文件gydF4y2Ba1gydF4y2Ba:图S11)。gydF4y2Ba

scConsensus准确地复制facs分类的PBMC细胞类型标签gydF4y2Ba

使用[gydF4y2Ba11gydF4y2Ba],我们使用聚集细胞gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba作为这些方法的组合在上面提出的基准测试中表现良好。在注释群集后,我们提供了gydF4y2Bascconsensus.gydF4y2Ba使用两个聚类结果作为输入,并计算使用FACS标签作为地面真理的Cell类型分配的F1分数(“对FACS样本数据”部分的测试准确性)。gydF4y2Ba

图5.gydF4y2Ba
figure5gydF4y2Ba

FACS细胞类型分配的性能评估对PBMC数据进行了分类。gydF4y2Ba一个gydF4y2Ba所有细胞类型的平均f1得分。gydF4y2BabgydF4y2Ba每个细胞类型F1分数。gydF4y2BacgydF4y2Ba- - - - - -gydF4y2BafgydF4y2BaUMAPs锚定在de -基因空间计算facs聚类颜色根据gydF4y2BacgydF4y2Ba流式细胞仪的标签,gydF4y2BadgydF4y2BaSeurat,gydF4y2BaegydF4y2BaRCA和gydF4y2BafgydF4y2Bascconsensus.gydF4y2Ba

数字gydF4y2Ba5gydF4y2Baa显示了使用单元格类型分配的平均f1分数gydF4y2Bascconsensus.gydF4y2Ba,gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba,gydF4y2Bascconsensus.gydF4y2Ba实现最高分。无花果。gydF4y2Ba5gydF4y2BaB描绘了细胞类​​型特定方式的F1分数。数字gydF4y2Ba5gydF4y2Ba显示使用FACS标签的各种聚类结果的可视化,gydF4y2BaSeurat.gydF4y2Ba,gydF4y2Ba美国广播公司gydF4y2Ba和gydF4y2Bascconsensus.gydF4y2Ba。一个惊人的发现是CD4 T辅助细胞不能被gydF4y2Ba美国广播公司gydF4y2Ba也没有通过gydF4y2BaSeurat.gydF4y2Ba,因此也不是gydF4y2Bascconsensus.gydF4y2Ba。无花果。gydF4y2Ba5gydF4y2BaB也说明了gydF4y2Bascconsensus.gydF4y2Ba甚至相比,不妨碍甚至略微进一步改善B细胞,CD14 +单核细胞,CD34 +细胞(祖细胞)和天然杀伤剂(NK)细胞的可靠检测gydF4y2Ba美国广播公司gydF4y2Ba和gydF4y2BaSeurat.gydF4y2Ba。重要的,gydF4y2Bascconsensus.gydF4y2Ba能够隔离未检测到的监管T细胞(T REGS)集群gydF4y2BaSeurat.gydF4y2Ba但是通过了gydF4y2Ba美国广播公司gydF4y2Ba(图。gydF4y2Ba5gydF4y2Bab)。gydF4y2Bascconsensus.gydF4y2Ba方法扩展了该聚类,导致T Regs的f1得分为0.6。然而,使用DE基因的集群细化不仅导致了T Regs和CD4 T记忆细胞的改善结果,而且还导致了性能的轻微下降gydF4y2Bascconsensus.gydF4y2Ba对CD4+、CD8+ T-Naive和CD8+ T-Cytotoxic细胞进行比较。如由FACS标签着色的UMAP表示所示(图。gydF4y2Ba5gydF4y2Bac),这可能是由于所有免疫细胞都是一个大免疫歧管的一部分,而没有明确的细胞型界限,至少在ScrNA-SEQ数据方面。gydF4y2Ba

适用性的另一个例子gydF4y2Bascconsensus.gydF4y2Ba是CD14单核细胞簇左侧的小簇的准确注释(图。gydF4y2Ba5gydF4y2BaC)。使用gydF4y2BaSeurat.gydF4y2Ba,大部分细胞作为干细胞被注释为干细胞,而少数群体被注释为CD14单核细胞(图。gydF4y2Ba5gydF4y2Bad)。gydF4y2Ba美国广播公司gydF4y2Ba仅作为CD14 +单核细胞注释这些细胞(图。gydF4y2Ba5gydF4y2Bae)。但是,根据FACS数据(图。gydF4y2Ba5gydF4y2Bac)这些细胞实际上是CD34 +(祖细胞)细胞,其良好地反映gydF4y2Bascconsensus.gydF4y2Ba(图。gydF4y2Ba5gydF4y2Baf)。gydF4y2Ba

总的来说,这些例子展示了将基于参考的聚类与无监督聚类相结合的强大功能,并展示了gydF4y2Bascconsensus.gydF4y2Ba在SCRNA-SEQ数据中识别和群甚至是密切相关的子类型。gydF4y2Ba

讨论gydF4y2Ba

已经提出了许多不同的方法来解决单细胞聚类问题,在无人监督中[gydF4y2Ba3.gydF4y2Ba]及监督[gydF4y2Ba5gydF4y2Ba] 方法。但是,所有方法都有自己的优点和缺点,并且不一定导致类似的结果,如附加文件中的例子gydF4y2Ba1gydF4y2Ba:图1.在基准测试时gydF4y2Bascconsensus.gydF4y2Ba我们还发现,测试的监督和无监督的方法之间没有一致的排名。在一些数据集上,例如FACS对图1所示的PBMC数据进行了分类。gydF4y2Ba5gydF4y2Ba,无监督gydF4y2BaSeurat.gydF4y2Ba表现优于监督gydF4y2Ba美国广播公司gydF4y2Ba,而后者达到比表现更好gydF4y2BaSeurat.gydF4y2Ba在CITE-SEQ数据集上(图。gydF4y2Ba3.gydF4y2Ba)。事实上,这种观察结果强调,没有理想的聚类方法,因此也是激励共识聚类方法的发展。和gydF4y2Bascconsensus.gydF4y2Ba我们提出了一种计算策略来寻找共识聚类,为单细胞数据集提供最佳可能的细胞类型分离。gydF4y2Ba

scconsensus.gydF4y2Ba与单细胞RNA测序数据的已知直觉构建,即与其他细胞类型相比,均匀细胞类型将具有一致的差异表达标记基因。gydF4y2Bascconsensus.gydF4y2Ba以成对方式计算De Gene呼叫,这与其他不同的集群进行比较。每簇考虑的恒定数量的DE基因,gydF4y2Bascconsensus.gydF4y2Ba对罕见的子类型给予同等的权重,否则在其他聚类方法中可能会被更大的聚类所吸收。我们使用FACS分类的PBMC数据集和包含调节性t细胞的集群缺失来证明这一点gydF4y2BaSeurat.gydF4y2Ba相比gydF4y2Bascconsensus.gydF4y2Ba。gydF4y2Ba

其主要特点是gydF4y2Bascconsensus.gydF4y2Ba工作流程是它的灵活性 - 它可以帮助利用任何两个聚类结果的信息。在这里,我们专注于gydF4y2BaSeurat.gydF4y2Ba和gydF4y2Ba美国广播公司gydF4y2Ba,ScrNA-SEQ数据中的聚类和细胞类型识别的两个互补方法。但是,直觉背后gydF4y2Bascconsensus.gydF4y2Ba可以扩展到任意两种聚类方法。例如,即使使用相同的数据,无监督的基于图的聚类和无监督的层次聚类也会导致非常不同的单元组。在遇到这个问题时,用户通常倾向于选择最符合其领域知识的聚类结果,而完全忽略其他聚类提供的信息。因此,我们建议gydF4y2Bascconsensus.gydF4y2Ba作为集成不同聚类结果的问题的有价值,简单且强大的解决方案,以实现更具信息丰富的聚类。gydF4y2Ba

结论gydF4y2Ba

我们已经表明,通过将无监督和监督聚类的优点组合在一起,gydF4y2Bascconsensus.gydF4y2Ba通过更好的分离和均匀性来检测更多的簇,从而增加了我们对检测不同细胞类型的置信度。作为gydF4y2Bascconsensus.gydF4y2Ba是结合聚类方法的一般策略,显而易见的是gydF4y2Bascconsensus.gydF4y2Ba不仅限于scRNA-seq数据。任何多维单细胞分析,其细胞簇可以通过不同的特征进行分离,都可以利用我们方法的功能。例如,对于单细胞ATAC测序数据,有各种不同的聚类方法,导致不同的聚类结果[gydF4y2Ba23.gydF4y2Ba]。gydF4y2Bascconsensus.gydF4y2Ba可以在框中使用以整合这些聚类结果并提供单一统一的聚类结果。因此,我们相信提出的聚类策略gydF4y2Bascconsensus.gydF4y2Ba对计算生物学家工具箱进行了一个有价值的贡献,用于分析单个小区数据。gydF4y2Ba

可用性和要求gydF4y2Ba

项目名称gydF4y2Bascconsensus.gydF4y2Ba

项目主页欧宝直播官网appgydF4y2Bahttps://github.com/prabhakarlab/gydF4y2Ba

操作系统)gydF4y2BaWindows,Linux,Mac-OSgydF4y2Ba

编程语言gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba(gydF4y2Ba\(\ ge \)gydF4y2Ba3.6)gydF4y2Ba

其他需求gydF4y2Ba\({\ mathbf {r}} \)gydF4y2Ba包裹:gydF4y2Ba蒙链gydF4y2Ba,gydF4y2BacirclizegydF4y2Ba,gydF4y2Ba重塑2.gydF4y2Ba,gydF4y2BaflashClustgydF4y2Ba,gydF4y2Ba校准gydF4y2Ba,gydF4y2BaWGCNAgydF4y2Ba,gydF4y2Baedger.gydF4y2Ba,gydF4y2BacirclizegydF4y2Ba,gydF4y2BaComplexHeatmapgydF4y2Ba,gydF4y2Ba集群gydF4y2Ba,gydF4y2Baaricode.gydF4y2Ba

许可证gydF4y2Ba解释非学术界使用的任何限制:无gydF4y2Ba

可用性数据和材料gydF4y2Ba

本研究期间生成或分析的所有数据都包含在本发表的文章和Zenodo(gydF4y2Bahttps://doi.org/10.5281/zenodo.3637700gydF4y2Ba)。gydF4y2Ba

缩写gydF4y2Ba

德:gydF4y2Ba

表达差异化gydF4y2Ba

度:gydF4y2Ba

差异表达基因gydF4y2Ba

scRNA-seq:gydF4y2Ba

单细胞RNA测序gydF4y2Ba

PBMC:gydF4y2Ba

外周血单个核细胞gydF4y2Ba

NODG:gydF4y2Ba

检测基因数量gydF4y2Ba

PCA:gydF4y2Ba

主要成分分析gydF4y2Ba

个人电脑:gydF4y2Ba

主成分gydF4y2Ba

adt:gydF4y2Ba

抗体衍生的标签gydF4y2Ba

CLR:gydF4y2Ba

集中日志比率gydF4y2Ba

NMI:gydF4y2Ba

规范化的互信息gydF4y2Ba

NK:gydF4y2Ba

自然杀手细胞gydF4y2Ba

T reg:gydF4y2Ba

监管T细胞gydF4y2Ba

参考gydF4y2Ba

  1. 1.gydF4y2Ba

    唐峰等。单细胞mRNA-Seq全转录组分析。Nat方法。2009;6(5):377 - 82。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  2. 2.gydF4y2Ba

    劳森检察官等。单细胞分辨肿瘤异质性和转移。细胞生物学杂志。2018;20(12):1349-60。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  3. 3.gydF4y2Ba

    Kiselev Vy等人。单细胞RNA-SEQ数据无监督聚类的挑战。NAT Rev Genet。2019; 20(5):273-82。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  4. 4.gydF4y2Ba

    李浩等。单细胞转录组的参考成分分析阐明了人类结直肠肿瘤的细胞异质性。49 Nat麝猫。2017;(5):708 - 18。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  5. 5。gydF4y2Ba

    Abdelaal T等人。单细胞RNA测序数据的自动细胞识别方法的比较。基因组Biol。2019; 20(1):194。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  6. 6。gydF4y2Ba

    巴特勒A等人。整合在不同条件,技术和物种的单细胞转录组数据。NAT BIOTECHNOL。2018; 36(5):411-20。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  7. 7。gydF4y2Ba

    狼法,等。SCANPY:大规模单细胞基因表达数据分析。基因组Biol。2018; 19(1):15。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  8. 8。gydF4y2Ba

    林平,等。CIDR:对单细胞RNA-seq数据进行超快速准确的聚类。基因组医学杂志。2017;18(1):59。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  9. 9。gydF4y2Ba

    Ester M, Kriegel H-P, Sander J, Xu X,等。一种基于密度的算法发现大型空间数据库中的簇噪声。见于:Kdd,第96卷。p。226 - 31;1996.gydF4y2Ba

  10. 10.gydF4y2Ba

    kiselev v等人。SC3:单细胞RNA-SEQ数据的共识聚类。NAT方法。2017; 14(5):483-6。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  11. 11.gydF4y2Ba

    郑gx等。单细胞的大规模平行数字转录分析。NAT Communce。2017; 8:14049。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  12. 12.gydF4y2Ba

    LUN AT,MCCARTHY DJ,Marioni JC。用于使用Biocumond的单单元RNA-SEQ数据的低级分析的逐步工作流。F1000Research。2016; 5:2122。gydF4y2Ba

    PubMed.gydF4y2Bapmed中央gydF4y2Ba谷歌学术gydF4y2Ba

  13. 13。gydF4y2Ba

    Aran D,Looney AP,Liu L,Wu E,Fong V,Hsu A,Chak S,Naikawadi Rp,Wolters PJ,Abate Ar等。基于参考的肺单细胞测序分析揭示过渡性翻译巨噬细胞。NAT IMMUNOL。2019; 20(2):163-72。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  14. 14。gydF4y2Ba

    Stoeckius M,Hafemeister C,Stephenson W,Houck-Loomis B,Chattopadhyay PK,Swerdlow H,Satija R,Smibert P.在单细胞中同时表位和转录组测量。NAT方法。2017; 14(9):865。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  15. 15.gydF4y2Ba

    Monaco G, Lee B, Xu W, Mustafah S, Hwang YY, Carre C, Burdin N, Visan L, Ceccarelli M, Poidinger M, et al. .MRNA丰度归一化的RNA-seq信号允许人类免疫细胞类型的绝对反褶积。细胞众议员26 2019;(6):1627 - 40。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  16. 16。gydF4y2Ba

    Wold S,Esbensen K,Geladi P.主成分分析。Chemometrilt Intil实验室系统。1987; 2(1-3):37-52。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  17. 17。gydF4y2Ba

    Ward JH JR.分层分组以优化目标函数。J AM Stat Assoc。1963; 58(301):236-44。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  18. 18。gydF4y2Ba

    成分数据的统计分析。J R Stat Soc Ser B(方法)。1982年,44(2):139 - 60。gydF4y2Ba

    谷歌学术gydF4y2Ba

  19. 19。gydF4y2Ba

    Schütze H, Manning CD, Raghavan P. Introduction to Information Retrieval, vol. 39。剑桥:剑桥大学出版社;2008.gydF4y2Ba

    谷歌学术gydF4y2Ba

  20. 20。gydF4y2Ba

    Pesquita C等。生物医学本体中的语义相似性。公共科学图书馆。2009;5(7):1000443。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  21. 21.gydF4y2Ba

    关键词:均匀流形逼近,投影,维数降维。arXiv预印本gydF4y2Baarxiv:1802.03426gydF4y2Ba(2018)gydF4y2Ba

  22. 22.gydF4y2Ba

    Durek P,Nordstrom K,等人。人CD4 + T细胞的表观元分析支持线性分化模型,并突出显示内存开发的分子调节因子。免疫。2016; 45:1148-61。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  23. 23.gydF4y2Ba

    陈某,等。单细胞ATAC-SEQ数据分析计算方法的评估。基因组Biol。2019; 20(1):241。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

下载参考gydF4y2Ba

致谢gydF4y2Ba

作者感谢Prabhakar实验室的所有成员,用于对稿件的反馈。本出版物是人类细胞阿特拉斯的一部分 -gydF4y2Bawww.humancellatlas.org/publicationsgydF4y2Ba。gydF4y2Ba

资金gydF4y2Ba

BR和FS的工资已由新加坡科学技术研究机构(A*STAR)拨款# CDAP201703-172-76-00056支付。BR和JT的工资也得到了A*STAR新加坡拨款# IAF-PP-H17/01/a0/007的支持。计算资源和NAR的工资由A*STAR Singapore的Grant# IAF-PP-H18/01/a0/020资助。资助机构没有影响研究的设计,没有影响数据的收集、分析和解释,也没有影响手稿的写作。gydF4y2Ba

作者信息gydF4y2Ba

隶属关系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

BR, WS, JP, MAH和FS参与了开发,测试和基准gydF4y2Bascconsensus.gydF4y2Ba。NAR和JT开发了免疫参考面板。BR和FS写了稿件。BR,FS和SP编辑并审查了稿件。所有作者都读过并批准了稿件。gydF4y2Ba

通讯作者gydF4y2Ba

对应于gydF4y2BaShyam Prabhakar.gydF4y2Ba。gydF4y2Ba

伦理宣言gydF4y2Ba

伦理批准并同意参与gydF4y2Ba

不适用。gydF4y2Ba

同意出版物gydF4y2Ba

不适用。gydF4y2Ba

相互竞争的利益gydF4y2Ba

提交人声明他们没有竞争利益。gydF4y2Ba

额外的信息gydF4y2Ba

出版商的注意事项gydF4y2Ba

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。gydF4y2Ba

补充信息gydF4y2Ba

附加文件1。gydF4y2Ba

补充图表。gydF4y2Ba

权利和权限gydF4y2Ba

开放获取gydF4y2Ba本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba。“创作共用公共领域”豁免书(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文中提供的数据,除非另有用入数据的信用额度。gydF4y2Ba

重印和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过Crossmark验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

Ranjan,B.,Schmidt,F.,Sun,W。gydF4y2Ba等等。gydF4y2BaScconsensus:在单细胞RNA测序数据中组合用于细胞型鉴定的监督和无监督聚类。gydF4y2Ba欧宝娱乐合法吗22日,gydF4y2Ba186(2021)。https://doi.org/10.1186/s12859-021-04028-4gydF4y2Ba

下载引用gydF4y2Ba

关键词gydF4y2Ba

  • Scrna-SEQ.gydF4y2Ba
  • 聚类gydF4y2Ba
  • 细胞类型注释gydF4y2Ba
  • 共识方法gydF4y2Ba