跳转到主要内容

scsensitivegenedefinition:利用Shannon熵检测单细胞RNA测序数据中的敏感基因

摘要

背景

单细胞RNA测序(scRNA-seq)是从复杂组织中获得基因表达谱最广泛使用的技术。细胞亚群和发育状态通常通过不同的基因表达模式来确定。大多数单细胞工具利用高度可变的基因来注释细胞亚群和状态。然而,我们发现了一组对环境刺激具有高变异系数(CV)敏感反应的基因,可能对细胞类型注释产生巨大影响。

结果

在本研究中,我们开发了一种基于CV-rank和Shannon熵的方法来识别这些噪声基因,并将其命名为“敏感基因”。为了验证我们的方法的可靠性,我们将我们的工具应用于来自不同人体组织的11个单细胞数据集。结果表明,大部分敏感基因均富集于细胞应激相关通路。此外,我们注意到去除我们工具检测到的敏感基因后,非监督结果更接近于ground-truth细胞标签。

结论

我们的研究揭示了随机基因表达模式在大多数类型的细胞中普遍存在,比较了细胞标记基因、管家基因(HK基因)和敏感基因之间的差异,证明了不同scRNA-seq数据集中敏感基因功能的相似性。改进了对ground-truth标签的无监督聚类结果。我们希望我们的方法能够为减少scRNA-seq数据分析中的数据噪声提供新的见解,并为今后更好的scRNA-seq无监督聚类算法的开发做出贡献。

同行评审报告

背景

近年来,scRNA-seq技术迅速普及[1在各个领域。与传统的RNA-seq(也称为bulk RNA-seq)相比,scRNA-seq技术需要的样本更少,并允许我们在单细胞水平上获得更细微的生物学差异的转录组[2]。在scRNA-seq数据中,去除技术噪声是一项挑战,这种噪声通常与来自单细胞水平的基础生物学过程的噪声混淆。由测序时间和组织状态等实验因素引起的技术噪声称为批处理效应[3.]。除批处理效应外,单细胞表达变异性的讨论也越来越多[4.]。根据以往的研究,相同类型和状态的细胞在基因表达上仍会表现出细胞与细胞之间的差异性,这被认为是细胞异质性或单细胞表达差异性[5.]。细胞异质性是随机基因表达的外在表现[6.]。基因表达的随机性包括两部分:由转录固有的随机性引起的内在波动和由分子间随机相互作用驱动的细胞间变异和细胞分化引起的噪声。

基因随机表达的探索可以追溯到微阵列分析。2009年,裴浩等[7.]将在不同生物条件下表现出不同表达敏感性的基因定义为敏感基因。Pei研究小组发现,大多数敏感基因与细胞对环境扰动的反应有关,包括免疫反应和细胞-细胞信号转导。然而,在Pei的研究中,敏感基因的概念是广泛的,包含了来自多个来源(生物样本变异、条件变异和技术变异等)的表达波动。对于单细胞分析,我们更感兴趣的是相同细胞类型和状态下的表达波动,我们将敏感基因的概念缩小到可以代表相同细胞类型和状态下的细胞异质性的基因。事实上,研究已经在scrna序列分析中确认了细胞的异质性。例如,Daniel Osorio等人[8.]在3种细胞系中发现了重叠的hvg,这些基因在与对环境刺激反应相关的通路中富集。虽然前人的研究已经证实了敏感基因的一些潜在功能,但尚未建立一个完整的方法来鉴定敏感基因并评估其对细胞类型分组的影响。

细胞类型分组对于scRNA-seq分析至关重要,因为只有正确的细胞分类才能解释真正的生物学差异。基于转录组相似性的无监督聚类已成为scRNA-seq细胞类型分组中最强大的应用之一。特征选择和降维的应用[9.]将降低噪音并加快计算过程。特征选择涉及识别最丰富的基因。一些软件,如seurat [10),扫描(11],sclvm [12]和scVEG [13],根据所有细胞中每个基因的CV-rank检测hvg,进行降维和无监督聚类[14]。然而,大多数聚类方法将数据划分而不考虑其生物学意义,并且经常将随机噪声误认为真实结构[15]。理想情况下,我们希望在scRNA-seq数据分析中对细胞进行注释时,相同细胞类型的细胞是同质的。但是,在大多数情况下,同一类型的细胞具有细胞异质性,这种随机噪声会对无监督聚类的结果产生不利影响。

因此,本文提出了一种识别代表细胞异质性的敏感基因的方法,并探讨了这些基因对细胞类型分组的影响。在该方法中,我们同时使用CV-rank和Shannon指数,只有符合这两个标准的基因才被定义为敏感基因。此外,我们还探讨了覆盖不同人体组织的11个scRNA-seq数据集中敏感基因的功能。

方法

数据收集和质量控制

为了验证我们方法识别敏感基因并探索这些基因的功能的可靠性,我们下载了10个SCRNA-SEQ数据集,由最广泛使用的10×基因组学平台生成[16,在基因表达综合数据库(GEO)中。此外,我们收集了一个注释数据集,由Smart-seq2排序的Zhang T cells数据集[17],以评估我们的方法对跨平台数据集的稳健性。我们总共收集了来自各种人体组织的11个scRNA-seq数据集,包括外周血单个核细胞(PBMC) [1618,肿瘤浸润T细胞[19],肾小管细胞[20.,精原干细胞[21,肺组织[22],脾脏组织[22,食管粘膜[22、肝组织[23和皮质类器官[24]。

在scRNA-seq数据分析中有几个步骤,包括质量控制(QC)、归一化、特征选择、降维和聚类。首先,我们对每个数据集执行QC。一般情况下,筛选的是具有< 500个基因和> 20%线粒体计数的低质量细胞。此外,我们降低了Zheng PBMC68K和Liao Kidney数据集的QC标准,只过滤了低于200个基因的低质量细胞。我们改变了QC策略,因为这两组数据每个细胞的中位数基因都小于1000,并且受当时测序技术的限制。尽管如此,测序质量仍然可以得到保证。所有数据集的信息见表1

表1 QC后本研究中单个小区数据集的基本信息

数据预处理和首次无监督聚类

QC之后,我们使用R(3.6.3)中的Seurat包(3.1.5版)对所有scRNA-seq数据集执行相同的分析管道。默认情况下,我们使用全局缩放归一化方法“LogNormalize”,该方法将每个单元格的特征表达式度量值标准化为总表达式,将其乘以一个比例因子(10,000),然后对结果进行对数转换。其次,为了避免双胞体的干扰,我们使用DoubletFinder对这些双胞体进行了识别和去除[25第三,我们计算了所有细胞中每个基因的CV-rank,并使用CV-rank最高的前2000个基因进行下游分析,包括主成分分析(PCA)和无监督聚类(Louvain算法)[26]。然后,我们执行PCA来识别数据集的真实维数,并为下游分析选择尽可能多的主成分。对于无监督聚类,我们选择0.6作为默认的分辨率参数,并将此聚类结果定义为第一次无监督聚类结果(图1)。1A-C)。

图1
图1

敏感基因鉴定工作流程。一种经过单细胞测序,我们获得了不同细胞类型的表达谱,不同的颜色代表不同的细胞类型。我们使用Seurat计算所有细胞中所有基因的CV-rank,将排名前2000位的基因定义为hvg(红色);B.基于首次无监督聚类结果,我们在每个聚类中检测到高CV-rank基因;CShannon熵是基于这些基因(在超过一半的集群中具有高CV-rank)在每个集群细胞中的平均表达。其中熵值高(大于中值熵)的基因为敏感基因;D.我们从表达矩阵中剔除敏感基因,重新选择前2000个hvg

敏感的基因识别

基于N聚类的第一次无监督聚类结果,我们鉴定了敏感基因。首先,我们计算每个聚类内所有基因的CV,并生成每个聚类的基于CV的排序表。其次,我们在超过一半的聚类(≥N/2)中保留了排名在前2000位的基因(图。1b).第三,我们计算这些基因在每个聚类中的平均表达值,并将这些值(每个基因在N个聚类中有N个表达值)作为Shannon指数计算的输入(图5)。1c).香农指数公式如下:

$$ \ begin {senugented} h \ left(x \ light)&= - \ sum \ limits_ {i = 1} ^ {n} {p \ left({x_ {i}} \ oled){\ text {log}} left({x_ {i} \ \右)} \\ p \ left({x_ {i}}右)&= \ frac {{x_ {i}}} {{\ sum \ nolimits_ {i = 1} ^ {n} {x_ {i}}}} \\ \ end {对齐} $$

\(n \)表示第一次无监督聚类生成的聚类数;\ ({x} _{我}\)一个基因的平均表达是我\ \ ()集群。\ (p \离开({x} _{我}\)\)基因的平均表达是在我\ \ ()这一聚类除以该基因在所有聚类中平均表达量的总和。\ \ (H (x \) \)是评估该基因对聚类差异贡献的Shannon指数。

到目前为止,我们已经对这些基因生成了一个Shannon指数列表,并根据总体的Shannon指数分布指定中值作为敏感基因选择的截断点。最后,我们在半数聚类中指定CV高且熵值高(高于中值熵)的基因为敏感基因。

敏感基因删除

在特征选择过程中,我们从表达矩阵中剔除敏感基因,在所有细胞中重新选择CV-rank最高的2000个hvg,重新进行无监督聚类(图1)。1d)。

聚类结果评估

我们利用了两个评价指标,聚类精度熵(ECA) [27]和簇纯度熵(ECP) [27],比较第一次无监督聚类和去除敏感基因后的聚类结果。

富集分析

我们进行KEGG [282930.]利用ClusterProfiler对每个数据集的敏感基因进行富集分析[31[R的包装(版本3.14.3)。我们收集了统计结果,并探讨了不同数据集中敏感基因分布的相似性。

结果

敏感基因鉴定和验证

为了评估我们鉴定敏感基因的方法的可靠性,我们分析了从10 × Genomics平台下载的2个PBMC数据集,包括来自4个人类PBMC样本的17181个细胞。在下游分析中,我们将PbmcBench PBMC1和PbmcBench PBMC2数据集合并到PbmcBench PBMC数据集中,总共得到4个样本。

通过敏感性基因分析,从4个PBMC样品中分别鉴定出211、274、274和314个敏感基因。这4个样本的敏感基因存在高度重叠,共有96个敏感基因(图1)。2a).对96个基因的功能富集分析表明,敏感基因在细胞应激反应相关通路中明显富集,如凋亡(p.value.adjust = 1.8E−6)、epstein-barr病毒感染(p.value.adjust = 9.32E−5)、抗原加工和呈递(p.value.adjust = 1.2E−3)和流体剪切应力与动脉粥样硬化(p.value.adjust = 5.1E−3)(图5)2B、滤波阈值:p.value.adjust < 0.01)。

图2
figure2

PBMCBench PBMC数据集敏感基因鉴定的可靠性评估。一种PbmcBench PBMC数据集中,每个样本分别有211、274、274和314个敏感基因,共有96个敏感基因;B.这96个常见敏感基因的Kegg富集结果表明,这些敏感基因明显富含与细胞应激反应相关的途径;C在PbmcBench PBMC1的第一个样本中,我们比较了3种基因(细胞标记基因、HK基因和敏感基因)的熵值和总细胞的CV-rank(虚线表示hvg的阈值);D.我们将这三种类型的基因与其熵和高CV级别(Top 2000)进行了比较了这三种基因;E.F我们使用Kruskal-Wallis测试将这三种类型的基因与高CV - 秩的熵和簇数(Top 2000)进行比较

为了更好地理解敏感基因的属性,我们还计算了PBMC1数据集的第一个样本中另外两种类型的基因,HK基因和细胞标记基因的Shannon指数。对于HK基因,我们选择了Eli Eisenberg鉴定的11个高表达HK基因(Eli论文中RPKM > 50) [32];对于细胞标记基因,我们通过Seurat的findallmarker功能进行差异表达基因分析,选取样本中每个聚类中10个差异表达最多的基因(共计91个基因,剔除重复基因后)。我们比较了这三种基因在所有聚类中的熵值和CV-rank。我们发现:细胞标记基因代表真实的生物方差,在少数簇中CV-rank高(前2000位),熵值低;HK基因具有组成性表达,在所有聚类中CV-rank低,熵值高;敏感基因在各种类型的细胞中都有波动的表达,因此在超过一半的集群中具有高的CV-rank和高的熵,如图所示。2c, d.然后,使用Kruskal-Wallis检验来检验它们在高CV-rank聚类数和熵方面的差异的显著性。我们发现,与细胞标记基因(p < 2.22E−16)和HK基因(p = 9.1E−09)相比,敏感基因在更多的集群中具有较高的CV-rank(图。2e).在熵值方面,敏感基因和细胞标记基因之间存在显著差异,其中细胞标记基因的熵值要低得多(p < 9.9E−6)。但敏感基因与HK基因差异无统计学意义(p = 0.11)(图。2f).因此,我们评估了HK基因被误认为敏感基因的可能性。从附加的文件1:图S1,我们可以看到只有辽肾数据集的样本对这两种基因的误识率较高(0.33),这可能是由于该数据集只有3个样本造成的。

预测敏感基因的功能

尽管10 × Genomics平台的单细胞测序是高通量的,但通常每个细胞只能检测到500-2000个高表达基因[33]。一般情况下,来自不同组织的scRNA-seq数据集差异较大,因此很难获得来自不同组织的敏感基因的重叠。此外,由于文库准备的不同,也难以比较不同数据集之间的敏感基因。然而,我们可以很容易地检测到在同一数据集中不同样本中敏感基因的重叠。

如图所示。3.,我们计算重叠的敏感基因的比例(重叠的基因在大于或等于50%,75%和100%的样品在给定的数据集)总数的敏感基因在所有样本(联盟的敏感基因在所有样品在给定的数据集)对这些数据集。从结果来看,我们发现,在大多数数据集中,超过30%的敏感基因(对于这个数据集)出现在至少50%的样本中。因此,基于上述计算,我们声称我们的方法鉴定敏感基因是稳健的。

图3
图3

不同组织中敏感基因的评价和功能注释。一种重叠的敏感基因的比例(重叠在大于或等于50%,75%和100%的样品在给定的数据集)总数的敏感基因在所有样本(联盟的敏感基因在所有样品在给定的数据集)这些数据集;B.敏感基因最富集的KEGG信号通路(在超过一半的数据集中检测到),颜色代表每个数据集中敏感基因富集在这些信号通路中的样本百分比;C我们将这些富集的信号通路分为感染、凋亡、代谢、核糖体、细胞应激反应、免疫反应、炎症、蛋白加工、细胞粘附等几种主要信号通路。大多数敏感基因富集于环境变化胁迫响应相关的信号通路中

我们还通过功能富集分析,探讨了这些数据集的敏感基因的功能。尽管来自不同组织的scRNA-seq数据集差异很大,但从这些数据集鉴定的敏感基因的功能几乎是一致的。如图所示。3.B,大多数敏感基因富集在与细胞应激反应相关的途径中,包括细胞凋亡,流体剪切应力响应,感染和炎症反应。我们进一步将这些富集的信号通路分为几种主要类型,包括感染,细胞凋亡,代谢,核糖体,细胞应激响应,免疫应答,炎症,蛋白质加工,细胞粘附等信号传导途径(图。3.c).如预期的那样,从不同组织中鉴定出的大多数敏感基因都富集在与细胞对环境变化的应激反应相关的信号通路中。

去除敏感基因优化无监督聚类结果

为了测试敏感基因对聚类结果的影响,我们将在PBMCBench的两种10 10×基因组学Scrna-SEQ样本中与地面真理(细胞标签注释)去除敏感基因之间的聚类结果与敏感基因进行比较PBMC1数据集。PBMCBench PBMC1数据集用总SEQ™-B抗体(BIOLEGEND)的面板染色,其可以作为真正的细胞型注释。

如图所示。4.,有地面真相标签(图。4.a),第一次聚类结果(分辨率= 0.6)(图。4.c),降维后剔除敏感基因(分辨率= 0.6)的聚类结果(图。4.分别d)。我们可以看到,去除敏感基因使我们能够清楚地对一些难以区分的细胞类型进行分类,如单核细胞和巨噬细胞(Fig.)。4.由于很难直接观察聚类性能,我们引入了两个评价指标,ECA和ECP指标。ECA测量由无监督聚类分配的每个聚类内的ground-truth标签的多样性,ECP测量从ground-truth标签中获得的每个组内的聚类多样性。我们使用这两种指标来避免欠聚类和过聚类性能,最优聚类结果在ECP和ECA中的值都很低。

图4
装具

评价敏感基因对非监督聚类结果的影响。一种PbmcBench PBMC1数据集中第一个样本的具有单元类型标注的ground-truth标签;B.ECA和ECP值在一系列分辨(0.6,0.9,1,1.2,1.5,1.8,2)包括和去除敏感基因。箭头从保留敏感基因的组指向丢弃敏感基因的组。簇数相同的两组成对点用红色箭头表示,簇数不同的两组成对点用黑色箭头表示;C第一次无监督聚类结果(分辨率= 0.6);D.去除敏感基因的无监督聚类结果(分辨率= 0.6)

由于Seurat不能确定最优的聚类数,我们在0.3的步骤中,在x轴上选择了0.6 - 2.1的一系列分辨率,并在无监督聚类中保持常用的分辨率(0.6,1和2)来控制聚类数。与第一次无监督聚类相比,剔除敏感基因的结果在这些样本中具有相同的聚类数量(分辨率为0.6、0.9和1.8),具有可比性。如图所示。4.b,在PbmcBench PBMC1数据集的第一个样本中,这两个指标均显示分辨率在0.6、0.9、1.5、1.8、2和2.1下有所降低。但是,根据第1和1.2号决议,非洲经委会增加,而ECP减少。我们认为,这可能是由于在这两种决议下生成的集群数量不同所致。根据ECA的定义,集群越多,ECA的价值就越低。保留敏感基因的无监督聚类结果在分辨率1和1.2下多了一个聚类,这种聚类数量的增加可能会超过去除敏感基因对ECA值的影响,因此不适合ECA和ECP措施的比较。有趣的是,保留敏感基因的非监督聚类结果在分辨率1.5、2和2.1下多了一个聚类,这两个指标都下降了,这意味着ECP很难比较,但ECA确实下降了。因此,我们提出,去除敏感基因后,如果聚类结果在相同的分辨率和相同的聚类数量下,无监督聚类的结果更接近于真实的细胞类型标签。在PbmcBench PBMC1数据集的第二个样本中也观察到类似的结果(附加文件1:图S2a-d)和张T细胞数据集(附加文件1:图S2e-h)。

此外,我们用第二种聚类算法Leiden算法验证了我们的工具。在0.1步中,我们在x轴上选择了0.5-2.5的一系列分辨率。在两种聚类算法中,ECP随着分辨率的增加显著增加,但ECP的曲线比较复杂。有趣的是,在分辨率0.8下,剔除敏感基因的聚类结果与第一次无监督聚类结果的总曲线(分辨率0.5-2.5)相比,ECA和ECP较低(图1)。5.a、b)。

图5
figure5

用第二种聚类算法验证敏感基因的影响。一种使用Louvain算法进行无监督聚类,比较PbmcBench PBMC1数据集中第一个样本的一系列分辨率(0.5-2.5,步长为0.1)下的ECA和ECP值;B.使用Leiden算法进行无监督聚类比较一系列分辨率下的ECA和ECP值(0.5-2.5,以0.1为步长)

讨论

总之,我们提供了一种基于第一次聚类结果来识别敏感基因的方法。通过簇和熵计算中的CV-rance,我们将敏感基因鉴定在一半以上的簇中具有高CV和高熵。通过将我们的方法应用于10种不同的单细胞数据集中的各种组织中,我们发现:1。在相同数据集中有大量重叠的敏感基因。2.大多数敏感基因虽然从不同的组织中检测到,但富含与细胞应激反应相关的类似途径。最后,我们的研究通过三种数据集中使用ECA和ECP量化了敏感基因对聚类结果的影响。通常,与第一次聚类相比,除去的敏感基因无监督聚类与敏感基因的结果更接近真正的细胞型标签。

我们的研究仍有一些局限性。首先,尽管我们通过移除敏感基因改进了聚类结果,但我们的结果与ground-truth标签并不完全相同。此外,受10 × Genomics scRNA-seq测序深度的限制,难以在不同组织样本中识别出普遍敏感的基因。未来,我们希望随着单细胞测序技术的发展,能够识别跨组织敏感基因并探索其功能。

结论

无监督的聚类结果的准确性是SCRNA-SEQ研究成功的关键。在本文中,我们提供了一种通过识别和去除敏感基因来改善聚类结果的方法。我们希望我们的方法能够在Scrna-SEQ数据分析中减少数据噪声的新见解,并有助于在未来开发更好的Scrna-SEQ无监督群集算法。

数据和材料的可用性

脚本和代码可以在https://github.com/zechuan-chen/scsensitegenefine.

缩写

Scrna-SEQ:

单细胞RNA测序

HVG:

高度可变的基因

简历:

变异系数

香港基因:

管家基因

地理:

基因表达综合

PBMC:

外周血单核细胞

QC:

质量控制

主成分分析:

主成分分析

ECA:

聚类精度熵

项目:

团簇纯度熵

参考文献

  1. 1.

    唐峰,Barbacioru C, Wang Y,等。单细胞mRNA-Seq全转录组分析。Nat方法。2009;6(5):377。

    中科院文章谷歌学术搜索

  2. 2.

    Macosko EZ, Basu A, Satija R等。使用纳升液滴对单个细胞进行高度平行的全基因组表达谱分析。细胞。2015;161:1202-14。

    中科院文章谷歌学术搜索

  3. 3.

    Tran HTN, Ang KS, Chevrier M等。单细胞RNA测序数据的批效应校正方法的基准。基因组医学杂志。2020;21(1):学会年会。

    文章谷歌学术搜索

  4. 4.

    利用细胞间的变异性——分子生物学的新时代。科学。2012;336(6080):425 - 6。

    中科院文章谷歌学术搜索

  5. 5.

    基于分布生物学的细胞异质性研究。Curr Opin system Biol. 2017; 3:154-60。

    文章谷歌学术搜索

  6. 6.

    Raj A,Van Oudenaarden A.自然,培养或机会:随机基因表达及其后果。细胞。2008; 135(2):216-26。

    中科院文章谷歌学术搜索

  7. 7.

    郝平,郑松,平杰,等。大规模荟萃分析揭示人类基因表达敏感性。BMC Bioinform。2009;10 (S1): S56。

    文章谷歌学术搜索

  8. 8.

    Osorio D,Yu X,Zhong Y等。单细胞表达式可变性意味着细胞功能。细胞。2020; 9(1):14。

    中科院文章谷歌学术搜索

  9. 9.

    Andrews TS, Hemberg M.用scRNASeq鉴定细胞群。Mol Aspects Med. 2018; 59:114-22。

    中科院文章谷歌学术搜索

  10. 10.

    Satija R, Farrell JA, Gennert D等。单细胞基因表达数据的空间重构。生物科技Nat》。2015;33(5):495 - 502。

    中科院文章谷歌学术搜索

  11. 11.

    Lun ATL, McCarthy DJ, Marioni JC。使用生物导体对单细胞RNA-seq数据进行低水平分析的一步一步工作流程。F100Research。2016; 5:2122。

    谷歌学术搜索

  12. 12.

    Buettner F,Natarajan KN,Casale FP等。单细胞RNA测序数据中细胞对细胞异质性的计算分析揭示了细胞的隐藏亚群。NAT BIOTECHNOL。2015; 33(2):155。

    中科院文章谷歌学术搜索

  13. 13.

    陈海海,金勇,黄勇,等。从单细胞rna序列分析中检测基因表达的高变异性。BMC基因组学。2016;17(7):508。

    文章谷歌学术搜索

  14. 14.

    从单细胞RNA-seq数据中发现高度可变基因的工具评价。短暂的Bioinform。2019;20(4):1583 - 9。

    中科院文章谷歌学术搜索

  15. 15.

    关键词:单细胞rna序列数据,无监督聚类,聚类Nat Rev Genet. 2019;20(5): 273-82。

    中科院文章谷歌学术搜索

  16. 16.

    Zheng GXY, Terry JM, Belgrader P,等。单细胞的大规模平行数字转录图谱。Nat Commun。2017;8(1):1 - 12。

    文章谷歌学术搜索

  17. 17.

    Picelli S, Faridani OR, Björklund ÅK,等。使用Smart-seq2从单细胞获得全长rna测序。Nat Protoc。2014;9(1):171 - 81。

    中科院文章谷歌学术搜索

  18. 18.

    丁静,Adiconis X, Simmons SK,等。单细胞rna测序方法的系统比较分析。BioRxiv。2019;632216.

  19. 19.

    [11]郭鑫,张勇,郑玲,等。非小细胞肺癌中T细胞的单细胞测序研究Nat医学。2018;24(7):978 - 85。

    中科院文章谷歌学术搜索

  20. 20.

    Liao J,Yu Z,Chen Y等。人肾的单细胞RNA测序。SCI数据。2020; 7(1):1-9。

    文章谷歌学术搜索

  21. 21.

    郭娇,Grow EJ, Mlcochova H,等。成人睾丸转录细胞图谱。细胞研究》2018;28(12):1141 - 57。

    中科院文章谷歌学术搜索

  22. 22.

    Madissoon E, Wilbrey-Clark A, Miragaia RJ, et al. scRNA-seq评价人肺、脾和食管组织冷保存后的稳定性。基因组医学杂志。2020;21(1):1 - 16。

    中科院文章谷歌学术搜索

  23. 23.

    刘继军,马新忠,等。人类肝脏的单细胞RNA测序显示出不同的肝内巨噬细胞群。Nat Commun。2018;9(1):21。

    中科院文章谷歌学术搜索

  24. 24.

    特鲁希略等。皮层样器官出现的复杂振荡波模拟了早期人类大脑网络的发展。细胞干细胞。2019;25(4):558-69。

    中科院文章谷歌学术搜索

  25. 25.

    McGinnis CS, Murrow LM, Gartner ZJ。DoubletFinder:利用人工最近邻检测单细胞RNA测序数据中的双态。细胞系统。2019;8(4):329 - 37。

    中科院文章谷歌学术搜索

  26. 26.

    等。在大型网络中快速展开社区。统计力学理论实验。2008;2008(10):P10008。

    文章谷歌学术搜索

  27. 27.

    田玲,董晓明,刘永强,等。使用混合控制实验的单细胞rna测序分析管道的基准。Nat方法。2019;16(6):479 - 87。

    中科院文章谷歌学术搜索

  28. 28.

    《京都基因与基因组百科全书》。中国生物医学工程学报2000;28(1):27-30。

    中科院文章谷歌学术搜索

  29. 29.

    研究方向:细胞生物起源与进化。蛋白质科学。2019;28(11):1947 - 51。

    中科院文章谷歌学术搜索

  30. 30.

    金永等。KEGG:整合病毒和细胞生物。核酸研究:2021;49(D1): D545-51。

    中科院文章谷歌学术搜索

  31. 31.

    Yu G, Wang LG, Han Y, et al. clusterProfiler:一个用于比较基因簇间生物主题的R包。组学。2012;16 (5):284 - 7。

    中科院文章谷歌学术搜索

  32. 32.

    Eisenberg E, Levanon EY。人类的管家基因再次被发现。趋势麝猫。2013;29(10):569 - 74。

    中科院文章谷歌学术搜索

  33. 33.

    见P, Lum J, Chen J,等。免疫学家的单细胞测序指南。Immunol前面。2018;9:2425。

    文章谷歌学术搜索

下载参考

确认

我们要感谢曹莹莹博士对这个项目的有益讨论和全面反馈。

资金

本研究由国家自然科学基金(81861138010)和中国科学院战略性先导研究计划(XDB29030302)和前沿科学研究重点项目(QYZDB-SSW-SMC036)资助。关键词:碳纳米管,碳纳米管,碳纳米管,碳纳米管

作者信息

从属关系

贡献

ZC设计了算法并完成了方法评估。ZC收集scRNA-seq数据,与ZY合作撰写论文。XY为本文提供了有价值的建议。PH构思并指导了这项工作。XZ审阅了这篇文章。所有作者阅读并批准最终稿件。

相应的作者

对应到小明张裴郝

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者们宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1

。其他数据集的误识率及工具应用。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。“创作共用公共领域”豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

陈卓,杨卓,袁X。et al。scsensitivegenedefinition:利用Shannon熵检测单细胞RNA测序数据中的敏感基因。欧宝娱乐合法吗22日,211(2021)。https://doi.org/10.1186/s12859-021-04136-1

下载引用

关键字

  • 敏感的基因
  • 单细胞RNA测序
  • 随机的基因表达
  • 无人监督的聚类
\