跳到主要内容gydF4y2Ba

基于单细胞RNA-seq数据预测细胞丰度的新方法gydF4y2Ba

摘要gydF4y2Ba

背景gydF4y2Ba

了解细胞类型的组成及其在完整组织中的比例是很重要的,因为某些细胞类型的变化是人类疾病的根本原因。虽然单细胞测序可以获得细胞类型和比例的组成,但目前单细胞测序费用昂贵,不能应用于涉及大量受试者的临床研究。因此,应用bulk RNA- seq数据集和单细胞RNA数据集解旋并获得组织中的细胞类型组成是有用的。gydF4y2Ba

结果gydF4y2Ba

通过分析现有的细胞群预测方法,我们发现大多数现有方法需要细胞类型特异性基因表达分布作为签名矩阵的输入。但是,在实际应用中,并不总是可以找到可用的签名矩阵。为了解决这个问题,我们提出了一种名为DCAP的新方法,以预测细胞丰富。DCAP是一种基于非负最小二乘法的解构方法。DCAP考虑由批量RNA-SEQ的测量噪声和单小区RNA-SEQ数据的计算误差导致的重量,在非负数最小二乘的计算过程中,并且基于最小二乘执行加权迭代计算。通过对散装组织基因表达基质和单细胞基因表达矩阵加权,DCAP最小化散装RNA-SEQ的测量误差,并且还减少了不同样品中相同类型细胞中表达基因数量的差异的误差。评估测试表明,DCAP比现有方法在细胞类型丰富预测中更好地执行。gydF4y2Ba

结论gydF4y2Ba

DCAP使用加权非负数最小二乘来解决组织中的细胞型丰度的解卷积问题。DCAP具有更好的预测结果,并且不需要准备提前给出细胞类型特异性基因表达分布的签名矩阵。通过使用DCAP,我们可以更好地研究患病组织中细胞比例的变化,并提供有关疾病的后续治疗的更多信息。gydF4y2Ba

背景gydF4y2Ba

生物组织通常是复杂的,由许多形态相似的细胞和细胞间物质组成。例如,血液中含有各种类型的细胞,如粒细胞、红细胞、巨核细胞和单核细胞[gydF4y2Ba1gydF4y2Ba].了解细胞类型的组成及其在完整组织中的比例是很重要的,因为组织中某些细胞类型的变化可能是人类疾病的潜在原因[gydF4y2Ba2gydF4y2Ba].如果我们可以描述不同疾病或不同学科细胞类型组成的差异,我们就可以更好地了解疾病的机制,研究细胞靶点,更好地治疗疾病[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba].基于单细胞RNA测序数据,可以估计细胞类型的组成及其在完整组织中的比例。对于某种类型的组织和相应的细胞类型组成的体积RNA-SEQ数据,可以通过解卷积法预测组织的细胞类型的组成。gydF4y2Ba

Bulk RNA-seq是一种广泛应用于细胞测序的方法。它从组织中的所有细胞中提取DNA,然后将其分解成碎片[gydF4y2Ba5gydF4y2Ba].通过批量RNA-SEQ获得的数据表示组织中所有细胞对基因的平均表达。与批量RNA-SEQ相比,单细胞测序使用单细胞分离技术分离单个细胞,并使用优化的下一代DNA测序技术(NGS)来检测单细胞的序列并获得个体细胞的基因表达谱[gydF4y2Ba6gydF4y2Ba].单细胞测序技术可以获得细胞在特定微环境下的差异,便于研究其功能差异。它有助于我们研究不同类型的细胞,这对发育生物学的研究有很大的帮助。虽然单细胞测序可以获得细胞类型的组成和丰度,但应用于涉及众多课题的临床研究成本较高。因此,迫切需要开发一种方法,根据从scRNA-seq数据中获得的已知细胞类型特异性基因表达谱,推断组织中每种细胞类型的比例。gydF4y2Ba

根据解构方法的实现,现有方法可以大致分为两类:基于非负值最小二乘的方法和支持向量回归(SVR)的方法。gydF4y2Ba

最小二乘法是一种数学优化方法。它通过最小化误差平方和找到数据的最佳函数匹配。最小二乘法可以得到未知数据,使得到的数据与实际数据误差平方和最小[gydF4y2Ba7gydF4y2Ba].基于非负最小二乘的反褶积方法有DeconRNASeq、MuSiC等。DeconRNASeq [gydF4y2Ba8gydF4y2Ba]是一个基于mRNA-seq数据的异构组织反褶积的R包。采用全局优化的非负分解算法,通过二次规划估计下一代测序数据中不同细胞类型的混合比例。DeconRNASeq的输入是一个细胞型特异性基因表达矩阵和一个混合基因表达矩阵,输出是一个细胞比例矩阵。音乐(gydF4y2Ba9gydF4y2Ba是一个R包,利用单细胞RNA测序数据中的细胞类型特异性基因表达,从复杂组织的bulk RNA-seq数据来描述细胞类型组成。采用加权非负最小二乘(W-NNLS)实现反褶积。MuSiC的输入是由bulk RNA-seq获得的单细胞RNA-seq数据集和组织基因表达矩阵,输出是细胞占用矩阵。MuSiC根据同一类型细胞在不同样本中表达的方差对非负最小二乘输入矩阵进行加权。gydF4y2Ba

支持向量机(Support vector machine, SVM)是一种用于分类和回归的监督学习方法[gydF4y2Ba10gydF4y2Ba].基于SVR的诸如CIBERSORT,BSEQ-SC和CPM等几种碎屑方法。ciberdort [gydF4y2Ba11gydF4y2Ba是一个基于网络的工具,它使用基因表达数据来估计混合细胞群中的细胞类型丰度。CIBERDORT提供了一个名为LM22的标志性基因文件,其中包含22种不同类型的免疫细胞。如果批量数据中只包含这些cell类型,用户可以直接使用LM22得到反褶积结果。如果输入的是其他类型的细胞,用户需要上传签名基因文件。Bseq-SC [gydF4y2Ba12gydF4y2Ba]是一个R包,它基于CIBERDORT反褶积步骤获得细胞类型比,并将得到的比率集成到细胞类型特异性的差分分析中。CPM (gydF4y2Ba13gydF4y2Ba]是一个R包,利用基于细胞群体作图的反褶积方法,从大量异质性样本的基因表达数据中识别细胞丰度。为了在存在大量参考概要文件的情况下提高性能,CPM使用了一种一致的方法。在参考剖面的N个不同子集中重复N次反褶积方法。最终的预测丰度结果是N计算结果的平均值。gydF4y2Ba

还有一些细胞丰富预测方法,不使用Deconvolution进行预测,例如撤消和计时器。撤消[gydF4y2Ba14gydF4y2Ba是一种用于肿瘤基质细胞混合表达矩阵的无监督反卷积的r包。它自动检测位于混合基因表达散点半径上的细胞特异性标记基因,估计每个样本中细胞的比例,并将混合表达解卷积为细胞特异性表达谱。它不需要提供细胞类型特异性基因表达谱的特征矩阵。计时器(gydF4y2Ba15gydF4y2Ba是一个基于网络的工具,用于系统地评估不同免疫细胞对特定癌症的临床影响。它可以通过一种新的统计方法来估计六种免疫细胞在肿瘤微环境中的丰度。gydF4y2Ba

现有方法的主要局限性是用户需要提供细胞类型特异性基因表达谱的签名矩阵。然而,签名矩阵并不总是可用的。在上述方法中,MuSiC只需要单细胞数据就可以生成签名矩阵。因此,我们改进了特征矩阵的计算过程,提出了一种更好的方法DCap (Deconvolution Cell abundance prediction)。gydF4y2Ba

结果gydF4y2Ba

实验数据集gydF4y2Ba

我们使用三个数据集作为实验数据集,包括两个单细胞RNA测序数据集和一个bulk RNA-seq数据集。详情见表gydF4y2Ba1gydF4y2Ba.gydF4y2Ba

表1实验数据集gydF4y2Ba

评价指标gydF4y2Ba

采用三个指标进行评价:均方根偏差(RMSD)、平均绝对差(mAD)和皮尔逊积矩相关系数(R)。gydF4y2Ba

均方根偏差gydF4y2Ba

均方根是一种测量方法,用来估计值之间的差异。gydF4y2Ba表示时gydF4y2Ba用于评估预测中的误差。较小的gydF4y2Ba表示时gydF4y2Ba表明预测值与地面真实值更接近。gydF4y2Ba

的计算公式gydF4y2Ba表示时gydF4y2Ba是:gydF4y2Ba

$ ${对齐}RMSD \ \开始离开({\帽子{\α}}\右)= \√6 {E \离开({{{\离开({{α\}\帽子-α\}\右)}^ 2}}\右)}\{对齐}$ $gydF4y2Ba
(1)gydF4y2Ba

在哪里gydF4y2Ba\α(\ \)gydF4y2Ba表示真值和gydF4y2Ba\(\帽子{α\}\)gydF4y2Ba表示预测值。gydF4y2Ba

平均绝对差gydF4y2Ba

平均绝对差表示预测值与地面真实值的平均差。它也被用来表示预测结果的质量。较小的gydF4y2Ba疯了gydF4y2Ba表示预测值较近的原始实际。gydF4y2Ba

疯了gydF4y2Ba计算为:gydF4y2Ba

$$ \ begin {seconald} mad \ left({\ hat {\ alpha}} \ revally)= e \ left({\ left | {\ hat {\ alpha} - \ alpha} \ reval |} \右)\结束{对齐} $$gydF4y2Ba
(2)gydF4y2Ba

在哪里gydF4y2Ba\α(\ \)gydF4y2Ba表示真值和gydF4y2Ba\(\帽子{α\}\)gydF4y2Ba表示预测值。gydF4y2Ba

皮尔森相关系数gydF4y2Ba

皮尔逊积差相关系数用来衡量两个变量之间的线性相关程度,其值为gydF4y2Ba\( - 1 \)gydF4y2Ba和1。预测值与地面真实值的相关性越高,预测结果越好。皮尔逊积矩相关系数越高,预测结果越好。gydF4y2Ba

两个变量之间的Pearson相关系数是两个变量之间的方差和标准差的商。的计算公式gydF4y2BaRgydF4y2Ba是:gydF4y2Ba

$$ r \ left({\ hat {\ alpha},\ alpha} \ rice)= \ frac {{cov \ left({\ hat {\ alpha},\ alpha} \ revent)}} {{\ sqrt {var \ left [{\ hat {\ alpha}} \ revally] var \ left [\ alpha \ rector]}}} $$gydF4y2Ba
(3)gydF4y2Ba

在哪里gydF4y2Ba\α(\ \)gydF4y2Ba表示真值和gydF4y2Ba\(\帽子{α\}\)gydF4y2Ba表示预测值。gydF4y2Ba

模拟数据集性能评估gydF4y2Ba

为了演示和评估DCap,我们首先进行了仿真实验。两个单细胞数据集E-MTAB-5061 [gydF4y2Ba16gydF4y2Ba]及GSE81608 [gydF4y2Ba17gydF4y2Ba在模拟实验中使用了。gydF4y2Ba

模拟数据集生成gydF4y2Ba

该方法有两个输入:一个散装RNA-Seq数据集和一个单细胞RNA-Seq数据集。单细胞RNA-seq数据集为E-MTAB-5061。我们使用另一个单细胞RNA-seq数据集,GSE81608数据集,来生成批量RNA-seq数据集。gydF4y2Ba

GSE81608数据集包含18个样本(12个正常样本和6个T2D疾病样本)。如果每个样本都是一个bulk RNA-Seq数据,我们可以获得一个包含18个bulk RNA-Seq数据的数据集。将来自同一样本的所有细胞的基因表达矩阵进行合并,得到bulk RNA-Seq数据的基因表达矩阵。然后,我们在每个bulk RNA-Seq数据中记录每种类型的细胞数量,为后续的评估方法提供ground truth。gydF4y2Ba

实验结果gydF4y2Ba

为了系统地执行基准测试,我们首先将DCap和其他四种方法(非负最小二乘(NNLS)、MuSiC、CIBERSORT和BSEQ-sc)应用于模拟数据集,以获得预测的细胞丰度。我们使用三个指标(RMSD, mAD, R)来评估不同方法的结果。表格gydF4y2Ba2gydF4y2Ba显示DCap在这五种方法中在所有三个评估指标上表现最好。5种方法中,DCap的RMSD和mAD值最小,r值最高。gydF4y2Ba

表2预测结果的误差分析gydF4y2Ba

为了与地面真值数据进行对比,我们将地面真值数据和三种算法(DCap、MuSiC和NNLS)的预测结果可视化于图中。gydF4y2Ba1gydF4y2Ba.结果表明,DCAP方法在三种方法中表现最好。我们在图中绘制了预测值与地面真实值绝对差的热图。gydF4y2Ba2gydF4y2Ba.gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

热图的真实值和估计值通过不同的方法得到。通过不同的方法得到的真实值和估计值的热图。横轴表示细胞类型,纵轴表示模拟的大块组织的名称。颜色的深浅表示细胞类型在大组织中的比例。通过热图,我们可以观察到预测结果与实际值对每个大块组织和细胞类型的比较。(一)实际价值。(b) DCap预测结果。(c) MuSiC预报结果(d) NNLS预报结果gydF4y2Ba

数字gydF4y2Ba2gydF4y2Ba结果表明,DCap方法优于其他两种方法。为了更清楚地了解DCap与其他方法的比较,我们制作了各细胞类型预测值与ground truth差值的箱线图,如图所示。gydF4y2Ba3.gydF4y2Ba.预测值与真值的差值越小,结果越好。最后,我们将同一方法的绝对差相加,制成图中各方法绝对差的箱线图。gydF4y2Ba4gydF4y2Ba.数字gydF4y2Ba4gydF4y2Ba表明,DCap的预测值与真值的总绝对差值最小。总的来说,DCap比其他方法性能更好。gydF4y2Ba

图2gydF4y2Ba
figure2gydF4y2Ba

预测值与真实值的绝对差值的热图。预测值和真实值之间的绝对差值的热图。横轴表示细胞类型,纵轴表示模拟的大块组织的名称。颜色的深浅表明了预测值和实际值之间的细胞类型在大块组织中的比例的绝对差值。通过热图,我们可以观察到每种体积组织和细胞类型的预测结果。颜色越浅,就越接近真实值。gydF4y2Ba一个gydF4y2BaDCap,gydF4y2BabgydF4y2Ba音乐,gydF4y2BacgydF4y2BaNNLSgydF4y2Ba

真实数据集上的单元格比例预测gydF4y2Ba

我们将该模型应用于真实的bulk RNA-seq数据集,分析真实组织中各种类型细胞的比例。gydF4y2Ba

图3gydF4y2Ba
图3gydF4y2Ba

预测值与真值之间的绝对差的箱线图。预测值和真实值之间的绝对差的箱线图。横轴表示单元格类型,纵轴表示预测值与真值之间的绝对差值。每种颜色代表一种方法gydF4y2Ba

图4gydF4y2Ba
装具gydF4y2Ba

预测值与真值之间的总绝对差的箱线图。预测值与真值之间的总绝对差的箱线图。横轴表示方法类型,纵轴表示预测值与实际值的绝对差值。每种颜色代表一种方法gydF4y2Ba

我们使用GSE50244 [gydF4y2Ba18gydF4y2Ba],这是散装RNA- seq数据集,E-MTAB-5061,这是单细胞RNA数据集,作为输入。GSE50244数据集包含89个胰岛样本的基因表达数据。gydF4y2Ba

应用DCap等三种方法估算胰岛中6种主要细胞类型的比例:alpha、beta、delta、gamma、腺泡和导管gydF4y2Ba\(90 \)gydF4y2Ba\ \ % \ ()gydF4y2Ba整个胰岛细胞细胞类型的相对丰度如图所示。gydF4y2Ba5gydF4y2Ba.gydF4y2Ba

结果表明,β细胞所占比例最大,这也符合已知的生物医学知识。结果表明,四种方法中γ细胞所占比例最小。gydF4y2Ba

图5gydF4y2Ba
figure5gydF4y2Ba

预测细胞丰度的抖动图。细胞比例的预测抖动图。每个单元格对应一个单元格类型。小图的横轴表示方法类型,纵轴表示单元格比例。每个点代表了胰岛组织中特定类型细胞预测的细胞百分比。每个小图表包含89个点,每个点代表一个胰岛组织。每种颜色代表一种方法。gydF4y2Ba一个gydF4y2Ba细胞预测结果,gydF4y2BabgydF4y2Ba细胞预测结果,gydF4y2BacgydF4y2Ba细胞预测结果,gydF4y2BadgydF4y2Ba细胞预测结果,gydF4y2BaegydF4y2Ba腺泡细胞预测结果,gydF4y2BafgydF4y2Ba导管细胞预测结果gydF4y2Ba

图6gydF4y2Ba
figure6gydF4y2Ba

糖化血红蛋白与细胞的比率。糖化血红蛋白水平与预测细胞的比率。每个小图表对应一个方法。小图的横轴为HbA1c水平,纵轴为各胰岛组织中β细胞的比例。gydF4y2Ba一个gydF4y2BaDCap,gydF4y2BabgydF4y2Ba音乐,gydF4y2BacgydF4y2BaNNLS,gydF4y2BadgydF4y2BaCIBERSORTgydF4y2Ba

讨论gydF4y2Ba

2型糖尿病(T2D)的患病率一般由糖化血红蛋白水平决定。当患者糖化血红蛋白水平大于6.5时gydF4y2Ba\ \ % \ ()gydF4y2Ba,患者被诊断为T2D。随着T2D的进行,β细胞的数量逐渐减少。随着HbA1c水平的升高,β细胞数量逐渐减少。gydF4y2Ba

我们从T2D疾病引起的细胞变化来评估DCap的性能。根据各胰岛组织中β细胞的比例及相应的HbA1c水平,通过线性回归得到回归曲线。线性回归方法可以用gydF4y2Ba\ (r ^ 2 \)gydF4y2Ba和p值。在细节,gydF4y2Ba\ (r ^ 2 \)gydF4y2Ba取值范围为0 ~ 1。越接近gydF4y2Ba\ (r ^ 2 \)gydF4y2Ba当值为1时,表示的性能越好。p值越小,线性回归模型的可靠性越高。因此,我们在图中进行回归建模。gydF4y2Ba6gydF4y2Ba.gydF4y2Ba

数字gydF4y2Ba6gydF4y2Ba说明DCap预测的β细胞比例与HbA1C水平相关。DCap有比较好的gydF4y2Ba\ (r ^ 2 \)gydF4y2Ba且p值较小,说明DCap的预测结果总体上优于其他三种方法。gydF4y2Ba

图7gydF4y2Ba
figure7gydF4y2Ba

DCap工作流。DCap的工作流。停止迭代有两个条件。如果满足其中任何一个条件,迭代将停止。(1)预测的细胞丰度矩阵与之前预测的细胞丰度矩阵的差值小于给定阈值。(2)迭代次数等于给定的阈值gydF4y2Ba

图8gydF4y2Ba
figure8gydF4y2Ba

聚类图。gydF4y2Ba一个gydF4y2Ba\θ(\ \)gydF4y2Ba聚类图的例子。gydF4y2BabgydF4y2BaS聚类示例图gydF4y2Ba

结论gydF4y2Ba

我们提出了一种新的预测细胞丰度的方法Dcap。与大多数其他方法相比,DCap方法不需要预先建立单细胞参考矩阵。它降低了细胞丰度预测的难度。只需要组织基因表达的bulk RNA-seq数据集和相应的单细胞RNA-seq数据集就可以预测细胞丰度。结果表明,DCap方法的性能优于其他方法。我们可以更好地研究病变组织中细胞丰度的变化,为疾病的后续治疗提供更多的信息。受生物医学数据分析中深度学习方法的成功启发[gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21.gydF4y2Ba,gydF4y2Ba22.gydF4y2Ba,我们将在未来应用深度学习方法来预测细胞丰度。gydF4y2Ba

方法gydF4y2Ba

DCap的流程图如图所示。gydF4y2Ba7gydF4y2Ba.gydF4y2Ba

DCap的输入是bulk RNA-seq数据集和单细胞RNA-seq数据集。首先,利用单细胞数据集获取单细胞基因表达矩阵和基因跨细胞方差矩阵进行反褶积;然后,对大组织基因表达矩阵和单细胞基因表达矩阵进行解卷积。加权矩阵由这两个矩阵计算得到。最后,利用加权矩阵进行反卷积,重复上述步骤,直到结果收敛。gydF4y2Ba

单细胞RNA-seq数据集处理gydF4y2Ba

单细胞RNA-seq技术可以在细胞水平上测量基因表达谱。单细胞RNA-seq数据集通常包含来自多个样本(受试者)的多个类型的细胞。例如,Park等人的小鼠肾脏细胞数据[gydF4y2Ba23.gydF4y2Ba]来源于7个健康小鼠肾脏,其中包含16种类型的43,745个细胞。每个细胞含有16273个基因的表达值。因此,需要根据要反卷积的输入数据选择单元格类型。然后基于单细胞RNA-seq数据集生成单细胞基因表达矩阵。生成的基质包括每个基因在不同类型细胞中的表达谱。矩阵中的每一行代表一个基因。矩阵中的每一列表示一个单元格类型。因此,单细胞RNA-seq数据集过程的质量对于预测细胞丰度非常重要。gydF4y2Ba

计算基因的平均丰度矩阵gydF4y2Ba

平均丰度矩阵的每一行代表一个基因。每一列代表一个单元格类型。矩阵中的值表示某一特定类型细胞中某一特定基因的平均丰度。gydF4y2Ba

在组织gydF4y2BajgydF4y2Ba,基因的相对丰度gydF4y2BaggydF4y2Ba在类型的细胞中gydF4y2BakgydF4y2Ba是gydF4y2Ba\ \(θ_{詹}^ K \)gydF4y2Ba.gydF4y2Ba\ (Y_ {jgc} \)gydF4y2Ba是基因mRNA分子的数量gydF4y2BaggydF4y2Ba在细胞gydF4y2BacgydF4y2Ba.gydF4y2Ba\ \ (C_j ^ k)gydF4y2Ba单元格索引集是否代表单元格类型gydF4y2BakgydF4y2Ba.gydF4y2Ba\ \(θ_{詹}^ k \)gydF4y2Ba计算为:gydF4y2Ba

$ ${对齐}\ \开始θ_{詹}^ k = \压裂{{\ mathop \ \长成具和_ {c \ C_j ^ k} {Y_ {jgc}}}} {{\ mathop \ \长成具和_ {c \ C_j ^ k} \ mathop \ \长成具和_ {g = 1} ^ g {Y_{詹'c}}}} \{对齐}$ $gydF4y2Ba
(4)gydF4y2Ba

单细胞RNA-seq数据集包含来自不同对象的多个组织,并且gydF4y2Ba\ \(θ_{詹}^ k \)gydF4y2Ba对于不同的科目是不同的。因此,我们首先计算gydF4y2Ba\ \(θ_{詹}^ k \)gydF4y2Ba每个受试者的组织细胞。最后的基因相对丰度gydF4y2Ba\(\ theta _ {g} ^ {k'} \)gydF4y2Ba的平均值gydF4y2Ba\ \(θ_{詹}^ k \)gydF4y2Ba在不同的学科。考虑到异常值的存在,我们首先确定异常值,然后计算最终的基因相对丰度。gydF4y2Ba

如图所示。gydF4y2Ba8gydF4y2BaA,所有值gydF4y2Ba\θ(\ \)gydF4y2Ba放在一个数字轴上。采用K-means聚类方法将所有的值分组到不同的聚类中,找到中心点gydF4y2Ba\(θ_c \ \)gydF4y2Ba.然后,根据离中心点的距离去除离群值。设设置的距离阈值为gydF4y2Ba\(ρ_{\θ}\ \)gydF4y2Ba,然后gydF4y2Ba

$ ${对齐}\ \开始θ_{詹}^ {k '} = \压裂{{\ mathop \ \长成具和_ {j = 1} ^ j \θ_{詹}^ k}}{θJ_ \} \{对齐}$ $gydF4y2Ba
(5)gydF4y2Ba

在那里,gydF4y2Ba\(左\ |{\θ_{詹}^ k -θ_c} \ \对| <ρ_{\θ}\ \)gydF4y2Ba,gydF4y2Baθ\ (J_ \ \)gydF4y2Ba是gydF4y2Ba\θ(\ \)gydF4y2Ba排除离群值。一般来说,gydF4y2Ba\(ρ_{\θ}\ \)gydF4y2Ba采用网格搜索技术选取最合适的值。gydF4y2Ba

计算不同细胞类型基因的跨样本方差矩阵gydF4y2Ba

基因的交叉样本方差矩阵的行代表基因。列表示不同的单元格类型。矩阵中的值表示某种细胞类型中不同样品中基因表达的方差。gydF4y2Ba

在组织gydF4y2BajgydF4y2Ba,基因的变异gydF4y2BaggydF4y2Ba不同类型细胞中不同样本的表达gydF4y2BakgydF4y2Ba是gydF4y2Ba\ \ (V_{詹}^ K)gydF4y2Ba.gydF4y2Ba\ \ (V_{詹}^ k)gydF4y2Ba计算为:gydF4y2Ba

$ $ \{对齐}开始V_{詹}^ k = Var \离开[θ_{詹}^ k}{\ \对]\{对齐}$ $gydF4y2Ba
(6)gydF4y2Ba

计算每个单元格类型的单元格大小gydF4y2Ba

每个组织的细胞大小向量中的值代表了每种细胞类型的RNA分子的平均数量。gydF4y2Ba

为组织gydF4y2BajgydF4y2Ba, 让gydF4y2Ba\ (m_ {j} ^ k = | C_ {j} ^ k | \)gydF4y2Ba为类型细胞的总数gydF4y2BakgydF4y2Ba和gydF4y2Ba\ \ (S_ {j} ^ k)gydF4y2Ba为该类型细胞RNA分子总数的平均值gydF4y2BakgydF4y2Ba.gydF4y2Ba\ \ (S_j ^ k)gydF4y2Ba计算为:gydF4y2Ba

$ $ \{对齐}开始S_j ^ k = \压裂{{\ mathop \ \长成具和_ {c \ C_j ^ k} \ mathop \ \长成具和_ {g = 1} ^ g {Y_{詹'c}}}} {{m_j ^ k}} \{对齐}$ $gydF4y2Ba
(7)gydF4y2Ba

对于不同的主题,gydF4y2Ba\ \ (S_ {j} ^ k)gydF4y2Ba是不同的。因此,我们首先计算gydF4y2Ba\ \ (S_ {j} ^ k)gydF4y2Ba为每个主题。最后的基因相对丰度gydF4y2Ba\ (S_ {j} ^ {K '} \)gydF4y2Ba是平均gydF4y2Ba\ \ (S_ {j} ^ k)gydF4y2Ba在不同的学科。如图所示。gydF4y2Ba8gydF4y2BaB,所有的值gydF4y2Ba年代gydF4y2Ba放在一个数字轴上。采用K-means聚类方法将所有的值分组到不同的聚类中,找到中心点gydF4y2Ba\(s_c \)gydF4y2Ba.通过前一小节引入的方法删除了异常值。gydF4y2Ba

设设置的距离阈值为gydF4y2Ba\(\ rho _ {s} \)gydF4y2Ba,然后gydF4y2Ba

$$\begin{aligned} S _{j}^{k'} = \frac{{\mathop \sum \nolimits _{j = 1}^J S _{jg}^k}}{J_S} \end{aligned}$$
(8)gydF4y2Ba

在那里,gydF4y2Ba\(\ left | {s _ {jg} ^ k - s _c} \ light | <\ rho _ {s} \)gydF4y2Ba,gydF4y2Ba\(J_S \)gydF4y2Ba是gydF4y2Ba年代gydF4y2Ba没有异常值。一般来说,gydF4y2Ba\(\ rho _ {s} \)gydF4y2Ba采用网格搜索技术选取最合适的值。gydF4y2Ba

计算单细胞基因表达矩阵gydF4y2Ba

单细胞基因表达矩阵的行代表不同的基因。列表示不同的单元格类型。矩阵中的值代表了某一类型细胞中基因的表达水平。gydF4y2Ba

让gydF4y2Ba\ (Y_{詹}\)gydF4y2Ba为基因的mRNA分子总数gydF4y2BaggydF4y2Ba在特定组织中gydF4y2BajgydF4y2Ba组成的gydF4y2BaKgydF4y2Ba类型的细胞。gydF4y2Ba\ (Y_{詹}\)gydF4y2Ba计算为:gydF4y2Ba

$ $ \开始{对齐}{Y_{詹}}= \ mathop \ \和限制_ {k = 1} ^ k \ mathop \ \和限制_ {c \ C_j ^ k} {Y_ {jgc}} \{对齐}$ $gydF4y2Ba
(9)gydF4y2Ba

基于方程式。(gydF4y2Ba1gydF4y2Ba) - (gydF4y2Ba6gydF4y2Ba),gydF4y2Ba\ (Y_{詹}\)gydF4y2Ba可以表示为:gydF4y2Ba

$ $ \开始{对齐}{Y_{詹}}= \ mathop \ \和限制_ {k = 1} ^ k m_j ^ kS_j ^ {k”}\θ_{詹}^ {k '} \{对齐}$ $gydF4y2Ba
(10)gydF4y2Ba

让gydF4y2Ba\({m_j} = \mathop \sum \limits _{k = 1}^ k m_j^k\)gydF4y2Ba为组织中细胞的总数gydF4y2BajgydF4y2Ba.让gydF4y2Ba\ (p_j ^ k = \压裂{{m_j ^ k}} {{{m_j}}} \)gydF4y2Ba为类型细胞的比例gydF4y2BakgydF4y2Ba在组织gydF4y2BajgydF4y2Ba.gydF4y2Ba\ \(压裂{{{Y_{詹}}}}{{{m_j}}} \)gydF4y2Ba计算为:gydF4y2Ba

$ ${对齐}\ \开始压裂{{{Y_{詹}}}}{{{m_j}}} = \ mathop \ \和限制_ {k = 1} ^ k p_j ^ kS_j ^ {k”}\θ_{詹}^ {k '} \{对齐}$ $gydF4y2Ba
(11)gydF4y2Ba

基因表达水平gydF4y2BaggydF4y2Ba在类型的单元格中gydF4y2BakgydF4y2Ba是gydF4y2Ba\ \ (X_g ^ k)gydF4y2Ba.gydF4y2Ba\ \ (X_g ^ k)gydF4y2Ba计算为:gydF4y2Ba

$ $ \{对齐}开始间{詹}^ k = S ^ {k”}\θ_{詹}^ {k '} \{对齐}$ $gydF4y2Ba
(12)gydF4y2Ba

加权矩阵方程衍生gydF4y2Ba

考虑到情商。gydF4y2Ba6gydF4y2Ba),在没有错误的情况下,我们可以直接使用gydF4y2Ba\ \ (Y_g ^ k)gydF4y2Ba和gydF4y2Ba\ \ (X_g ^ k)gydF4y2Ba找到gydF4y2Ba\ \ (p_j ^ k)gydF4y2Ba.但是,在实际情况下,当我们使用批量RNA-SEQ获得时gydF4y2Ba\ \ (Y_g ^ k)gydF4y2Ba,有测量噪声。因此,我们需要修改Eq. (gydF4y2Ba6gydF4y2Ba).为了保证条件gydF4y2Ba_{k =1}^ k p_j^k=1\)gydF4y2Ba,调整参数gydF4y2BaCgydF4y2Ba加到方程中。gydF4y2Ba

$ $ \开始{对齐}{Y_{詹}}= {C_j} (\ mathop \总和\限制_ {k = 1} ^ k p_j ^ kX_{詹}^ k +{\ε_{詹}})\{对齐}$ $gydF4y2Ba
(13)gydF4y2Ba

在那里,gydF4y2Ba\ \(ε_ {j g} \ sim N \离开(0 \三角洲_ {j g} ^ {2} \) \)gydF4y2Ba表示批量RNA-SEQ的测量误差。gydF4y2Ba

后gydF4y2Ba\(间{詹}\)gydF4y2Ba和gydF4y2Ba\ (p_j \)gydF4y2Ba的实际值之间的方差是多少gydF4y2Ba\ (Y_{詹}\)gydF4y2Ba估算值为:gydF4y2Ba

$ ${对齐}Var \ \开始离开[{{Y_{詹}}| {p_j},{间{詹}}}\右]= {C_j} ^ 2δ_{詹}^ 2 \ \{对齐}$ $gydF4y2Ba
(14)gydF4y2Ba

除了在bulk RNA-seq过程中出现的测量误差外,在生成单细胞参考矩阵时也存在误差gydF4y2Ba\ \ (X_g ^ k)gydF4y2Ba.在不同的样本中(如来自不同受试者的统一组织),同一类型的细胞具有不同的基因表达水平。gydF4y2Ba

我们将同一细胞类型中不同样本间表达差异较小的基因定义为信息基因。信息基因在这类细胞中表达稳定。在同一细胞类型中,不同样本间表达差异较大的基因定义为非信息基因。因此,基因的相对丰度gydF4y2BaggydF4y2Ba在类型的细胞中gydF4y2BakgydF4y2Ba在不同样品的单细胞参考矩阵的计算中可能不是唯一的值。gydF4y2Ba

两种类型的错误都很重要。在获取数据的过程中可能发生两种类型的错误。不同类型错误的重要性对于不同的数据集可能不同。在DCAP中,这两种错误的重量被认为是相同的。我们使用这两种错误的总和作为权重信息来提高预测准确性。所以我们可以计算实际值的方差gydF4y2Ba\ (Y_{詹}\)gydF4y2Ba估计的价值gydF4y2Ba\ (p_j \)gydF4y2Ba是:gydF4y2Ba

$ ${对齐}Var \ \开始离开[{{Y_{詹}}| {p_j}} \右]& {}= {C_j} ^ 2δ_{詹}^ 2 + Var \ \离开[{{C_j} \ cdot \ mathop \ \和限制_ {k = 1} ^ k p_j ^ kX_{詹}^ k} \右]\ nonumber \\& {}= { C_j} ^ 2 \三角洲_{詹}^ 2 + {C_j} ^ 2 \ cdot \ mathop \ \和限制_ {k = 1} ^ k p_ {jk} ^ 2 s_j ^ {k ' 2} Var \离开[θ_{詹}^ k}{\ \对]\ nonumber \\& {}= { C_j} ^ 2 \三角洲_{詹}^ 2 + {C_j} ^ 2\cdot \mathop \sum \limits _{k = 1}^K p_{jk}^2S_j^{k'2}v_{gk}^2 \end{aligned}$$
(15)gydF4y2Ba

在哪里gydF4y2Ba\ (V_{门将}\)gydF4y2Ba是基因表达的变异吗gydF4y2BaggydF4y2Ba在不同的样品类型gydF4y2BakgydF4y2Ba细胞。gydF4y2Ba

因此,对于组织来说gydF4y2BajgydF4y2Ba,gydF4y2Ba\(w_ {jg} \)gydF4y2Ba计算为:gydF4y2Ba

$ ${对齐}\ \开始压裂{1}{{{w_{詹}}}}= Var \离开[{{Y_{詹}}| {p_j}} \右]= {C_j} ^ 2 \三角洲_{詹}^ 2 + {C_j} ^ 2 \ cdot \ mathop \ \和限制_ {k = 1} ^ k p_ {jk} ^ 2 s_k ^ {2} v_ {gk ?}{对齐}$ $ ^ 2 \结束gydF4y2Ba
(16)gydF4y2Ba

考虑到的情况gydF4y2Ba\(Var\left[{{Y_{jg}}|{p_j}}} =0\)gydF4y2Ba,调整参数gydF4y2BangydF4y2Ba加入到等式中gydF4y2Ba11gydF4y2Ba计算最终重量:gydF4y2Ba

$$ \ begined {对齐} \ frac {1} {{{w_ {jg}}}} = n + {c_j} ^ 2 \ delta _ {jg} ^ 2 + {c_j} ^ 2 \ cdot \ mathop \ sum \限制_ {k = 1} ^ k p_ {jk} ^ 2s_k ^ {'2} v_ {gk} ^ 2 \ neg {对齐} $$gydF4y2Ba
(17)gydF4y2Ba

在反褶积过程中对两个矩阵进行加权,可以减少误差,提高估计精度。然而,在实际情况中,gydF4y2Baδ_{詹}\ (\ \)^ 2gydF4y2Ba是未知的。因此,我们从非负最小二乘开始,用迭代法估计权值,直到收敛。gydF4y2Ba

反褶积方程推导gydF4y2Ba

基于方程式。(gydF4y2Ba6gydF4y2Ba)和(gydF4y2Ba7gydF4y2Ba),gydF4y2Ba\ (Y_{詹}\)gydF4y2Ba计算为:gydF4y2Ba

$ $ \开始{对齐}{Y_{詹}}= {m_j} \ mathop \ \和限制_ {k = 1} ^ k p_j ^ kX_g ^ k \{对齐}$ $gydF4y2Ba
(18)gydF4y2Ba

然后我们将等式两边的权重相乘(gydF4y2Ba15gydF4y2Ba):gydF4y2Ba

$ ${对齐}\ \开始√6 {{w_{詹}}}{Y_{詹}}= \√6 {{w_{詹}}}{m_j} \ mathop \ \和限制_ {k = 1} ^ k p_j ^ kX_g ^ k \{对齐}$ $gydF4y2Ba
(19)gydF4y2Ba

让gydF4y2Ba一个gydF4y2Ba,gydF4y2BaBgydF4y2Ba,gydF4y2BaCgydF4y2Ba是三个矩阵,其中gydF4y2Ba\(A = frac{{{sqrt{{w_{jg}}} {Y_j}} {{m_j}}}\)gydF4y2Ba,gydF4y2Ba\ (B = p_j \)gydF4y2Ba,gydF4y2Ba\(C = sqrt{{w_{jg}} X\)gydF4y2Ba.这个问题可以定义为计算gydF4y2BaBgydF4y2Ba矩阵时gydF4y2Ba\(mi{n_A}\left({BC - {A^2}} \right)\)gydF4y2Ba,这也是最小二乘解的问题。gydF4y2Ba

输入单个小区数据集后,我们使用EQ。(gydF4y2Ba10gydF4y2Ba)来计算单细胞参考矩阵。gydF4y2Ba

基因表达矩阵gydF4y2BaYgydF4y2Ba通常包含多种组织的基因表达。我们分别预测每个组织并将结果整合到一个基质中。gydF4y2Ba

数据和材料的可用性gydF4y2Ba

本研究分析的数据是对现有数据的重新分析,这些数据在参考部分引用的地点是公开的。E-MTAB-5061数据集已存储在ArrayExpress (EBI)中,链接如下:gydF4y2Bahttps://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-5061/gydF4y2BaGSE50244数据集已储存在NCBI GEO中,链接如下:gydF4y2Bahttps://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE50244gydF4y2BaGSE81608数据集已储存在NCBI GEO中,链接如下:gydF4y2Bahttps://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE81608gydF4y2Ba.gydF4y2Ba

缩写gydF4y2Ba

SVR:gydF4y2Ba

支持向量回归gydF4y2Ba

支持向量机:gydF4y2Ba

支持向量机gydF4y2Ba

NNLS:gydF4y2Ba

非负最小二乘gydF4y2Ba

表示:gydF4y2Ba

根均线方偏差gydF4y2Ba

疯了:gydF4y2Ba

平均绝对差gydF4y2Ba

T2D:gydF4y2Ba

2型糖尿病gydF4y2Ba

参考文献gydF4y2Ba

  1. 1.gydF4y2Ba

    Kaiser CA, Krieger M, Lodish ABH。分子细胞生物学。旧金山:WH Freeman;2007.gydF4y2Ba

    谷歌学者gydF4y2Ba

  2. 2。gydF4y2Ba

    Schelker M, Feau S, Du J, Ranu N, Klipp E, MacBeath G, Schoeberl B, raaue A.利用单细胞RNA-seq数据估计肿瘤组织中的免疫细胞含量。Nat Commun。2017;8:2032。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  3. 3.gydF4y2Ba

    王婷婷,彭强,刘波,刘玉英,王玉英。基于端到端异构图表示学习的药物-靶标相互作用预测框架。短暂的Bioinform。2020;8:418。gydF4y2Ba

    谷歌学者gydF4y2Ba

  4. 4.gydF4y2Ba

    张勇,戴华,云云,刘树华,尚晓霞。基于1位响应数据的元知识字典学习。基于知识的系统。2020;205:106290。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  5. 5。gydF4y2Ba

    欧文斯:基因组学:单身生活。Nat新闻。2012;491:27。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  6. 6。gydF4y2Ba

    Eberwine J,Sul Jy,Bartfai T,Kim J。单细胞测序的承诺。NAT方法。2014; 11(1):25。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  7. 7.gydF4y2Ba

    Björck A.最小二乘方法。见:数值分析手册。1990; 1,页465 - 652。gydF4y2Ba

  8. 8.gydF4y2Ba

    Gong T, Szustakowski JD。Deconrnaseq:基于MRNA-seq数据的异构组织样本反褶积的统计框架。生物信息学。2013;29(8):1083 - 5。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  9. 9.gydF4y2Ba

    王旭,张宁宁,李敏。基于多主体单细胞表达参考的大体积组织细胞型反卷积。Nat Commun。2019;10(1):380。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  10. 10.gydF4y2Ba

    Basak D,Pal S,Patranabis DC。支持向量回归。神经米流程Lett Rev. 2007; 11:203-24。gydF4y2Ba

    谷歌学者gydF4y2Ba

  11. 11.gydF4y2Ba

    Newman AM, Liu CL, Green MR, Gentles AJ, Feng W, Xu Y, Hoang CD, Diehn M, Alizadeh AA。从组织表达谱稳健枚举细胞亚群。Nat方法。2015;12(5):453。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  12. 12.gydF4y2Ba

    Baron M, Veres A, Wolock SL, Faust AL, Gaujoux R, Vetere A, Ryu JH, Wagner BK, Shen-Orr SS, Klein AM。人类和小鼠胰腺的单细胞转录组图揭示了细胞间和细胞内的群体结构。细胞系统。2016;3(4):346 - 3604。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  13. 13。gydF4y2Ba

    Frishberg A, peshesh - yaloz N, Cohn O, Rosentul D, Steuerman Y, Valadarsky L, Yankovitz G, Mandelboim M, Iraqi FA, Amit I.使用单细胞数据的细胞组成分析。Nat方法。2019;16:327-32。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  14. 14。gydF4y2Ba

    Wang N, Gong T, Clarke R, Chen L, Shih IM, Zhang Z, Levine DA, Xuan J, Wang Y. Undo: bioconductor R package for non - supervised deconvolution of mixed gene expression in tumor samples。生物信息学,2015,31(1):137 - 9。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  15. 15.gydF4y2Ba

    李斌,李海涛,姜萍,沈华,Aster JC,罗迪格。肿瘤免疫对肿瘤免疫治疗的影响。基因组医学杂志。2016;1(17):174。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  16. 16。gydF4y2Ba

    Segerstolpe Ã, Palasantza A, Eliasson P, Andersson EM, Andréasson AC, Sun X, Picelli S, Sabirsh A, Clausen M, Bjursell MK.健康和2型糖尿病患者胰岛的单细胞转录组分析。细胞金属底座,2016;24(4):593 - 607。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  17. 17.gydF4y2Ba

    Xin Y, Kim J, Okamoto H, Ni M, Wei Y, Adler C, Murphy AJ, Yancopoulos GD, Lin C, Gromada J. Rna测序显示2型糖尿病基因。细胞金属底座,2016;24(4):608 - 15所示。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  18. 18.gydF4y2Ba

    Fadista J, Vikman P, Laakso EO, Mollet IG, Esguerra JL, Taneera J, Storm P, Osmark P, Ladenvall C, Prasad RB。人类胰岛的全球基因组和转录组分析揭示了影响葡萄糖代谢的新基因。中国生物医学工程学报。2014;111(38):13924-9。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  19. 19.gydF4y2Ba

    彭建军,李强,陈博,蒋强,尚晓伟。基于神经网络的mirna-疾病关联预测框架。生物信息学。2018;21:21。gydF4y2Ba

    谷歌学者gydF4y2Ba

  20. 20.gydF4y2Ba

    关键词:基因本体,深度神经网络,单细胞RNA-seq数据,聚类BMC Bioinform。2019;20:284。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  21. 21.gydF4y2Ba

    彭建军,薛辉,魏震,尚晓霞。基于深度神经网络的多网络拓扑结构基因功能预测。短暂的Bioinform。2020;22(2):2096 - 105。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  22. 22.gydF4y2Ba

    彭建军,王勇,关建军,李军,韩瑞,郝军,魏志,尚晓霞。基于端到端异构图表示学习的药物-靶标相互作用预测框架。短暂的Bioinform。2021。gydF4y2Bahttps://doi.org/10.1093/bib/bbaa430gydF4y2Ba.gydF4y2Ba

  23. 23.gydF4y2Ba

    Park J, Shrestha R, Qiu C, Kondo A, Huang S, Werth M, Li M, Barasch J, Suszták K.单细胞转录组学揭示肾脏疾病的潜在细胞靶标。科学。2018;360(6390):2131。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

下载参考gydF4y2Ba

致谢gydF4y2Ba

不适用。gydF4y2Ba

关于这个补充gydF4y2Ba

本文已作为《BMC Bioinformatics Volume 22 Suppleme欧宝娱乐合法吗nt 9, 2021: the Biological ontology and Knowledge bases workshop 2019: part 2》的一部分发表。该补充的全部内容可在网上找到gydF4y2Ba//www.christinemj.com/articles/supplements/volume22-supplement-9gydF4y2Ba.gydF4y2Ba

资金gydF4y2Ba

国家自然科学基金资助项目(No.61702421, u1811262,61772426),国际博士后资助项目(no.20180029),中国博士后科学基金资助项目(No.2017M610651),中央高校基本科研业务费资助项目(No.3102018zy033),西北工业大学优秀青年学者国际名校访问计划资助机构在研究的设计、收集和分析中没有任何作用。gydF4y2Ba

作者信息gydF4y2Ba

从属关系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

JP和XS设计了算法;LH实现了算法;JP和LH撰写了这份手稿。所有作者阅读并批准了最终的手稿。gydF4y2Ba

相应的作者gydF4y2Ba

对应到gydF4y2Ba陆汉gydF4y2Ba或gydF4y2BaXuequn Shang.gydF4y2Ba.gydF4y2Ba

伦理宣言gydF4y2Ba

伦理批准和同意参与gydF4y2Ba

不适用。gydF4y2Ba

同意发布gydF4y2Ba

不适用。gydF4y2Ba

相互竞争的利益gydF4y2Ba

两位作者宣称他们没有相互竞争的利益。gydF4y2Ba

权利和权限gydF4y2Ba

开放获取gydF4y2Ba本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba.创作共用及公共领域专用豁免书(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文提供的数据,除非在数据的信贷额度中另有说明。gydF4y2Ba

再版和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过CrossMark验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

彭,J.,HAN,L.&Shang,X.一种基于单细胞RNA-SEQ数据预测细胞丰度的新方法。gydF4y2Ba欧宝娱乐合法吗22日,gydF4y2Ba281(2021)。https://doi.org/10.1186/s12859-021-04187-4gydF4y2Ba

下载引用gydF4y2Ba

关键字gydF4y2Ba

  • 去卷积gydF4y2Ba
  • 生物信息学gydF4y2Ba
  • 细胞丰度预测gydF4y2Ba
  • 加权最小二乘gydF4y2Ba