跳到主要内容GydF4y2Ba

木人:RNA-SEQ转录正常化的稳健和多参考进场GydF4y2Ba

摘要GydF4y2Ba

背景GydF4y2Ba

在通过除去不想要的干扰因素的影响识别样品之间生物表达分化RNA-SEQ数据目标正常化。显式或隐式,标准化的理由需要一套看家基因。然而,看家基因共同为一个非常大的集合的样本,特别是在大范围的条件的存在,是值得怀疑的。GydF4y2Ba

结果GydF4y2Ba

我们建议对来自代表性样本中的多个参考进行成对归一化。然后基于调整参考效果的线性模型集成了成对中间体。通过家务基因的概念和统计对应物的推动,我们采用了成对标准化的鲁棒性最小修整的方块回归。将所提出的方法(MUREN)与某些标准数据集的其他现有工具进行比较。归一化的良好化强调保护可能的不对称分化,其生物学意义通过细胞周期的单个细胞数据举例说明。默登被实施为R包。许可证GPL-3下的代码可在GitHub平台上使用:GydF4y2Bagithub.com/hippo-yf/MURENGydF4y2Ba在公园平台上:GydF4y2Baanaconda.org/hippo-yf/r-muren.GydF4y2Ba.GydF4y2Ba

结论GydF4y2Ba

Muren使用一般原则诱导的两步统计回归进行RNA-SEQ标准化。我们建议使用成对差异的密度来评估归一化的良好。Muren根据生物不对称分化,在保持偏差时调整差异的差异模式。此外,通过强大地整合到多个参考文献的预归一化计数,Muren对各个异常样品进行免疫。GydF4y2Ba

背景GydF4y2Ba

RNA测序(RNA-seq)技术是近十年来研究转录组的主要手段。像微阵列技术一样,它可以分析mRNA和非编码RNA [GydF4y2Ba1GydF4y2Ba有链特异性或无链特异性的转录本[GydF4y2Ba2GydF4y2Ba].该技术的灵活性使其特别有价值的是识别新的替代剪接同种型[GydF4y2Ba3.GydF4y2Ba],装配转录组[GydF4y2Ba4.GydF4y2Ba和转录本融合检测[GydF4y2Ba5.GydF4y2Ba].GydF4y2Ba

准确性是记录量化的关键。尽管RNA-seq避免了微阵列技术中由于染料效应和杂交而产生的偏差[GydF4y2Ba6.GydF4y2Ba那GydF4y2Ba7.GydF4y2Ba[其他系统偏置如测序深度,转录长度,GC-含量,RNA劣化以及RNA分离,纯化,逆转录,cDNA扩增和测序的变化以及序列劣化[GydF4y2Ba8.GydF4y2Ba那GydF4y2Ba9.GydF4y2Ba那GydF4y2Ba10.GydF4y2Ba].因此,有必要在下游定量分析之前对读计数进行归一化。GydF4y2Ba

最广泛使用的归一化方法之一是每百万映射的读取(RPKM)读取每千字节赛(RPKM),[GydF4y2Ba7.GydF4y2Ba]和每千碱基其配对末端片段的对应每百万映射读取(FPKM),[GydF4y2Ba4.GydF4y2Ba].他们假设在不同的样本中RNA核苷酸的总含量保持不变。在RPKM/FPKM中,核苷酸的数量通过调节转录本的长度转化为转录本的数量。在每百万计数(CPM)中跳过了这一步。与RPKM/FPKM类似,每百万转录本(TPM), [GydF4y2Ba11.GydF4y2Ba假设在不同样品中,转录物的总数而不是核苷酸保持不变。GydF4y2Ba

总RNA含量或转录本恒定的假设在某些情况下是不现实的[GydF4y2Ba12.GydF4y2Ba].一些缩放方法反而估计了根据不同标准的缩放因子。package deseq2中使用的相对日志表达式(RLE)[GydF4y2Ba13.GydF4y2Ba],估计的缩放因子作为每个样品至预先计算的中值库的伪样品的中值比率。修剪的手段GydF4y2BamGydF4y2Ba值(TMM), (GydF4y2Ba14.GydF4y2Ba]),用于包编辑的[GydF4y2Ba12.GydF4y2Ba那GydF4y2Ba15.GydF4y2Ba,使用对数表达比率的加权修剪平均值来估计RNA产生的比率。GydF4y2Ba

其他方法有自己的假设。定量方法[GydF4y2Ba16.GydF4y2Ba],广泛用于标准化阵列数据,假设转录本丰度在不同样本中遵循相同的分布。这个想法是在软件包limma [GydF4y2Ba17.GydF4y2Ba].一种更复杂的方法删除了不需要的变化(RUV),[GydF4y2Ba18.GydF4y2Ba])利用对照基因或样品的因子分析来调整的技术效果的公害。GydF4y2Ba

生物学家喜欢家政基因[GydF4y2Ba19.GydF4y2Ba]在正常化表达式配置文件中。然而,家务基因的定义是难题的,特别是对于非模型生物。GydF4y2Ba

不变基因集是与管家基因集在统计学上的对等物[GydF4y2Ba20.GydF4y2Ba].在微阵列设置中,选择不变的探针集,以便两个阵列的子集内秩差很小。当有多个样本时,取不变基因集作为所有样本对的交集。随着样本大小的增加,不变基因集将会减少,并可能接近于null。同样,对于大量样本,特别是在各种条件下,是否存在管家基因也是值得怀疑的。然而,在这种情况下,管理基因或一对样本之间的不变集仍然可以被定义。这是本报告中提出的多参照归一化方法的主要动机。GydF4y2Ba

在微阵列设置中最初提出了通过去除参考效果对成对样本进行归一化的成对样本的思想,然后在微阵列设置中提出[GydF4y2Ba21.GydF4y2Ba].我们发现同样的原理也适用于RNA-seq数据,并在本报告中提出了两个具体的参数模型。如图所示。GydF4y2Ba1GydF4y2Ba,首先对每对目标样本和参考样本进行LTS回归归一化,然后对多个预归一化计数进行中值优化,得到最终归一化计数。这个多参考归一化器是在R. MUREN中实现的,MUREN是迄今为止RNA-seq转录本定量中对多参考进行两两归一化的第一种方法。GydF4y2Ba

图1GydF4y2Ba
图1GydF4y2Ba

MUREN的工作流。GydF4y2Ba一种GydF4y2Ba工作流程将原始计数表作为日志转换后跟输入;GydF4y2BaB.GydF4y2Ba采取一切样本作为目标,并选择样本作为参考的一个子集,查看段落“GydF4y2Ba多个参考样品的选择GydF4y2Ba“为选择;GydF4y2BaCGydF4y2Ba关于每个参考样品归一化每个目标样品;GydF4y2BaD.GydF4y2Ba将多个预定化计数集成到最后一个;GydF4y2BaE.GydF4y2Ba通过检验两两对数比率的密度和归一化前后的偏度来评估优度GydF4y2Ba

至关重要的规范化是其善良的评价。我们声称善良不仅包括偏压和变化的减少,而且还表达分化的偏斜度的保存。根据权利要求是由我们的生物解释和表达偏度,这是通过细胞周期的单个单元的数据例示的统计分析的支持。GydF4y2Ba

方法GydF4y2Ba

我们提出了一个两步标准化程序RNA-seq的数据:成对标准化和整合。引进的参考因素使我们能够进行稳健的正常化相对于多个引用。该方法通过分别在两个步骤中采用至少修整平方(LTS)和至少绝对偏差(LAD)强调鲁棒性。所提出的归一化方法的一般方案示于图。GydF4y2Ba1GydF4y2Ba.我们以统治统计化原则开始。GydF4y2Ba

标准化的一般统计模型GydF4y2Ba

假设我们有两个RNA测序样本:一个参考和一个目标。表示索引的每个转录物的读数GydF4y2Ba\(一世\)GydF4y2Ba从目标和参考样品GydF4y2Ba\(\左(【T} _ {I},{R} _ {I} \右)\)GydF4y2Ba以及相应的成绩单的真正丰富GydF4y2Ba\ \(左({\波浪号{T}} _{},{\波浪号{R}} _{我}\)\)GydF4y2Ba分别。理想情况下,我们期望GydF4y2Ba\ \离开({T} _ {}, {R} _{我}\)\ propto \离开({\波浪号{T}} _{},{\波浪号{R}} _{我}\)\)GydF4y2Ba.然而,比例关系可能在组织分离,PCR扩增和测序的步骤受到干扰。这些不可控因素的影响,混淆与真正的表达水平,我们需要一个标准化的程序来调整所观察到的读取计数。在下文中,我们描述了RNA-seq的数据正常化的一般模型。GydF4y2Ba

考虑一个系统GydF4y2Ba\ \(左({\波浪号{T}} _{},{\波浪号{R}} _{我}\)\)GydF4y2Ba作为输入和GydF4y2Ba\(\左(【T} _ {I},{R} _ {I} \右)\)GydF4y2Ba作为输出。让GydF4y2Ba\ (s) (\ cdot = \离开({年代}_ {1}(\ cdot),{年代}_ {2}(\ cdot) \) \)GydF4y2Ba是由于不受控制的生物和技术因素导致的所有偏差和变化的系统功能;即,GydF4y2Ba

$$ \左\ {\开始{阵列} {C}【T} _ {I} = {S} _ {1} \左({\代字号【T}} _ {I} \右)\\ {R} _ {I} = {S} _ {2} \左({\代字号{R}} _ {I} \右)\ {端阵列}。\右。$$GydF4y2Ba
(1)GydF4y2Ba

我们的目标是重建输入GydF4y2Ba\ \(左({\波浪号{T}} _{},{\波浪号{R}} _{我}\)\)GydF4y2Ba基于产出GydF4y2Ba\(\左(【T} _ {I},{R} _ {I} \右)\)GydF4y2Ba.该模型因此描述的盲反演问题,在系统其中两个GydF4y2Ba\(s(\ cdot)\)GydF4y2Ba和输入GydF4y2Ba\ \(左({\波浪号{T}} _{},{\波浪号{R}} _{我}\)\)GydF4y2Ba是未知的。GydF4y2Ba

盲反演方法[GydF4y2Ba22.GydF4y2Ba使我们思考目标和参照之间的潜在关系。作为一个启发式的开始,让我们假设目标和参考样本在生物学上是无差别的。换句话说,目标和参考之间的差异纯粹是由随机变化造成的。统计上,我们可以假设随机变量GydF4y2Ba\(\左\ {\左({\代字号【T}} _ {I},{\代字号{R}} _ {I} \右)中,i = \ mathrm {1,2},\点,正\对\}\)GydF4y2Ba是从联合分布独立样本GydF4y2Ba\(\ stackrel {\ sim} {\ psi} \)GydF4y2Ba谁的密度以直线为中心GydF4y2Ba\ \(波浪号{T} = {R} \ \波纹线)GydF4y2Ba,即GydF4y2Ba

假设R1GydF4y2Ba

\(e \ left(\ tilde {r} | \ tilde {t} \ revaly)= \ tilde {t}。\)GydF4y2Ba在这种情况下,GydF4y2Ba\ ({} _ {1} (\ cdot) \)GydF4y2Ba和GydF4y2Ba\({s} _ {2}(\ cdot)\)GydF4y2Ba大致等于恒等函数。接下来,我们考虑一般情况。因为只有成分GydF4y2Ba\ ({} _ {1} (\ cdot) \)GydF4y2Ba相对于GydF4y2Ba\({s} _ {2}(\ cdot)\)GydF4y2Ba在成对正常化估。因此,我们首先让GydF4y2Ba\({s} _ {2}(\ cdot)\)GydF4y2Ba该链接的真实和观察到的参考是一个恒等函数,因此GydF4y2Ba\(r = {s} _ {2} \ left(\ tilde {r} \右)= \ tilde {r} \)GydF4y2Ba.在MUREN中,我们估计GydF4y2Ba\ ({} _ {1} (\ cdot) \)GydF4y2Ba在成对归一化中。GydF4y2Ba

为了不失一般性,我们进一步假设。GydF4y2Ba

假设MGydF4y2Ba

\ ({} _ {1} (\ cdot) \)GydF4y2Ba是单调(增加)功能GydF4y2Ba.GydF4y2Ba

然后,假设R1变GydF4y2Ba

假设R2GydF4y2Ba

左(\ \ (E \波浪号{R} | \波浪号{T} \右)= {T} \ \波纹线)GydF4y2Ba,即GydF4y2Ba左(R | g \ \ (E \左(T \) \右)= g左(T \) \ \)GydF4y2Ba, 在哪里GydF4y2Ba\(g(\ cdot)= {s} _ {1} ^ { - 1}(\ cdot)\)GydF4y2Ba.GydF4y2Ba

下一个最小化结果是基于回归的归一化的数学依据。GydF4y2Ba

命题1GydF4y2Ba

假设假设R2对某些功能有效GydF4y2Ba\(g(\ cdot)\)GydF4y2Ba.GydF4y2Ba那么它就是的最小值GydF4y2Ba\ ({\ mathrm{分钟}}_ {l} E{左\ [rl \左右(T \) \]} ^ {2} \)GydF4y2Ba那GydF4y2Ba等于GydF4y2Ba\(e \ left [r | t \右] \)GydF4y2Ba.GydF4y2Ba

这一命题使我们通过最小化方块的总和来估计gGydF4y2Ba

$$ \ sum_ {i = 1} ^ {n} {\ left [{r} _ {i} -g left({t} _ {i} \ revally)\ rectle]} ^ {2}。$$GydF4y2Ba

最后,我们考虑更实际的情况。假设一个部分GydF4y2Ba\(1- \ lambda(<0.5)\)GydF4y2Ba的差异表达(DE)。然后,未分化的转录本可以作为成对归一化的不变基因集,并表示它们的指数GydF4y2Ba\(u \)GydF4y2Ba.假设R2被GydF4y2Ba

假设R3GydF4y2Ba

\(e \ left({r_ {i} {|} g \ left({t_ {i}} =右)} \ rectle)= g \ left({t_ {i}} \右),\; {\文本{for}} \;我\在U. \)GydF4y2Ba然后我们估计GydF4y2BaGGydF4y2Ba通过最小化GydF4y2Ba

$$ \ sum_ {i \ y} {\ left [{r} _ {i} -g \ left({t} _ {i} \ over)\ rectle]} ^ {2}。$$GydF4y2Ba

自从GydF4y2Ba\(u \)GydF4y2Ba未知,我们使用最小修整的正方形(LTS)来最小化修剪的正方和,同时捕获该组未分化的转录物。由于LTS除以具有大残留物的成绩单,通常是转录物,所谓的对应证明LT的估计值。GydF4y2Ba

参数化GydF4y2Ba

我们参数GydF4y2Ba\(克\左(T \右)\)GydF4y2Ba用一个简单的线性函数GydF4y2Ba\ \(α+β\ t \)GydF4y2Ba.考虑回归模型GydF4y2Ba

$$ {R} _ {I} = \阿尔法+ \测试版{吨} _ {I} + {\ varepsilon} _ {I},$$GydF4y2Ba
(2)GydF4y2Ba

在哪里GydF4y2Ba\({r} _ {i} = {\ mathrm {log}} _ {2} \ left({r} _ {i} +1 \右)\)GydF4y2Ba和GydF4y2Ba\({吨} _ {I} = {\ mathrm {日志}} _ {2} \左(【T} _ {I} 1 \右)\)GydF4y2Ba是日志计数。对数变换起到方差稳定的作用,以满足回归模型中的同性恋的假设。GydF4y2Ba

标准化丰度/计数GydF4y2Ba\ ({T} _{我}\)GydF4y2Ba相对于给定基准然后GydF4y2Ba\ ({\ widehat {t}} _{我}= \ widehat {g} \离开({t} _{我}\右)= \ widehat{\α}+ \ widehat{\β}{t} _{我}\)GydF4y2Ba在日志计数的规模,或GydF4y2Ba\({\ widehat【T}} _ {I} = {2} ^ {\ widehat {G} \左({吨} _ {I} \右)} - 1 = {2} ^ {\ widehat {\阿尔法}} {\左(【T} _ {I} 1 \右)} ^ {\ widehat {\的β}} - 1 \)GydF4y2Ba在原始计数的规模中。如果GydF4y2Ba\(\的β= 1 \)GydF4y2Ba(单个参数表格),GydF4y2Ba\ ({\ widehat {T}} _{我}= {2}^ {\ widehat{\α}}{T} _{我}+ \离开({2}^ {\ widehat{\α}}1 \)\大约{2}^ {\ widehat{\α}}{T} _{我}\)GydF4y2Ba,归一化是几乎缩放。如果GydF4y2Ba\(\ beta \)GydF4y2Ba是一个自由参数(双参数形式),GydF4y2Ba\({\ widehat【T}} _ {I} = {2} ^ {\ widehat {\阿尔法}} {\左(【T} _ {I} 1 \右)} ^ {\ widehat {\测试}} - 1 \)GydF4y2Ba,得到的幂律表示一个简单的非线性变换GydF4y2Ba\ ({T} _{我}\)GydF4y2Ba到GydF4y2Ba\({\波浪号{T}} _{我}\)GydF4y2Ba反之亦然。这意味着允许不同表达水平的转录物的读数计数的缩放系数。因此,它具有更高的灵活性,可以在低表达水平和高表达水平下模拟分离,扩增和测序的步骤中可能的不均匀性。GydF4y2Ba

最小修整的方块回归GydF4y2Ba

现在我们考虑回归模型的参数估计(GydF4y2Ba2GydF4y2Ba).给定一个常整数GydF4y2Ba\(H,\压裂{N} {2} 的最小修边平方(LTS)估计GydF4y2Ba\(\ theta = \左(\ alpha,\ beta \右)\)GydF4y2Ba被定义为GydF4y2Ba

$ $ {\ widehat{\θ}}^{\左(LTS \右)}= \暗流{\θ}{\ mathrm {argmin}} \ sum_ {i = 1} ^ {h} {e} _{左\[我\]}^{2}\离开θ(\ \),$ $GydF4y2Ba

在哪里GydF4y2Ba\({E} _ {\左[I \右]} ^ {2} \左(\ THETA \右)\)GydF4y2Ba是个GydF4y2Ba\(一世\)GydF4y2Ba的阶统计量GydF4y2Ba\ (\ {{e} _{1} ^{2} \离开θ(\ \)\点,{e} _ {n} ^{2} \左θ(\ \)\)GydF4y2Ba},GydF4y2Ba\ ({e} _{我}\离开θ(\ \)= {y} _{我}β-α\ \ {t} _{我}\)GydF4y2Ba.GydF4y2Ba

该LTS估计是回归,规模和仿射等变化。的击穿点GydF4y2Ba\ ({\ widehat{\θ}}^{左(LTS \右)}\ \)GydF4y2Ba大致等于修剪比例GydF4y2Ba\((N-H)/ N \)GydF4y2Ba.LTS估计可以达到最大击穿点GydF4y2Ba\((((N-P)/ 2)+1)/ N \)GydF4y2Ba在回归等变估计中GydF4y2Ba\(h = [n / 2] + [(p + 1)/ 2] \)GydF4y2Ba, 在哪里GydF4y2Ba\([X]\)GydF4y2Ba是的整数部分GydF4y2Ba\(X\)GydF4y2Ba和GydF4y2Ba\ (p = 2 \)GydF4y2Ba在模式(GydF4y2Ba2GydF4y2Ba).最后,它是GydF4y2Ba\(\ sqrt {n} \)GydF4y2Ba- 在连续分布式干扰的情况下,可发行和渐近正常情况[GydF4y2Ba23.GydF4y2Ba].GydF4y2Ba

在LTS估计值GydF4y2Ba\ ({\ widehat{\θ}}^{左(LTS \右)}\ \)GydF4y2Ba,我们通过以下方式对残差进行排序:GydF4y2Ba\ ({e} _{[1]} ^{2} \离开({\ widehat{\θ}}^{左(LTS \) \} \) \ le {e} _{左\[2 \]}^{2}\离开({\ widehat{\θ}}^{左(LTS \) \} \) \ le \点{\ le e} _{左\ [h \]} ^{2} \离开({\ widehat{\θ}}^{左(LTS \) \} \) \ le \点{\ le e} _ {[n]} ^{2} \离开({\ widehat{\θ}}^{左(LTS \) \} \) \)GydF4y2Ba,并经验地定义一对参考和目标样本之间的未分化转录物,作为对应于最小的转录物GydF4y2Ba\(H\)GydF4y2Ba正方形。类似最小二乘法的情况下,以下是LTS如此。GydF4y2Ba

命题2GydF4y2Ba

修整后的平均GydF4y2Ba\ \(压裂{1}{n} \ sum_ {i = 1} ^ {h} {e} _{左\[我\]}({\ widehat{\θ}}^{\左(LTS \右)})= 0 \)GydF4y2Ba.GydF4y2Ba

即一对样本之间未分化的转录组的对数比经过归一化后的平均值为零。GydF4y2Ba

以上描述了图1所示的Muren工作流的第C部分。GydF4y2Ba1GydF4y2Ba.接下来,我们解释B部分。GydF4y2Ba

多个参考样品的选择GydF4y2Ba

假设RNA-SEQ样本被索引GydF4y2Baω\(左\ \{\ \在\ω\ \}\)GydF4y2Ba.表示由索引两个样本之间的未分化集成绩单GydF4y2Ba\(ψ\ω,\ \)GydF4y2Ba作为GydF4y2Ba\({\ lambda} _ {\ omega,\ psi} \)GydF4y2Ba.假设未分化的转录物的定义中的标准横跨样品对保持相同。所有样本的未分化转录物集合由GydF4y2Ba\ \(δ= {\ bigcap} _{\ω,ω\ psi的\ \}{\λ}_{\ω,\ psi} \)GydF4y2Ba.随着大小的GydF4y2Baω\ (\ \)GydF4y2Ba增加,GydF4y2Ba\(\三角洲\)GydF4y2Ba会被还原,并且可能接近于零。同样,在大范围的条件下,是否存在大量样本的管家基因也是值得怀疑的。然而,在这种情况下,两个样本之间的管家基因或未分化的转录本仍可能被定义。GydF4y2Ba

有一些方法可以选择引用。生物学上,我们可以在每个实验条件下选择一个或多个样本作为参考文献并将每个目标样本对准到参考集。在这一策略中,生物学的实验设计提供了某些先前的知识。统计上,我们可以从一些探索数据分析中获取提示。例如,分层聚类通过一些距离/异化度来排列样本。启发式,我们可以选择不同分支的样本作为参考。最后,如果样本大小相对较小,则选择所有样本作为参考是直接的,如果样本大小很大,则选择样本的随机子集作为参考。在本报告所示的示例中,在不同的参考组中观察到轻微差异。GydF4y2Ba

接下来,我们描述Muren工作流程的模型,如图2所示。GydF4y2Ba1GydF4y2Ba.GydF4y2Ba

多个预归一化计数的转录方向整合GydF4y2Ba

假设一个集合GydF4y2Ba\ (k \)GydF4y2Ba样品将被标准化。其中,GydF4y2Ba\(l \)GydF4y2Ba选择引用进行成对归一化。表示的预归一化计数GydF4y2Ba\({t} _ {i} \)GydF4y2Ba,计数在GydF4y2Ba\(一世\)GydF4y2Ba- 关于样品,相对于GydF4y2Ba\ (j \)GydF4y2Bath参考的GydF4y2Ba\ ({\ widehat {t}} ^ {(ij)} = {\ widehat{\α}}_ {ij} + {\ widehat{\β}}_ {ij} {t} _{我}\)GydF4y2Ba, 在哪里GydF4y2Ba\ ({\ widehat{\α}}_ {ij} \)GydF4y2Ba和GydF4y2Ba\({\ widehat {\ beta}} _ {ij} \)GydF4y2Ba估计成对归一化。假设目标和参考效果是在日志转换之后的附加效果,即GydF4y2Ba

$$ {\ widehat {t}} ^ {(ij)} = \ mu + {a} ^ {(i)} + {b} ^ {(j)} + {\ epsilon} ^ {(ij)},$$GydF4y2Ba
(3)GydF4y2Ba

在哪里GydF4y2Ba(i = \ mathrm {1,2},...,i,j = \ mathrm {1,2},...,j \)GydF4y2Ba那GydF4y2Ba\(\ mu,{a} ^ {(i)},{b} ^ {(j)},{\ epsilon} ^ {(ij)} \)GydF4y2Ba是盛大术语,目标效果,参考效果和随机误差。我们使用此模型通过调整参考效果将多个预归一下计数集成为一个最终值。最终集成的日志计数GydF4y2Ba\(一世\)GydF4y2Ba然后是样本GydF4y2Ba\(\ widehat {\ mu} + {widehat {a}} ^ {(i)} \)GydF4y2Ba.我们估计参数一条有效的途径,以避免因异常参考样本不必要的影响(见GydF4y2Ba结果GydF4y2Ba).与两两归一化模型不同,模型(GydF4y2Ba3.GydF4y2Ba)是双因素模型,其设计矩阵包括零和一。这两个因素模型(GydF4y2Ba3.GydF4y2Ba)有一个有界设计矩阵。在这种情况下,我们选择用最小绝对偏差(LAD)而不是最小二乘(LS)估计参数。GydF4y2Ba

了解模型的理由(GydF4y2Ba3.GydF4y2Ba),我们考虑来自不同样本的读数的缩放系数的具体情况在相同的水平。现在它足以考虑单个参数案件在哪里GydF4y2Ba\({\ beta} _ {ij} \)GydF4y2Ba= 1,GydF4y2Ba\({\α}_ {ij} = 0 \)GydF4y2Ba.由于对成对标准化的LTS估计是一致的,因此即,GydF4y2Ba\ ({\ widehat{\α}}_ {ij} \约0 \)GydF4y2Ba,样本效应和参考效应均近似为0。在原始比例中,最终比例系数将近似等于1。也就是说,在归一化之后,计数将保持原样。GydF4y2Ba

最小绝对偏差估计和中值抛光GydF4y2Ba

该模型 (GydF4y2Ba3.GydF4y2Ba)受到约束的可识别:GydF4y2Ba\ (\ mathrm{值}\左\{{一}^{\离开(我\右)},我= 1,\点,我\ \}= \ mathrm{值}\左\ {{b} ^{\左(j \右)},j = 1, \点,j \右\}= 0 \)GydF4y2Ba.LAD估计GydF4y2Ba\(\ vartheta =(\ mu,{a} ^ {\ left(1 \右)},\ dots,{a} ^ {\ left(i oite)},{b} ^ {\ left(1 \右)},\ dots,{b} ^ {(j)})\)GydF4y2Ba被定义为GydF4y2Ba

$$ {\ widehat {\ vartheta}} ^ {\ left(lad \ light)} = \ underset {\ mu,{a} ^ {\ left(i \ recte)},{b} ^ {(j)}{\ mathrm {argmin}} \ sum_ {i = 1} ^ {i} \ sum_ {j = 1} ^ {j} \ left | {\ widehat {t}} ^ {(ij)} - \ mu -{a} ^ {(i)} - {b} ^ {(j)} \ \右手|。$$GydF4y2Ba

类似于[中的三因素模型的结果。GydF4y2Ba21.GydF4y2Ba[我们可以表明LAD估计在一个观察的影响功能界定的意义上是稳健的。影响函数技术上测量了一个数据点对估计的无限扰动的影响。不仅是小伙子估计稳健,还有一些疗效。它的GydF4y2Ba\(\ sqrt {n} \)GydF4y2Ba- 在某些规则条件下,可证实或渐近正常是有效的[GydF4y2Ba24.GydF4y2Ba].GydF4y2Ba

通用LAD可以配制为线性编程(LP)问题,因此由单位或内部点算法解决[GydF4y2Ba25.GydF4y2Ba那GydF4y2Ba26.GydF4y2Ba].对于具体的两因素模型(GydF4y2Ba3.GydF4y2Ba),我们倾向于采用一种更简单的方法来计算LAD估计,即Tukey提出的中值抛光法[GydF4y2Ba27.GydF4y2Ba].GydF4y2Ba

计算的高效实现GydF4y2Ba

在集成步骤中,一种特定的形式模型(GydF4y2Ba3.GydF4y2Ba假设每个转录物的假设,并且不假设模型参数横跨转录物相关。因此,对每个转录物进行中值抛光的整合。但是,在单个参数案例中GydF4y2Ba\(\的β= 1 \)GydF4y2Ba,积分可以简化。假设在两两规范化步骤中,特定的转录本的预规范化日志计数为GydF4y2Ba\({\ widehat {吨}} ^ {(IJ)} = {吨} _ {I} + {\ widehat {\阿尔法}} _ {IJ} \)GydF4y2Ba, 在哪里GydF4y2Ba\ ({\ widehat{\α}}_ {ij} \)GydF4y2Ba估计参数是否在成对的归一化GydF4y2Ba\(一世\)GydF4y2Ba相对于所述目标第GydF4y2Ba\ (j \)GydF4y2Ba-th参考。将其插入模型(GydF4y2Ba3.GydF4y2Ba),我们得到GydF4y2Ba

$ $ {\ widehat {t}} ^ {(ij)} = {t} _{我}+ {\ widehat{\α}}_ {ij} = \μ+{一}^ {(i)} + {b} ^ {(j)} +{\ε}^ {(ij)} $ $GydF4y2Ba

IE。GydF4y2Ba

$$ {\ widehat {\ alpha}} _ {ij} = \ mu + \ left({a} ^ {(i)} - {t} _ {i} \ other)+ {b} ^ {(j)} + {\ epsilon} ^ {(ij)}。$$GydF4y2Ba

如果我们重新参数化,不同转录本的模型就会变得相同GydF4y2Ba\ ({} ^ {(i)} \)GydF4y2Ba通过减去相应的(日志)计数GydF4y2Ba\({t} _ {i} \)GydF4y2Ba.因此,可以通过集成来完成转录的 - 明智的集成GydF4y2Ba\ ({\ widehat{\α}}_ {ij} \)GydF4y2Bas。这是由以下主张证明的。GydF4y2Ba

命题3GydF4y2Ba

(短暂的计算)GydF4y2Ba考虑以下两个优化问题,GydF4y2Ba

M1:GydF4y2Ba

$$ \ {开始阵列} {C} \底流{\亩,{A} ^ {\左(I \右)},{B} ^ {\左(J \右)}} {\ mathrm {分钟}} \ sum_ {I = 1} ^ {I} \ sum_ {J = 1} ^ {Ĵ} \左| {吨} _ {I} + {\ widehat {\阿尔法}} _ {IJ} - \亩 -{A} ^ {\左(I \右)} - {b} ^ {\左(J \右)} \右| \\?\ mathrm {S} \ {mathrm T】。\ mathrm {位数} \左\ {{A} ^ {\左(I \右)} \右\} = \ mathrm {位数} \左\ {{B} ^ {\左(J \右)} \右\} = 0 \ {端阵列} $$GydF4y2Ba

M2:GydF4y2Ba

$$ \ {开始阵列} {C} \底流{\亩,{A} ^ {\左(I \右)},{B} ^ {\左(J \右)}} {\ mathrm {分钟}} \ sum_ {I = 1} ^ {I} \ sum_ {J = 1} ^ {Ĵ} \左| {\ widehat {\阿尔法}} _ {IJ} - \亩 - {A} ^ {\左(I \右)} - {b} ^ {\左(J \右)} \右| \\?\ mathrm {S} \ {mathrm T】。\ mathrm {位数} \左\ {{A} ^ {\左(I \右)} \右\} = \ mathrm {位数} \左\ {{B} ^ {\左(J \右)} \右\} = 0 \ {端阵列} $$GydF4y2Ba

如果GydF4y2Ba\({\ vartheta} _ {2} =({\ mu} _ {2},{a} _ {2} ^ {\ left(1 \右)},\ dots,{a} _ {2} ^{\ left(i \右)},{b} _ {2} ^ {\ left(1 \右)},\ dots,{b} _ {2} ^ {\ left(j \ light)})\)GydF4y2Ba解决了M2则GydF4y2Ba\ ({\ vartheta} _ {1} = {\ vartheta} _{2} +({\μ}_ {0},{t} _{1} -{\μ}_{0}\点,{t} _{我}-{\μ}_{0},0 \点,0)\)GydF4y2Ba解决了M1,其中GydF4y2Ba\({\ mu} _ {0} = \ mathrm {median} \ left \ {{a} _ {2} ^ {\ left(i \ revion)} + {t} _ {i} \ \ \ \ \ \ \ \ \ \ \})GydF4y2Ba.GydF4y2Ba

证明本质上就是替换相应的变量。然后积分(log)计数在GydF4y2Ba\(一世\)GydF4y2Ba-th样本是GydF4y2Ba\({{\ mu} _ {2} + a} _ {2} ^ {\ left(i \ light)} + {t} _ {i} \)GydF4y2Ba这适用于所有的成绩单。此外,在此情况下,参考影响是相同的跨转录物,其由相同的表示GydF4y2Ba\ ({b} ^{左(j \右)}\ \)GydF4y2Ba的年代GydF4y2Ba\({\ vartheta} _ {1} \)GydF4y2Ba和GydF4y2Ba\({\ vartheta} _ {2} \)GydF4y2Ba.这意味着,即使在普通模式(GydF4y2Ba3.GydF4y2Ba)参考效果的参数与转录物直接相关,它们在单个参数案例中是相同的。换句话说,参考效果的调整或中值抛光过程仅需要对所​​有转录物进行一次。GydF4y2Ba

在双参数公式中,如果取LS估计(GydF4y2Ba\ ({l} _ {2} \)GydF4y2Ba范数),而不是LAD估计(GydF4y2Ba\({l} _ {1} \)GydF4y2Ba范数),借助于替换位数上的限制,然后进行建模(GydF4y2Ba3.GydF4y2Ba)是一个具有完整设计矩阵的双因素方差分析模型。因此,平均值(日志)计数GydF4y2Ba\(一世\)GydF4y2Ba- 样本是GydF4y2Ba

$$ \ widehat {\ mu} + {widehat {a}} ^ {(i)} = \ frac {1} {j} \ sum_ {j = 1} ^ {j} \ left({{\ widehat {\ alpha}} _ {ij} + \ widehat {\ beta}} _ {ij} {t} {t} _ {i} \ rote)= {\ overline {\ alpha}} _ {i} + {\ overline {\ beta}} _ {i} {t} _ {i},$$GydF4y2Ba

在哪里GydF4y2Ba\({\划线{\阿尔法}} _ {I} \)GydF4y2Ba和GydF4y2Ba\({\眉题{\β}}_{我}\)GydF4y2Ba是GydF4y2Ba\ ({\ widehat{\α}}_ {ij} \)GydF4y2Ba和GydF4y2Ba\({\ widehat {\ beta}} _ {ij} \)GydF4y2Ba过度索引GydF4y2Ba\ (j \)GydF4y2Ba分别。因此,可以通过平均系数来完成抄本 - 明智的集成GydF4y2Ba\ ({\ widehat{\α}}_ {ij} \)GydF4y2Ba'沙GydF4y2Ba\({\ widehat {\ beta}} _ {ij} \)GydF4y2Ba’s为每份成绩单。GydF4y2Ba

不幸的是,代数GydF4y2Ba\({l} _ {1} \)GydF4y2Ba- LARM估计不是如此直截了当GydF4y2Ba\ ({l} _ {2} \)GydF4y2Ba- LS估计的常模。启发式地,我们可以分别优化斜率和截距系数,并将结果应用于所有转录本。对于大规模数据,这种快速的替代方案在计算时间上很有竞争力。GydF4y2Ba

结果GydF4y2Ba

数据集A.GydF4y2Ba

它(GSE47792 [GydF4y2Ba28.GydF4y2Ba])来自测序质量控制(SEQC)项目[GydF4y2Ba29.GydF4y2Ba].该研究包括五组大鼠毒理基因组学实验,产生30个rna测序样本(n = 3)。各组大鼠分别给予或注射甲巯咪唑(MET)、3-甲基胆蒽(3ME)、β -萘醌(NAP)、硫代乙酰胺(THI)和噻代乙酰胺GydF4y2BaNGydF4y2Ba-nitrosodimethylamine (NIT);对照组大鼠保持不用药。与此同时,所有的RNA样本被外部RNA控制联盟加标[GydF4y2Ba30.GydF4y2Ba混合序列作为基线真理。ERCC序列的丰度控制比分别为1:1、1:1.5、1:2和4:1。每个比值组由23个分布广泛的序列组成。GydF4y2Ba

使用数据集A通过将其估计的ERCC序列与已知的控制折叠变化/比率进行比较来评估不同方法的准确性。以下比率和折叠变化可互换使用。然后,我们表明,在不对称调节的转录概况(ART)的情况下,常规方法适用于常规转录型材的病例,但在不对称调节的转录概况(ART)的情况下。在后者中,某些样品之间的上调转录物的上调转录物的模式不同。在统计单词中,表达分化是倾斜的。技术可以通过非对称密度图来可视化,并且通过数量的数量尺寸的数量尺寸来概括。我们提出了归一化的指导标准:恢复真实(LOG)比率,同时保持原因,由于其生物学背景,在保持对数率的偏差。GydF4y2Ba

数据集B.GydF4y2Ba

这个 [GydF4y2Ba31.GydF4y2Ba]来自基于板的单细胞RNA-SEQ实验,鼠多能骨髓祖细胞系416b与癌基因CBFB-MYH11转导(#cells = 192)。在我们过去的研究中已经注意到对数率偏差对正常化的影响[GydF4y2Ba32.GydF4y2Ba,但它的生物学意义至今尚未被阐明。使用数据集B,我们从生物学角度举例说明了对数比率的偏度,从而证明了上述建议。具体来说,我们比较了细胞周期不同阶段的细胞表达,并表明阶段之间的分化确实是倾斜的。GydF4y2Ba

MUREN等方法GydF4y2Ba

MUREN有两种形式:单参数(MUREN-sp)和双参数(MUREN-dp)。除了MUREN,我们的评估和比较还包括Raw (Raw计数)、CPM、Q(分位数)、RLE、RUV、TMM、TPM和UQ(上四分位数[GydF4y2Ba33.GydF4y2Ba])。GydF4y2Ba

请注意,整个文章,日志比率(GydF4y2BamGydF4y2Ba-Value)被定义为GydF4y2Ba

$$ \ mathrm {对数比值} = {\ mathrm {日志}} _ {2} \左({\ mathrm {计数}} _ {1} 1 \右) - {\ mathrm {日志}} _ {2}\左({\ mathrm {计数}} _ {2} 1 \右),$$GydF4y2Ba

和日志平均值(GydF4y2Ba一种GydF4y2Ba-Value)被定义为GydF4y2Ba

$$ \ mathrm {logaverage} = [{\ mathrm {log}} _ {2} \ left({\ mathrm {counts}} _ {1} +1右)+ {\ mathrm {log}} _ {2\ \左({\ mathrm {counts}} _ {2} +1 \右)] / 2。$$GydF4y2Ba

默伦恢复真正的表情比率(DataSet a)GydF4y2Ba

由于ERCC加穗序列的丰度比值是已知的,所以将各种方法恢复的比值与相应的标称值进行比较是最有说服力的。GydF4y2Ba

实验结果用富集的方法进行了说明GydF4y2Ba嘛GydF4y2Ba图中的图。GydF4y2Ba2GydF4y2Ba,其中,所述估计的日志比示于点用安装虚线,和标称值以实线示出。少差异表明更高的精度。非标准化计数的结果(方法原料)系统地从相应的实线偏离。该系统偏差表明正常化的必要性。缩放方法,包括木人-SP,UQ,TMM,RLE和对数线性木人-DP,执行公平正常化。相比较而言,方法CPM和TPM是假定不变的总RNA内容或常数的成绩单并不充分纠正计数。在相反的,由非线性方法Q和RUV获得的估计数比的趋势严重失真。的其他实验毒理的类似结果示于附加文件GydF4y2Ba1GydF4y2Ba:图S1-S4。GydF4y2Ba

图2GydF4y2Ba
figure2GydF4y2Ba

使用ERCC序列的log比值的比较GydF4y2Ba嘛GydF4y2Ba通过不同的方法获得的曲线。RNA-seq的数据来自THI实验。x轴表示归一化的平均读取计数(GydF4y2Ba一种GydF4y2Ba-价值)。y轴表示数值比率(GydF4y2BamGydF4y2Ba-价值)。不同的预设比率的ERCC序列组示于四种颜色。点:归一化后个体ERCC序列的对数比值估计;虚线:由局部平滑(LOWESS)的点的拟合值;实线:标称之间的关系GydF4y2BamGydF4y2Ba- 和GydF4y2Ba一种GydF4y2Ba- 值。木人,UQ,TMM和RLE的结果是公平的;这些CPM和TPM的不足;这些Q和RUV的被扭曲GydF4y2Ba

Muren保留了不对称调节的转录组(数据集A)GydF4y2Ba

当转录组分化分布(几乎)对称时,即转录性 - 明智的数量的分布是(几乎)对称的,上调和下调的转录物是可比的。在这种情况下,我们看不到Muren,TMM,RLE和UQ之间的大量差异,如图2所示。GydF4y2Ba2GydF4y2Ba.图2中的底板。GydF4y2Ba3.GydF4y2Baa为THI实验中所有转录本归一化对数比的密度。除CPM、TPM和Raw方法外,其他方法的密度模态均接近于零。近零模式是适当归一化的指标,这一点将在后面详细说明。GydF4y2Ba

图3GydF4y2Ba
图3GydF4y2Ba

通过截断的转录组对THI实验中不同归一化方法的评价。GydF4y2Ba一种GydF4y2Ba顶部面板:截短的转录组的数量尺寸的密度。在截断,RLE,UQ,TMM和Q被截断/不对称受到干扰之后;这些方法的数码数量来自这些方法的密度显着朝向右移。默登抗击抗冲击,使其模式保持零。底部面板:未经转录的转录组的数值率密度。CPM和TPM方法无法调整零附近的密度模式。GydF4y2BaB.GydF4y2Ba嘛GydF4y2Ba施加到截短的转录组的所选方法的ERCC序列的图。与图1相比。GydF4y2Ba2GydF4y2Ba,由于截断的影响,TMM在估计和预期的数量比率之间具有更大的偏差。它不能将计数结果标准化,以及为未经转录的转录组。相比之下,默登对不对称扰动抗性。查看其他文件GydF4y2Ba1GydF4y2Ba:图。S5用于其他方法的结果GydF4y2Ba

在以下评估中,我们通过如下缩小尾部截断转录组(如下)扰动了THI数据:首先,分别为控制和治疗样品分别通过三种重复的中位数总结计数;其次,按总结治疗和控制计数的比率按升序对成绩单进行分类;最后,从所有样品中取出前15%的转录物。截短的转录组比原来的更不对称。GydF4y2Ba

如图1所示。GydF4y2Ba3.GydF4y2Baa(上图),转录组的不对称导致RLE、UQ、TMM和Q(橙色和红色线)的密度向右移动,从而产生系统性偏差。这些方法由于引入了不对称而受到干扰。相比之下,MUREN(绿线)对非对称微扰有更强的抵抗力,并且保持其模式在零附近。注意,CPM和TPM(紫色线)和Raw(蓝色线)的结果使它们的模式远离零。RUV(浅蓝色线)有一个尖锐的峰值在0附近,由GydF4y2BayGydF4y2Ba-axis限制。即使RUV的模式不受影响,即使没有影响数量的密度的形状也明显改变。查看其他文件GydF4y2Ba1GydF4y2Ba:图。S5用于缩放的密度范围。GydF4y2Ba

回到ERCC序列。GydF4y2Ba3.GydF4y2BaB显示GydF4y2Ba嘛GydF4y2Ba将选定的方法应用于截断的转录组的ERCC序列图。结果与图中所示一致。GydF4y2Ba3.GydF4y2Baa.与Fig相比。GydF4y2Ba2GydF4y2Ba中,我们看到明显的偏差,通过截断干扰,在TMM的结果拟合(虚线)线和相应的理论(固体)线之间。同时木人是免疫的不对称。查看其他文件GydF4y2Ba1GydF4y2Ba其他方法的结果如图S6所示。GydF4y2Ba

通过对数比的密度评估归一化的优度(数据集A)GydF4y2Ba

部分E涉及标准化的评估。根据命题GydF4y2Ba3.GydF4y2Ba,在成对标准化之后,一对样本之间的对数比的修剪平均值为零。如果未分化的转录物集的日志比大致对称,则对数率的浓度的模式将靠近修整平均值,这为零。这种假设是合理的,因为内政基因的不同应该是由于随机波动。由于我们强制限制参考效应的中位数(GydF4y2Ba3.GydF4y2Ba)为零,则模式在整合后也将接近零。反之,如果模式接近零,则意味着大多数转录本的表达保持不变。如图底部所示。GydF4y2Ba3.GydF4y2BaA是THI实验的对比度密度的示例。非正规化计数的日志比显示了一个单峰分布。归一化后,除CPM和TPM的结果外,所有情况下,模式在零附近移位。GydF4y2Ba

密度的另一个信息特征是其形状。后来我们将通过典型的例子提供对转录组分化偏差的生物解释。因此,我们建议归一化不应改变对数率分布的整体偏斜或方式。过于柔韧的方法,通常是非线性方法,往往会改变形状。对数率的密度与之GydF4y2Ba嘛GydF4y2BaPlot提供了一个相当全面的标准化良性诊断。GydF4y2Ba

默登保留了数量的偏差(DataSet A)GydF4y2Ba

对数率分布的形状,其特征在于单层/多模和偏振,是转录组分化的生物学特征。我们建议归一化的目标有两倍:首先,提高对数比的准确性;其次,保持数量的数量的对数的密度。例如,归一化应既不应该将带有阳极偏斜的分布带到负分布式,也不会向多峰的分布变为多语载分布。GydF4y2Ba

此后,我们通过实证措施量化偏斜GydF4y2Ba\(S = \压裂{1} {N} {\总和} _ {i = 1} ^ {N} {\左(\压裂{{X} _ {I} - \亩} {\西格玛} \右)} ^ {3} \)GydF4y2Ba, 在哪里GydF4y2Ba\μ(\ \)GydF4y2Ba样本是均值和GydF4y2Baσ\ (\ \)GydF4y2Ba是样本标准偏差。对于来自五组大鼠毒源组虫实验的汇集样品中的每对,我们计算成对偏斜。接下来,我们考虑对原始计数和标准化计数的所有成对偏斜的集合,并分别表示它们GydF4y2Ba\({\ {s} _ {i} \} \)GydF4y2Ba和GydF4y2Ba\(\ {{s} _ {i} ^ {^ {\ prime}} \} \)GydF4y2Ba.为了测量它们之间的整体偏差差异,我们定义了偏斜(MADSI)的平均绝对偏差指数GydF4y2Ba\(\ mathrm {MADSI} = \压裂{1} {M} {\总和} _ {i = 1} ^ {米} | {S} _ {I} - {S} _ {I} ^ {^ {\黄金}} | \)GydF4y2Ba.MADSI越小,偏度变化越小。结果如图所示。GydF4y2Ba4.GydF4y2Ba.正如我们所看到的,线性方法不会改变太多偏差,其中默伦-SP具有MADSI的最低价值。然而,像Q等非线性方法倾向于大胆地改变偏斜。GydF4y2Ba

图4GydF4y2Ba
装具GydF4y2Ba

成对的偏态分布。用于从五个大鼠毒理实验的合并样品的每对,log比值的偏度被计算。橙色:原始计数的偏态分布;蓝色:标准化计数的偏态分布。它们之间的差异是由偏斜度(MADSI)的平均绝对偏差指数测量。线性方法不改变偏度太大;其中,木人-SP具有MADSI的最小值。然而,非线性方法,如Q和特别RUV倾向于改变偏大胆GydF4y2Ba

归一化与多个引用是更可靠的比具有单一一个(数据集A)GydF4y2Ba

我们已经解释了在理论设置中具有多个引用的规范化的必要性。在实践中,使用单引用的结果可能与使用多个引用的结果没有太大差异,只要差异化相对较小并且数据质量很高。但我们不能排除由于测序过程中的污染或错误导致的数据集中的异常样本将被视为参考。具有多个参考的归一化不受各个异常参考样本的影响,而具有单个参考的标准化受到严重影响。实际上,这通过模拟确认,其中一些样本通过随机增加或减少计数而人为地受到干扰,请参阅附加文件GydF4y2Ba1GydF4y2Ba:图S7的介绍。GydF4y2Ba

偏差转录组分化对应于细胞的增加/减少(DataSet B)GydF4y2Ba

当我们比较两个样本的转录om,数量的正/负面偏斜的特征在于沉重的右/左尾。这意味着某些生物过程从一个样品显着上调或下调另一个,接下来,我们显示使用单个小区RNA-SEQ数据的细胞周期转换的这样的示例。GydF4y2Ba

数据集B是来自不同细胞周期阶段的单个细胞RNA-SEQ实验:G1,S,G2和M.G1是第一个生长阶段,RNA转录和蛋白质合成的速率高;s是DNA复制阶段,其中大多数其他生物合成变低;G2是制备细胞的生长阶段进行有丝分裂;相对短的m阶段经历细胞分裂。我们将每个细胞的计数正常化其总数。使用在R包装中实现的工具[GydF4y2Ba34.GydF4y2Ba那GydF4y2Ba35.GydF4y2Ba[分别用归一化细胞循环分数> 0.6,鉴定细胞周期,鉴定G1,S和G2 / M相中的50,19和35个细胞。GydF4y2Ba

如果我们比较G1期和S期的表达谱,对数比的分布预计是正偏态的,因为涉及生长的一般生物学过程在G1期比在S期更活跃。同样,S相和G2/M相之间的分布预计是正偏态的;G2/M期和G1期之间的分布预计是负偏态的。确实,如图所示。GydF4y2Ba5.GydF4y2Ba不同相位的细胞间的成对偏度分布验证了上述猜想。此外,在偏度随机为正或负且概率相等的零假设下,非参数符号检验报告非常显著GydF4y2BaP.GydF4y2Ba- 值。结论同意细胞周期阶段的活动变化。GydF4y2Ba

图5GydF4y2Ba
figure5GydF4y2Ba

细胞周期scRNA-seq数据:阶段的转变与单细胞和体积水平的对数比率的偏斜度有关。GydF4y2Ba一种GydF4y2Ba不同阶段细胞间对数比的两两偏度直方图。左上:与S期细胞相比,G1期细胞更活跃,简记为G1 > S,转录组分化正偏;右上:S > G2/M;左下:G2/M < G1;右下角:G1/S > G2/M。在偏度随机为正或负且概率相等的零假设下,非参数符号检验报告非常显著GydF4y2BaP.GydF4y2Ba- 值。GydF4y2BaB.GydF4y2Balog比值通过细胞求和以相同的相位获得的伪散装计数的密度。通过木人-SP正常化后,伪散装计数的密度的方式排列到零。的(归一化)散装数比偏斜度是与在单细胞水平相一致。请注意,标准化和非标准化数比偏度差异不大GydF4y2Ba

伪批量转录om(DataSet B)中的数量偏振偏振GydF4y2Ba

为了调查散装水平的偏差,我们将相同阶段的细胞计数合并为伪批量RNA-SEQ计数,并将其与Muren-SP标准化。诊断密度绘图以及偏斜度如图2所示。GydF4y2Ba5.GydF4y2BaB,其中默登充分标准化伪散装RNA-SEQ计数。对数率密度的含义与我们在上面的解释相同。此外,伪散装水平的转录组分化的偏差不仅与单个细胞水平相一致,而且扩大。服用G1 / S〜G2 / m,例如,细胞级偏振是阳性的(见图。GydF4y2Ba5.GydF4y2Baa),然而,成对偏斜都不超过0.3。然而,伪批量计数的偏斜达到0.376(图。GydF4y2Ba5.GydF4y2Bab)中,比在细胞水平的最大偏斜度大。同样的结论在其他三个比较真实。因此,使用该单细胞RNA-SEQ的数据,我们举例说明生物分化的偏斜度在单细胞和体水平两者。GydF4y2Ba

讨论GydF4y2Ba

在本报告中,我们解决了两个方面的正常化的问题:(1)提高正常化的准确性;(2)保持差异的歪曲。具体地,我们检查表达分化的密度图以及GydF4y2Ba嘛GydF4y2Ba情节。密度的模式和偏斜是标准化良好的重要指标。GydF4y2Ba

一对样本之间未分化的转录本集合与管家基因的概念一致。通过适当的规范化,如我们所示,未分化转录本集的日志比率的平均值为零。与修剪后的平均值相比,模型可以直观地进行诊断。如果关于未分化转录本集合的对称假设近似成立,则两两表达分化模式应接近于零,见图。GydF4y2Ba3.GydF4y2Ba在这种情况下。否则,当模式严重偏离零时,其他所有基因的分化就会有偏差,上调和下调的量化也会有偏差,如图所示的归一化不当的案例。GydF4y2Ba2GydF4y2Ba和GydF4y2Ba3.GydF4y2Ba湾基因分化的无偏量化是用于下游分析至关重要的,如基因组富集[GydF4y2Ba36.GydF4y2Ba那GydF4y2Ba37.GydF4y2Ba],低等级分解[GydF4y2Ba38.GydF4y2Ba,以及对转录调控的推断[GydF4y2Ba39.GydF4y2Ba那GydF4y2Ba40GydF4y2Ba].分化的无偏量化也是DE基因调用的基础。R包,如edgeR [GydF4y2Ba12.GydF4y2Ba那GydF4y2Ba15.GydF4y2Ba]及dese2 [GydF4y2Ba13.GydF4y2Ba]由负二项式(NB)分布的原始计数与协变量模型来调用DE基因。通过木人-SP估计缩放因子可以用于替代在轧边机和DESeq2文库大小因子作为替代方案,特别是在不对称调节的转录。GydF4y2Ba

保持数据不对称分化或偏差的能力在不同的归一化方法上变化,如图4中的示例所示。GydF4y2Ba4.GydF4y2Ba.特别是,使用木人LTS,其具有击穿值高达50%保留了偏斜。根据击穿值的定义,数据的所述部分从所述主成分偏离可以是任何种类的图案包括偏斜度GydF4y2Ba41.GydF4y2Ba].这样的例子可以在[GydF4y2Ba42.GydF4y2Ba].GydF4y2Ba

该建议的方法不依赖于一个参数化模型等车型上读取数泊松分布或负二项分布。该方法适用于任何数据集,只要该假设的50组%以上的基因是两个未分化的和不受样品之间的失真和基准是有效的。GydF4y2Ba

在R包装中实施的静音已准备好进行RNA-SEQ数据的日常标准化。Muren具有有效的实现,并与平行R包集成。对于THI数据(6个样本),在通用台式计算机上的单线线需要不到半分钟。对于大型数据集,并行实现可以由一行代码指定。GydF4y2Ba

在归一化的开始时,我们会记录原始计数加上偏移量GydF4y2BaCGydF4y2Ba,见图。GydF4y2Ba1GydF4y2Ba一种。我们建议偏移是1的两个主要原因。首先,原始计数是非负的,并且对数转换的计数也是非负的。而且,日志GydF4y2Ba2GydF4y2Ba(0 + 1) = 0, which means zero observed count is still zero after transformation. Second, the fold change of low counts is vulnerable and radical. The offset 1, indeed, shrinks the fold change to zero. Consider two raw counts 4 and 0, the fold change is infinite which is unreliable. Actually, we cannot determine the fold change accurately in this situation. Hence, a shrinkage of the fold change to zero is reasonable. When the offset is 1, log2GydF4y2Ba(4 + 1)−logGydF4y2Ba2GydF4y2Ba(0 + 1)= 2.3;当偏移量为0.0001时,日志GydF4y2Ba2GydF4y2Ba(4 + 0.0001) - 日志GydF4y2Ba2GydF4y2Ba(0 + 0.0001)= 15.3。GydF4y2Ba

结论GydF4y2Ba

Muren使用一般原则诱导的两步统计回归进行RNA-SEQ标准化。我们建议使用成对差异的密度来评估归一化的良好。Muren调节零差的模式,同时保留由于生物学不对称分化引起的偏差。此外,通过稳健地将预归一化计数相对于多个参考,Muren对异常样品免疫。GydF4y2Ba

可用性数据和材料GydF4y2Ba

我们用于比较的RNA测序和scRNA-SEQ的数据集和/或作为证据是从GSE47792 [GydF4y2Ba28.GydF4y2Ba]和[GydF4y2Ba31.GydF4y2Ba].GydF4y2Ba

缩写GydF4y2Ba

3ME:GydF4y2Ba

3-MethylcholanthreneGydF4y2Ba

一个值:GydF4y2Ba

日志平均值GydF4y2Ba

艺术:GydF4y2Ba

不对称调节转录谱GydF4y2Ba

CPM:GydF4y2Ba

每百万计数GydF4y2Ba

德:GydF4y2Ba

差异表达GydF4y2Ba

ERCC:GydF4y2Ba

外部RNA控制联盟GydF4y2Ba

FPKM:GydF4y2Ba

每百万每千碱基片段短片段GydF4y2Ba

小伙子:GydF4y2Ba

最小绝对偏差GydF4y2Ba

LTS:GydF4y2Ba

截尾最小二乘GydF4y2Ba

m-value:GydF4y2Ba

日志比率GydF4y2Ba

Madsi:GydF4y2Ba

平均绝对偏差偏差指数GydF4y2Ba

MET:GydF4y2Ba

甲基唑.GydF4y2Ba

默登:GydF4y2Ba

多重参考标准化者GydF4y2Ba

小睡:GydF4y2Ba

BetanapthoflavoneGydF4y2Ba

没用的人:GydF4y2Ba

NGydF4y2Ba-NitrosodimethylamineGydF4y2Ba

问:GydF4y2Ba

分位数法GydF4y2Ba

rle:GydF4y2Ba

相对日志表达式GydF4y2Ba

RNA-seq:GydF4y2Ba

RNA测序GydF4y2Ba

rpkm:GydF4y2Ba

每千票读数读取每百万映射的读数GydF4y2Ba

RUV:GydF4y2Ba

删除不需要的变化GydF4y2Ba

THI:GydF4y2Ba

硫代酰胺GydF4y2Ba

TMM:GydF4y2Ba

m值的修剪平均值GydF4y2Ba

TPM:GydF4y2Ba

记录每百万GydF4y2Ba

UQ:GydF4y2Ba

上四分位数GydF4y2Ba

参考GydF4y2Ba

  1. 1。GydF4y2Ba

    Oshlack A,罗宾逊博士,年轻的医学博士。从RNA-SEQ读取到的差异表达的结果。基因组Biol。2010; 11(12):220。GydF4y2Bahttps://doi.org/10.1186/gb-2010-11-12-220GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  2. 2。GydF4y2Ba

    Levin JZ,Yassour M,Adiconis X等人。股线特异性RNA测序方法的综合比较分析。NAT方法。2010; 7(9):709-15。GydF4y2Bahttps://doi.org/10.1038/nmeth.1491GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  3. 3.GydF4y2Ba

    潘Q,Shai O,Lee Lj,Frey Bj,Blencowe Bj。高通量测序对人体转录组替代剪接复杂性的深度测量。NAT Genet。2008; 40(12):1413-15。GydF4y2Bahttps://doi.org/10.1038/ng.259GydF4y2Ba.GydF4y2Ba

  4. 4.GydF4y2Ba

    Trapnell C,Williams Ba,Pertea G,等人。通过RNA-SEQ的转录程序组件和定量揭示了细胞分化期间未经发布的转录物和同种型切换。NAT BIOTECHNOL。2010; 28(5):511-5。GydF4y2Bahttps://doi.org/10.1038/nbt.1621GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  5. 5。GydF4y2Ba

    Maher Ca,Kumar-Sinha C,Cao X等。转录组测序以检测癌症中基因融合。自然。2009; 458(7234):97-101。GydF4y2Bahttps://doi.org/10.1038/nature07638GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  6. 6。GydF4y2Ba

    Marioni JC,Mason Ce,Mane Sm,Stephens M,Gilad Y.RNA-SEQ:对技术重现性的评估和与基因表达阵列的比较。Genome Res。2008; 18(9):1509-17。GydF4y2Bahttps://doi.org/10.1101/gr.079558.108GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  7. 7。GydF4y2Ba

    Mortazavi A,Williams Ba,McCue K,Schaeffer L,Wold B.用RNA-SEQ进行测绘和量化哺乳动物转录om。NAT方法。2008; 5(7):621-8。GydF4y2Bahttps://doi.org/10.1038/nmeth.1226GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba谷歌学者GydF4y2Ba

  8. 8.GydF4y2Ba

    Risso d,施瓦茨K,夏洛特G,用于RNA测序数据Dudoit S. GC含量正常化。BMC生物素。2011; 12:480。GydF4y2Bahttps://doi.org/10.1186/1471-2105-12-480GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  9. 9.GydF4y2Ba

    Roberts A,Trapnell C,Donaghey J,RINN JL,Pachter L.通过校正片段偏压来提高RNA-SEQ表达估计。基因组Biol。2011; 12(3):R22。GydF4y2Bahttps://doi.org/10.1186/gb-2011-12-3-r22.GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  10. 10。GydF4y2Ba

    Tarazona S, García-Alcalde F, Dopazo J, Ferrer A, Conesa A. RNA-seq的差异表达:一个深度问题。基因组研究》2011;21(12):2213 - 23所示。GydF4y2Bahttps://doi.org/10.1101/gr.124321.111GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  11. 11.GydF4y2Ba

    Li B,Ruotti V,Stewart Rm,Thomson Ja,Dewey CN。RNA-SEQ基因表达估计与读取映射不确定性。生物信息学。2010; 26(4):493-500。GydF4y2Bahttps://doi.org/10.1093/bioinformatics/btp692GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba谷歌学者GydF4y2Ba

  12. 12.GydF4y2Ba

    罗宾逊MD,麦卡锡DJ,史密斯GK。轧边机:一个Bioconductor的包数字基因表达数据的差异表达分析。生物信息学。2010; 26(1):139-40。GydF4y2Bahttps://doi.org/10.1093/bioinformatics/btp616GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  13. 13。GydF4y2Ba

    洛夫MI,胡伯W,倍数变化和分散与DESeq2 RNA-SEQ数据的Anders S.主持人估计。基因组Biol。2014; 15(12):550。GydF4y2Bahttps://doi.org/10.1186/s13059-014-0550-8GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  14. 14。GydF4y2Ba

    一种用于RNA-seq数据差异表达分析的标准化方法。基因组医学杂志。2010;11 (3):R25。GydF4y2Bahttps://doi.org/10.1186/gb-2010-11-3-r25.GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  15. 15。GydF4y2Ba

    麦卡锡DJ,陈烨,SMYTH GK。多因素RNA-SEQ实验对生物变异的差异表达分析。核酸RES。2012; 40(10):4288-97。GydF4y2Bahttps://doi.org/10.1093/nar/gks042GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  16. 16。GydF4y2Ba

    Bolstad BM, Irizarry RA, Astrand M, Speed TP。基于方差和偏倚的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学。2003;19(2):185 - 93。GydF4y2Bahttps://doi.org/10.1093/bioinformatics/19.2.185GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba谷歌学者GydF4y2Ba

  17. 17。GydF4y2Ba

    里奇我,Phipson B,Wu D等人。LiMMA为RNA测序和微阵列研究进行差异表达分析。核酸RES。2015; 43(7):E47。GydF4y2Bahttps://doi.org/10.1093/nar/gkv007.GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  18. 18。GydF4y2Ba

    Risso d,艺Ĵ,速度TP,使用对照基因或样品的因子分析RNA-SEQ数据的Dudoit S.正常化。NAT BIOTECHNOL。2014; 32(9):896-902。GydF4y2Bahttps://doi.org/10.1038/nbt.2931GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  19. 19.GydF4y2Ba

    王志强,王志强,王志强,等。肿瘤组织中基因表达测量的标准化:13个内源性控制基因的比较。实验室投资。2005;85(1):154 - 9。GydF4y2Bahttps://doi.org/10.1038/labinvest.3700208GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba谷歌学者GydF4y2Ba

  20. 20.GydF4y2Ba

    Li C,Hung Wong W.基于模型的寡核苷酸阵列分析:模型验证,设计问题和标准错误应用。基因组Biol。2001; 2(8):Research0032。GydF4y2Bahttps://doi.org/10.1186/gb-2001-2-8-research0032GydF4y2Ba.GydF4y2Ba

  21. 21.GydF4y2Ba

    葛H,郑C,李LM。探针处理参考(PTR)模型用于寡核苷酸表达微阵列的分析。BMC生物素。2008; 9:194。GydF4y2Bahttps://doi.org/10.1186/1471-2105-9-194GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  22. 22。GydF4y2Ba

    李LM。盲反演需要分布(BIND):一般概念和案例研究。纪念斯毕德教授60岁生日。戈尔茨坦D,编辑器。IMS讲座笔记系列,第40卷。2003.p . 273 - 293。GydF4y2Ba

  23. 23。GydF4y2Ba

    Vı́šek农协。关于估计的多样性。计算机统计数据分析,2000;34:67 - 89。GydF4y2Ba

  24. 24。GydF4y2Ba

    陈K,英Z,张H,至少绝对偏差的赵L.分析。Biometrika。2008; 95(1):107-22。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  25. 25。GydF4y2Ba

    Barrodale我,罗伯茨FDK。一种改进的算法用于离散升GydF4y2Ba1GydF4y2Ba线性近似。SIAMĴNUMER分析。1973; 10(5):839-48。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  26. 26.GydF4y2Ba

    Koenker Rw,D'Orey V.计算回归量数。J R STAT SOC SER C. 1987; 36(3):383-93。GydF4y2Ba

    谷歌学者GydF4y2Ba

  27. 27.GydF4y2Ba

    Tukey JW。探索性数据分析。阅读:Addison-Wesley;1977年。GydF4y2Ba

  28. 28.GydF4y2Ba

    Munro Sa,Lund SP,Pine PS等。评估外部尖峰中的差异基因表达实验中的技术性能RNA控制比混合物。NAT Communce。2014; 5:5125。GydF4y2Bahttps://doi.org/10.1038/ncomms6125GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba谷歌学者GydF4y2Ba

  29. 29.GydF4y2Ba

    SEQC / MAQC-III财团。测序质量控制联盟(Sequencing Quality Control Consortium)对RNA-seq的准确性、重现性和信息内容的综合评估。生物科技Nat》。2014;32(9):903 - 14所示。GydF4y2Bahttps://doi.org/10.1038/nbt.2957GydF4y2Ba.GydF4y2Ba

  30. 30.GydF4y2Ba

    贝克SC,鲍尔SR,拜尔RP等人。外部RNA控制联盟:进展报告。NAT方法。2005; 2(10):731-4。GydF4y2Bahttps://doi.org/10.1038/nmeth1005-731GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba谷歌学者GydF4y2Ba

  31. 31.GydF4y2Ba

    Lun ATL, Calero-Nieto FJ, Haim-Vilmovsky L, Göttgens B, Marioni JC。评估单细胞RNA测序数据分析中插入标准化的可靠性。基因组研究》2017;27(11):1795 - 806。GydF4y2Bahttps://doi.org/10.1101/gr.222877.117GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  32. 32.GydF4y2Ba

    程C,Li LM。子阵列归一化受差化。核酸RES。2005; 33(17):5565-73。GydF4y2Bahttps://doi.org/10.1093/nar/gki844GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  33. 33。GydF4y2Ba

    Bullard JH,法律e,Hansen Kd,Dudoit S. MRNA-SEQ实验中标准化和差异表达统计方法的评价。BMC生物素。2010; 11:94。GydF4y2Bahttps://doi.org/10.1186/1471-2105-11-94GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  34. 34。GydF4y2Ba

    LUN AT,MCCARTHY DJ,Marioni JC。用于使用Biocumond的单单元RNA-SEQ数据的低级分析的逐步工作流。F1000res。2016; 5:2122。GydF4y2Bahttps://doi.org/10.12688/f1000research.9501.2GydF4y2Ba.GydF4y2Ba

  35. 35。GydF4y2Ba

    McCarthy DJ, Campbell KR, Lun AT, Wills QF。Scater: R. Bioinformatics中单细胞RNA-seq数据的预处理、质量控制、标准化和可视化。2017;33(8):1179-86。GydF4y2Bahttps://doi.org/10.1093/bioinformatics/btw777GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  36. 36。GydF4y2Ba

    王志强,王志强,王志强,等。基因集富集分析:一种解释全基因组表达谱的基于知识的方法。中国科学院院刊2005;102(43):15545-50。GydF4y2Bahttps://doi.org/10.1073/pnas.0506580102GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  37. 37。GydF4y2Ba

    程超,法布里齐奥P,葛洪,魏明,龙戈VD,李利明。在长寿酵母株中有显著和系统的表达分化。PLoS ONE。2007; 2 (10): e1095。GydF4y2Bahttps://doi.org/10.1371/journal.pone.0001095GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  38. 38。GydF4y2Ba

    李利民,刘旭,王磊,等。小鼠多组织表达谱的新双特征分析揭示了2型糖尿病的新观点。Sci众议员2017;7(1):5044。GydF4y2Bahttps://doi.org/10.1038/s41598-017-05405-xGydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2BaPubMed.GydF4y2Ba公共医学中心GydF4y2Ba谷歌学者GydF4y2Ba

  39. 39。GydF4y2Ba

    程C,Yan X,Sun F,Li LM。通过与分类表达谱结合结合的结合关联推断转录因子的活性变化。BMC生物素。2007; 8:452。GydF4y2Bahttps://doi.org/10.1186/1471-2105-8-452GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  40. 40.GydF4y2Ba

    冯y,张某,li l,li lm。由基序频率限定的顺式反式结合强度有助于转录调节的统计学推理。BMC生物素。2019; 20(4号):201。GydF4y2Bahttps://doi.org/10.1186/s12859-019-2732-6GydF4y2Ba.GydF4y2Ba

    CAS.GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  41. 41.GydF4y2Ba

    卢梭PJ,勒罗伊AM。稳健回归和离群值检测。纽约:威利;1987.GydF4y2Ba

    书GydF4y2Ba谷歌学者GydF4y2Ba

  42. 42.GydF4y2Ba

    李LM。一种计算简单线性回归与约束的精确度修整方块的算法。计算统计数据肛门。2005; 48(4):717-34。GydF4y2Bahttps://doi.org/10.1016/j.csda.2004.04.003GydF4y2Ba.GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

下载参考GydF4y2Ba

确认GydF4y2Ba

感谢李梁博士对稿件的校对。GydF4y2Ba

资金GydF4y2Ba

本工作得到了中国国家自然科学基金的支持(Grant No.11871462,91530105,91130008),国家数学和CAS跨学科科学中心,以及CAS的系统和控制重点实验室,战略优先权中国科学院研究计划(XDB13040600授予,中国国家重点研发计划(授予2017YFC0908400)。资助机构在研究和收集,分析和解释方面没有发挥任何作用以及撰写稿件。GydF4y2Ba

作者信息GydF4y2Ba

从属关系GydF4y2Ba

作者GydF4y2Ba

贡献GydF4y2Ba

YF和LML促进了方法的发展;YF写了代码,进行了计算并准备了数字;yf和lml写了稿件。所有作者阅读并认可的终稿。GydF4y2Ba

相应的作者GydF4y2Ba

对应于GydF4y2Ba林雷GydF4y2Ba.GydF4y2Ba

伦理宣言GydF4y2Ba

伦理批准和同意参与GydF4y2Ba

不适用。GydF4y2Ba

同意出版物GydF4y2Ba

不适用。GydF4y2Ba

利益争夺GydF4y2Ba

提交人声明他们没有竞争利益。GydF4y2Ba

附加信息GydF4y2Ba

出版商的注意GydF4y2Ba

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。GydF4y2Ba

补充信息GydF4y2Ba

附加文件1GydF4y2Ba

.supplaryary_file.pdf。GydF4y2Ba

权利和权限GydF4y2Ba

开放访问GydF4y2Ba本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问GydF4y2Bahttp://creativecommons.org/licenses/by/4.0/GydF4y2Ba.创作共用公共领域贡献获豁免(GydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/GydF4y2Ba)适用于本文中提供的数据,除非另有用入数据的信用额度。GydF4y2Ba

重印和权限GydF4y2Ba

关于这篇文章GydF4y2Ba

通过CrossMark验证货币和真实性GydF4y2Ba

引用这篇文章GydF4y2Ba

冯勇,李丽敏,穆仁:RNA-seq转录的一种多参考方法。GydF4y2Ba欧宝娱乐合法吗22,GydF4y2Ba386(2021)。https://doi.org/10.1186/s12859-021-04288-0GydF4y2Ba

下载引用GydF4y2Ba

关键词GydF4y2Ba

  • RNA-SEQ.GydF4y2Ba
  • 归一化GydF4y2Ba
  • 不对称调控转录谱(ART)GydF4y2Ba
  • 歪斜GydF4y2Ba
  • 模式GydF4y2Ba
  • 多参考GydF4y2Ba