跳转到主要内容gydF4y2Ba

RNA-seq数据差异表达分析方法的比较gydF4y2Ba

抽象的gydF4y2Ba

背景gydF4y2Ba

在条件下差异表达的基因是理解表型变异的分子基础的组成部分。在过去的几十年中,已广泛使用DNA微阵列以量化对应于不同基因的mRNA的丰度,并且CDNA(RNA-SEQ)的最近高通量测序已成为强大的竞争对手。随着测序成本降低,可以想到,使用RNA-SEQ进行差异表达分析将迅速增加。为了利用这种相对较新的数据所带来的挑战,已经开发了许多软件包,特别是对于RNA-SEQ数据的差异表达分析。gydF4y2Ba

结果gydF4y2Ba

我们对RNA-SEQ数据的差异表达分析进行了广泛的比较。所有方法都在R框架内自由可用,并作为输入的矩阵,即读取对许多样本中的每一个的每个基因组特征的读取映射的数量。我们根据模拟数据和真实RNA-SEQ数据评估方法。gydF4y2Ba

结论gydF4y2Ba

在RNA-seq实验中,样本量仍然非常小,这给所有评估方法带来了问题,在这种条件下获得的任何结果都应该谨慎解释。对于更大的样本量,将方差稳定变换与“极限”方法相结合用于差分表达分析的方法在许多不同条件下表现良好,非参数SAMseq方法也是如此。gydF4y2Ba

背景gydF4y2Ba

转录组分析是表征和理解包括疾病在内的生物学表型变异的分子基础的重要工具。在过去的几十年里,微阵列是此类分析中最重要和最广泛使用的方法,但最近cDNA (RNA-seq)的高通量测序已经成为一种强有力的替代方法[gydF4y2Ba1gydF4y2Ba,并已发现了许多应用[gydF4y2Ba2gydF4y2Ba]。RNA-SEQ使用下一代测序(NGS)方法来序列,其衍生自RNA样品的cDNA,因此产生数百万的短读数。然后通常将这些读取映射到参考基因组,并且在感兴趣的基因组特征(例如基因或外显子)内的读取映射的数量用作分析样本中特征的丰度的量度[gydF4y2Ba3.gydF4y2Ba]。gydF4y2Ba

可以说,转录组分析最常用的用途是寻找差异表达(DE)基因,也就是说,那些在不同条件下或以其他方式表现出表达水平差异的基因与给定的预测因子或反应有关。与微阵列相比,RNA-seq在差异表达分析方面有几个优势,比如增加了动态范围和较低的背景水平,以及能够检测和量化先前未知转录本和亚型的表达[gydF4y2Ba3.gydF4y2Ba-gydF4y2Ba5.gydF4y2Ba]。然而,RNA-SEQ数据的分析并非没有困难。其中一些困难是下一代测序程序所固有的。例如,基因组区域之间的核苷酸组合物的变化意味着读取覆盖物可能沿基因组不均匀。此外,更多的读取将映射到更长的基因,而不是缩短具有相同表达水平的基因。在差异表达分析中,在单独测试基因的情况下,为了在条件之间进行表达差异,通常忽略这种“在样本内”偏差,因为他们被认为类似地影响所有样本[gydF4y2Ba3.gydF4y2Ba]。gydF4y2Ba

可以看到其他类型的非均匀性gydF4y2Ba之间的gydF4y2Barna测序实验中的样本。首先,gydF4y2Ba测序深度gydF4y2Ba或者gydF4y2Ba库的大小gydF4y2Ba(映射读数的总数通常不同,对于不同的样本,这意味着观察到的计数在样品之间不可比较。实际上,即使在没有任何真正的差异表达的情况下,如果一个样本被测序到另一个样品的两倍,我们预计与第二个样品相比,第一样品中的所有基因都会获得两倍,我们不想混淆具有真正差异表达的效果。接近不同库尺寸的最直接的方式是简单地重新归类或重新采样读取计数以获得所有样本的等于库尺寸。然而,这种归一化通常不够。原因是,即使图书馆大小实际上是相同的,RNA-SEQ Compicate也固有地表示gydF4y2Ba相对的gydF4y2Ba基因的丰度。在实验中,少数高表达基因可能贡献了很大一部分测序reads,只留下少数reads分布在剩余的基因中[gydF4y2Ba6.gydF4y2Ba]。一些高表达基因的存在因此压制所有其他基因的数量,和样品相比读更均匀地分布,后者的基因,也许不正确,似乎较低的表达从而导致很多被错误地称为差异表达的基因。为了解决这一困难,并试图使计数在样本之间具有可比性,已经提出了更复杂的归一化方案[gydF4y2Ba6.gydF4y2Ba-gydF4y2Ba8.gydF4y2Ba]。除了库的大小,这些过程还包括对特定样本的估计gydF4y2Ba归一化因子gydF4y2Ba用于重新调整观察到的计数。使用这些归一化方法,因此,样本之间的所有基因上的归一化计数的总和(如果仅使用库尺寸为标准化,则归一点之间不一定是相等的,但是目标是使归一化计数的非 -样品之间的差异表达基因类似。在这项研究中,我们使用TMM归一化(M-Values的修剪平均值[gydF4y2Ba8.gydF4y2Ba])和DESEQ包中提供的标准化[gydF4y2Ba7.gydF4y2Ba]。最近对七种不同的归一化方法进行了综合评价[gydF4y2Ba9.gydF4y2Ba],其中显示这两种方法类似地执行,并且它们也是在该评估中使用的所有度量提供令人满意的结果的唯一一个。尽管如此,重要的是要记住,即使这些方法也基于假设大多数基因在样品中等效地表达,并且差异表达的基因在上调和下调之间或多或少地分别划分[gydF4y2Ba9.gydF4y2Ba]。gydF4y2Ba

微阵列用于差异表达分析已经有十多年的历史了,而且有一些成熟的方法可以用于这一目的(例如limma [gydF4y2Ba10.gydF4y2Ba])。这些方法不能立即用于RNA-seq数据的分析[gydF4y2Ba11.gydF4y2Ba,因为这些数据与微阵列获得的数据有些不同。微阵列记录的强度被视为连续测量,通常假定遵循对数正态分布,而RNA-seq实验的计数是非负整数,因此本质上遵循离散分布。在明确提出的用于此类计数数据差分表达式分析的方法中,泊松分布和负二项(NB)分布是两个最常用的模型[gydF4y2Ba7.gydF4y2Ba那gydF4y2Ba12gydF4y2Ba-gydF4y2Ba15gydF4y2Ba]。其他分布,如-二项式[gydF4y2Ba16gydF4y2Ba,也被提出。泊松分布具有简单和只有一个参数的优点,但它限制了被建模变量的方差等于均值。负二项分布有两个参数,编码均值和离散度,因此允许建模更一般的均值-方差关系。对于RNA-seq,有人认为泊松分布非常适合技术复制的分析,而生物学复制之间的较高可变性需要包含过分散的分布,如负二项分布[gydF4y2Ba6.gydF4y2Ba那gydF4y2Ba17gydF4y2Ba]。一些软件包代表RNA-SEQ数据,而不是使用整数计数,而是通过转换的数量,例如RPKM(每百万映射读取的每千次读数)[gydF4y2Ba1gydF4y2Ba]或相关的FPKM(每百万百万映射读数的每千碱基碎片)[gydF4y2Ba18gydF4y2Ba]。这种转换的目标是规范化与不同库大小和转录本长度有关的计数,因为具有相同表达式级别的长转录本预期比短转录本获得更多的读取。还可以使用其他标准化策略来处理其他偏差,例如由读取的变量GC内容引起的偏差。在这样的转换之后,结果值不再是整数计数,这意味着它们不应该被插入到基于计数的方法中进行差分表达式分析。在本研究评估的方法中,只有非参数的方法也适用于RPKM值。其他软件,如Cufflinks/Cuffdiff [gydF4y2Ba18gydF4y2Ba[,提供从对齐的读取到差异表达结果的集成分析管道,其中推断基于FPKM值。gydF4y2Ba

RNA-seq数据的差异表达分析领域仍处于起步阶段,新的方法不断出现。到目前为止,对于哪种方法在给定的情况下表现最好,还没有普遍的共识,而且很少有对提出的方法进行广泛的比较。在最近的一篇论文中[gydF4y2Ba19gydF4y2Ba],比较了四种参数方法在不同模拟条件下区分真正差异表达(DE)和真正非DE基因的能力。作者还比较了在真实数据集中不同方法发现的DE基因集合之间的重叠。另一项最近的研究[gydF4y2Ba20.gydF4y2Ba]评估了增加测序深度对检测DE基因能力的影响,并将其与增加样本量的好处进行了对比,发现后者要大得多。在[gydF4y2Ba21gydF4y2Ba,作者提出了一个案例研究gydF4y2Ba酿酒酵母gydF4y2Ba,比较通过彼此RNA-SEQ的几种差异表达分析方法获得的结果以及从微阵列获得的结果,并在不同方法之间报道了一般良好的一致性。gydF4y2Ba

在本文中,我们在不同的实验条件下进行了用于RNA-SEQ数据的差异表达分析的11种方法的比较。在十一种方法中,九个模型直接计数数据,而剩余的两个在应用了微阵列数据的差异表达分析的传统方法之前转换计数。该研究仅限于在R框架内实施和可用的方法[gydF4y2Ba22gydF4y2Ba],并适用于计数矩阵(包含若干个样本中每一个感兴趣的基因或其他基因组特征的计数)。有几种方法可以从原始序列数据中获得这样的矩阵,但是对这些方法的综合评价超出了本研究的范围。我们进一步专注于寻找仅在两种情况下表达差异的基因,因为这可以说是最常见的应用。此外,它得到了所有评估方法的支持,尽管大多数方法也允许更复杂的实验设计(参见材料和方法部分)。gydF4y2Ba

结果和讨论gydF4y2Ba

本研究评价了11种RNA-seq数据差异表达分析的方法。其中9个直接处理计数数据:DESeq [gydF4y2Ba7.gydF4y2Ba),磨边机(gydF4y2Ba23gydF4y2Ba],nbpseq [gydF4y2Ba15gydF4y2Ba],tspm [gydF4y2Ba13gydF4y2Ba贝凯[gydF4y2Ba14gydF4y2Ba], EBSeq [gydF4y2Ba24gydF4y2Ba],噪音[gydF4y2Ba25gydF4y2Ba],samseq [gydF4y2Ba26gydF4y2Ba]和Shrinkseq [gydF4y2Ba27gydF4y2Ba]。其余的两个与利马的数据转换相结合[gydF4y2Ba10.gydF4y2Ba,我们将它们称为voom(+limma) [gydF4y2Ba10.gydF4y2Ba]和vst(+ limma)[gydF4y2Ba7.gydF4y2Ba那gydF4y2Ba10.gydF4y2Ba]。这些方法的更详细描述可以在材料和方法部分和相应的原始出版物中找到。gydF4y2Ba

这些方法主要基于合成数据进行评估,我们可以控制每个基因的设置和真实差异表达状态。关于不同的模拟研究的细节可以在材料和方法部分找到。作为基线(模拟研究缩写为gydF4y2BaB.gydF4y2Ba’),我们使用负二项分布模拟所有计数,并根据真实数据估计均值和离散度参数。在这些模拟中,假设两种情况下的色散是相同的。注意,这并不意味着两种情况下的方差是相同的,因为方差也取决于平均值。我们还评估了针对输入数据分布变化的方法的稳健性,取而代之的是对某些基因的计数施加泊松分布(模拟研究表示:gydF4y2BaPgydF4y2Ba'),或者包括异常高计数的异常值(模拟研究表示为'gydF4y2Ba年代gydF4y2Ba' 和 'gydF4y2BaRgydF4y2Ba”)。异常值是通过两种不同的方式引入的。对于“单一”异常仿真研究(表示'gydF4y2Ba年代gydF4y2Ba’),我们选择了10%的基因,然后为每一个基因选择一个单独的样本,我们将观察到的计数乘以一个在5到10之间随机生成的因子。对于“随机”离群值模拟研究(表示为gydF4y2BaRgydF4y2Ba'),我们认为每个观察到的计数独立,并且概率0.05我们将其乘以5到10之间的随机产生的因子。gydF4y2Ba

每个模拟数据集的基因总数为12,500个,差异表达(DE)基因数分别设为0、1,250或4,000个。我们还改变了DE基因的组成,即不同条件下DE基因的上调和下调的比例。最后,我们评估了不同样本量的影响,从2个到5个或10个样本每个条件。选择这些样本量是为了反映广泛的实验设置。然而,由于目前大多数RNA-seq实验的样本量都比较小,实验设计的选择往往是在每个条件下选择两到三个样本,我们也做了一些每个条件下选择3个样本的比较。这些对比,与结果从2个和5个样本每个条件,在补充材料(附加文件gydF4y2Ba1gydF4y2Ba)。在补充材料中,我们还对两种情况下的数据集的色散参数不同给出了一些结果。gydF4y2Ba

除了模拟数据外,我们还对三种真实RNA-seq数据集进行了基于性能的比较。其中一个数据集的结果显示在主要文章中,其余两个在补充材料中讨论(附加文件gydF4y2Ba1gydF4y2Ba)。gydF4y2Ba

利用合成数据,我们研究了不同实验条件下的以下方法:gydF4y2Ba

  • 能够在非de基因上排名真正的基因。这是根据接收器操作特征(ROC)曲线(AUC)(AUC)的区域来评估,以及根据错误的发现曲线,描绘根据根据证据排序的基因列表时遇到的错误检测的数量用于差异表达。gydF4y2Ba

  • 控制I类错误率和错误发现率的能力。这是通过计算在给定显著性水平下被称为差异表达的基因中分别观察到的I型错误和真假发现率来评估的。gydF4y2Ba

  • 运行差异表达分析的计算时间要求。这些结果在补充材料中给出(附加文件gydF4y2Ba1gydF4y2Ba)。gydF4y2Ba

对于真正的RNA-seq数据,我们通过不同的方法比较了被称为DE的基因集合,包括它们的个体基数和它们的重叠。我们还研究了不同方法得到的基因排序的一致性。gydF4y2Ba

DE基因与非DE基因的区别gydF4y2Ba

我们首先评估了11所考虑的方法在多大程度上能够区分真正的De基因和真正的非德卫生。我们计算了每种基因和每种方法的分数,这使我们能够按照两个条件之间的显着性或差异表达的意义或证据来对基因进行排序。对于提供标称p值的六种方法(Edger,Deseq,NBPSeq,TSPM,VOOM + LIMMA,VST + LIMMA),我们将得分定义为1 -gydF4y2BapgydF4y2Ba笔名gydF4y2Ba。对于SAMseq,我们使用平均Wilcoxon统计量的绝对值作为排名分数,对于baySeq, EBSeq和ShrinkSeq,我们使用估计的差异表达后验概率,或者,就排名而言,等价地,1 - BFDR,其中BFDR表示估计的贝叶斯错误发现率[gydF4y2Ba28gydF4y2Ba](有关不同方法的更多信息,请参阅材料和方法)。对于NOISeq,我们使用了统计量gydF4y2Ba问gydF4y2BaNOISeqgydF4y2Ba(见材料与方法)。所有这些分数都是双面的,即不受两种条件之间差异表达方向的影响。因此,我们可以选择将所有分数超过阈值的基因称为DE,而将分数低于阈值的基因称为non-DE。考虑到基因模拟德为真阳性组和其余的基因为真阴性组,我们计算了假阳性率和所有可能的真阳性分数阈值和建造了一个民国(接受者操作特征)曲线为每个方法。ROC曲线下面积(AUC)被用来衡量一种方法的整体鉴别性能,即,将真正DE基因排在真正非DE基因之前的整体能力。gydF4y2Ba

在基线条件下,当仅模拟10%的基因是DE(仿真研究gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 1250gydF4y2Ba 和gydF4y2Ba B.gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba ), DE基因的组成(上调或下调)对大多数方法的基因排序精度影响较小(比较图)gydF4y2Ba1gydF4y2Ba一个和gydF4y2Ba1gydF4y2Bab)。当近三分之一的基因是de(模拟研究gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 4000gydF4y2Ba 和gydF4y2Ba B.gydF4y2Ba 2000年gydF4y2Ba 2000年gydF4y2Ba ),该组组合物的作用变得更加戏剧性。现在,当所有DE基因上调在S中都有时,所有方法的表现都相当差gydF4y2Ba2gydF4y2Ba年代相比gydF4y2Ba1gydF4y2Ba与一些基因上调和一些基因下调相比(比较图)gydF4y2Ba1gydF4y2BaC和gydF4y2Ba1gydF4y2BaD).对这种效应的一种可能的解释是,设计用来解释这种类型的变化计数分布的归一化因子,不能充分估计这种效应,这导致了许多假阳性结果,与真阳性混合。值得注意的是,SAMseq使用重采样策略来均衡库的大小,因此隐式地假设所有归一化因子都相等,它在模拟研究中表现得最好gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 4000gydF4y2Ba ,在条件下,所有4,000 de基因都上调gydF4y2Ba2gydF4y2Ba与条件S相比gydF4y2Ba1gydF4y2Ba(图gydF4y2Ba1gydF4y2BaC)。gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

ROC曲线下的区域(AUC)。gydF4y2Ba在仿真研究中,在ROC曲线(AUC)下的区域,在仿真研究中gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 1250gydF4y2Ba (控制板gydF4y2Ba一种gydF4y2Ba),gydF4y2Ba B.gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba (控制板gydF4y2BaB.gydF4y2Ba),gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 4000gydF4y2Ba (控制板gydF4y2BaCgydF4y2Ba),gydF4y2Ba B.gydF4y2Ba 2000年gydF4y2Ba 2000年gydF4y2Ba (控制板gydF4y2BaD.gydF4y2Ba),gydF4y2Ba 年代gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba (控制板gydF4y2BaE.gydF4y2Ba),gydF4y2Ba RgydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba (控制板gydF4y2BaFgydF4y2Ba)。箱线图总结了每个模拟研究的10个独立模拟实例获得的auc。每个面板显示三个样本大小(|SgydF4y2Ba1gydF4y2Ba| = |年代gydF4y2Ba2gydF4y2Ba| = 2、5、10,用勾号的最后一个数字表示)。这些方法根据最大样本量的中位数AUC进行排序。当所有DE基因向同一方向调控时,增加DE基因数量从1250个(面板gydF4y2Ba一种gydF4y2Ba)至4,000(面板gydF4y2BaCgydF4y2Ba)损害了所有方法的表现。相反,当de基因在不同方向上调节(面板)时gydF4y2BaB.gydF4y2Ba和gydF4y2BaD.gydF4y2Ba),DE基因的数量较小。当所有基因在相同方向(面板)调节所有基因时,Bayseq的性能的变化要高得多gydF4y2Ba一种gydF4y2Ba和gydF4y2BaCgydF4y2Ba)与DE基因在不同方向上调节时(面板gydF4y2BaB.gydF4y2Ba和gydF4y2BaD.gydF4y2Ba)。包括异常值(面板gydF4y2BaE.gydF4y2Ba和gydF4y2BaFgydF4y2Ba)对大多数方法减少AUC(与面板相比gydF4y2BaB.gydF4y2Ba)但是对于基于转换的方法(变性+ Limma和Vst + Limma)和Samseq而言,较少。gydF4y2Ba

对于最大的样本量(每种情况下5或10个样本),以及同时存在上调和下调基因时,所有方法在AUC方面的表现都相似。所有方法在大样本情况下表现更好。TSPM和EBSeq方法的样本量依赖性最强,SAMseq和baySeq次之。对于最小样本(每个条件2个样本),DESeq、edgeR、NBPSeq、voom+limma和vst+limma的结果一般较好。gydF4y2Ba

当所有DE基因在S条件下均上调时gydF4y2Ba2gydF4y2Ba与条件S相比gydF4y2Ba1gydF4y2Ba(数字gydF4y2Ba1gydF4y2Ba一个和gydF4y2Ba1gydF4y2Bac),我们在Bayseq获得的结果中看到了高度的变化。当de基因在不同方向上调节(图)时,这种变异性降低了(图gydF4y2Ba1gydF4y2Ba乐队gydF4y2Ba1gydF4y2BaD)。gydF4y2Ba

我们选择在模拟研究的设置下评价引入非过分散基因或异常值的效果gydF4y2Ba B.gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba (图gydF4y2Ba1gydF4y2Bab)。当泊松分布后的基因分数从0升至50%(模拟研究gydF4y2Ba PgydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba )的AUC增加,特别是对于最小的样本大小(附加文件gydF4y2Ba1gydF4y2Ba:图S17,与图相比gydF4y2Ba1gydF4y2BaB).异常高计数的离群值对所有方法的AUC都有轻微的降低,但基于转换的方法(vst+limma和vom +limma)和SAMseq的AUC比其他方法的要小(图)gydF4y2Ba1gydF4y2Bae和gydF4y2Ba1gydF4y2BaF)。gydF4y2Ba

虽然AUC提供了对真正DE基因先于真正非DE基因排序能力的整体衡量,但它并不能立即告诉我们偏离完美区分的主要原因是假阳性还是假阴性。因此我们也构建了虚假发现曲线,描述了随着总发现数的增加(即改变排名分数的显著性阈值)所遇到的虚假发现数。数字gydF4y2Ba2gydF4y2Ba显示了在图中考虑的相同模拟研究的代表性假发现曲线gydF4y2Ba1gydF4y2Ba,每个条件有5个样品。在补充材料中(附加文件gydF4y2Ba1gydF4y2Ba)我们分别显示每个条件的2和10个样本的相应曲线(附加文件gydF4y2Ba1gydF4y2Ba:数字S18-S19)。鉴于我们最感兴趣的是显示差异表达最强证据的基因,我们将分析局限于每种方法的1,500个排名基因。我们指出,虽然NBPSeq是在整体排名方面的最佳方法(最高AUC,见图gydF4y2Ba1gydF4y2Ba),但在许多模拟设置下,在排名最高的基因中存在错误发现的问题。事实上,尽管在排名靠前的1500个基因中错误发现的总数与许多其他方法相同,但经常有一些错误发现在NBPSeq中排名非常靠前。TSPM和NOISeq也倾向于将一些真正的非de基因排在最前面。仿真研究gydF4y2Ba PgydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba ,根据泊松分布产生一半的基因,TSPM的性能得到改善,在顶部附近排名更少的非DE基因(附加文件gydF4y2Ba1gydF4y2Ba:图S17)。总之,通过基于转换的方法(变焦+利马和VST + Limma)和Shrinkseq获得最佳性能。Samseq也表现良好,但许多基因的相同(顶部)得分,都是真正的de和真正的非德。gydF4y2Ba

图2gydF4y2Ba
figure2gydF4y2Ba

假发现曲线。gydF4y2Ba代表性的假发现曲线,描绘了通过11个评估方法在T次级排名基因中遇到的误报的数量,对于0至1,500之间。在所有情况下,每个条件有5个样品。gydF4y2Ba一种gydF4y2Ba:仿真研究gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 1250gydF4y2Ba 。gydF4y2BaB.gydF4y2Ba:仿真研究gydF4y2Ba B.gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba 。gydF4y2BaCgydF4y2Ba:仿真研究gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 4000gydF4y2Ba D.gydF4y2Ba:仿真研究gydF4y2Ba B.gydF4y2Ba 2000年gydF4y2Ba 2000年gydF4y2Ba 。gydF4y2BaE.gydF4y2Ba:仿真研究gydF4y2Ba 年代gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba FgydF4y2Ba:仿真研究gydF4y2Ba RgydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba 。一些曲线不会通过原点,因为许多基因获得了相同的排名分数并且必须同时调用。gydF4y2Ba

更大的样本尺寸导致较小的基因中发现的误报相当较少(比较数字gydF4y2Ba2gydF4y2Ba到其他文件gydF4y2Ba1gydF4y2Ba:数字S18和S19)。实际上,通过比较附加文件来看gydF4y2Ba1gydF4y2Ba:图S18附加文件gydF4y2Ba1gydF4y2Ba:图S10(b)和11(b),已经增加了每条条件的样品数量为2〜3提供了有形的改进。gydF4y2Ba

第一类错误率控制gydF4y2Ba

接下来,我们评估了6种返回名义p值的方法(edgeR, DESeq, NBPSeq, TSPM, voom+limma和vst+limma),在没有任何真正DE基因的情况下,它们将I型错误控制在预先规定的水平上的能力。在基线条件下(模拟研究gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba ),并使用0.05的名义p值截断值,所有六种方法都表现得相当好,在许多情况下,约5%的基因差异表达(图)gydF4y2Ba3.gydF4y2Ba一种)。NBPSeq和TSPM发现误报的数量最多,Deseq是六种方法中最保守的。这与前一项研究中的结果相协调一致[gydF4y2Ba19gydF4y2Ba],比较了edgeR、DESeq和NBPSeq的I型错误率控制。对样本量依赖性最强的是TSPM,它在最小样本量(每个条件两个样本量)时表现不佳,但在较大样本量时与其他方法相同。edgeR和DESeq的类型错误率也随着样本量的增加而略有下降,而基于转换的方法和NBPSeq的性能受样本量的影响较小。gydF4y2Ba

图3gydF4y2Ba
图3gydF4y2Ba

类型I的错误率。gydF4y2BaI型错误率,用于提供标称p值的六种方法,在仿真研究中gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba (控制板gydF4y2Ba一种gydF4y2Ba),gydF4y2Ba PgydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba (控制板gydF4y2BaB.gydF4y2Ba),gydF4y2Ba 年代gydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba (控制板gydF4y2BaCgydF4y2Ba),gydF4y2Ba RgydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba (控制板gydF4y2BaD.gydF4y2Ba)。让一些计数遵循泊松分布(面板gydF4y2BaB.gydF4y2Ba)略微减少了TSPM的I型错误率,但整体效果。包括异常高计数的异常值(面板gydF4y2BaCgydF4y2Ba和gydF4y2BaD.gydF4y2Ba)对控制Edger和NBPSeq的I误差的能力有不利影响,而Deseq变得稍微保守。gydF4y2Ba

当我们让一半的基因计数为泊松分布(模拟研究)时,结果大致相同gydF4y2Ba PgydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba ,图gydF4y2Ba3.gydF4y2BaB),但对于最小的样本量,我们注意到TSPM的第一类错误率减少,而基于转换的方法和NBPSeq的第一类错误率增加。引入“单一”离群值(模拟研究gydF4y2Ba 年代gydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba )对三种方法的I误差有相当大的影响,这些方法是使用负二项式分布(编辑,DESEQ和NBPSEQ)明确地建模计数。在这些条件下,NBPSeq和Edger的I型错误率大幅增加,而Deseq则变得更加保守(图gydF4y2Ba3.gydF4y2BaC)。基于转换的方法的I型错误率和TSPM的影响较小,但趋于减少而不是在引入异常值后增加。当我们介绍“随机”异常值时,注意到类似的效果,但更明显的是(模拟研究gydF4y2Ba RgydF4y2Ba 0.gydF4y2Ba 0.gydF4y2Ba ) 数字gydF4y2Ba3.gydF4y2Bad,有关不同类型的异常值更广泛的解释,请参阅材料和方法部分)。如果通过将计数除以5到10之间的随机因子(而不是乘以该因素而不是乘以这个因素)来引入这些异常值,则结果与基线研究(没有异常值)的结果相似,除了略微减少NBPSeq和Edger的I型错误率(数据未显示)。在附加文件中gydF4y2Ba1gydF4y2Ba(附加文件gydF4y2Ba1gydF4y2Ba:图S20和S21),我们在不同的仿真设置下显示了代表性的p值分布。在这些图中,我们注意到即使当所有空假设为真时,P值并不总是均匀分布。具体地,一些方法(编辑,DESEQ和NBPSEQ)表现出过量的大p值。这也在先前的研究中观察到,并且已归因于基于离散概率分布的精确测试[gydF4y2Ba20.gydF4y2Ba]。由于映射到不同基因的读取总数是非常不同的,因此p值的空分布将是大量不同离散分布的混合[gydF4y2Ba29gydF4y2Ba]。gydF4y2Ba

控制虚假发现率gydF4y2Ba

接下来,我们检查了对调整后的P值(或FDR阈值)的显着性阈值是否确实控制了所需级别的错误发现率。我们将FDR阈值置于0.05,并计算出真正的假发现率,因为在这种水平上称为重要的基因的分数,这确实是错误的发现。由于噪音不返回建议用作调整后的P值或FDR估计的统计信息,因此它被排除在此评估之外。对于Bayseq,Ebseq和Shrinkseq,我们强加了贝叶斯FDR的所需阈值[gydF4y2Ba28gydF4y2Ba]。gydF4y2Ba

如上所述,当仅10%的基因是de时,其调节的方向对错误发现率影响不大(模拟研究gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 1250gydF4y2Ba 和gydF4y2Ba B.gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba ,比较数据gydF4y2Ba4.gydF4y2Ba一个和gydF4y2Ba4.gydF4y2BaB).两种设置之间的主要差异体现在ShrinkSeq,当所有基因向同一方向调控时,其FDR对照更差。通过为定义空模型的折叠更改阈值设置非零值,可以降低ShrinkSeq的高错误发现率。当DE基因中同时存在上调和下调基因时,baySeq表现的变异性也显著降低。对于最大的样本量(每组10个样本量),ShrinkSeq, NBPSeq, EBSeq, edgeR和TSPM经常发现太多的假阳性。其余的方法基本上能够在这些条件下将错误发现率控制在期望的水平。NBPSeq高错误发现率的一个可能解释是,许多基因的分散参数以及方差都被低估了,这意味着这些基因的重要性被高估了。当样本量减少时,除ShrinkSeq方法外,其他方法在FDR控制方面的表现都明显较差,在每组只有2个样本的情况下,所有方法都没有将真假发现率控制在期望的水平。TSPM受样本量减少影响最大,FDR增加,这与之前的观察一致[gydF4y2Ba19gydF4y2Ba]。每种情况下只有2个样本,既不是Samseq也不是三种基于转换的方法,称为任何基因。对于上述错误的发现曲线,对于许多方法,特别是DESEQ和Bayseq的许多方法,样本大小的增加改善了FDR,并且基于转化的方法能够找到差异表达的基因(具有合理低的FDR)每个条件具有3个样本(附加文件gydF4y2Ba1gydF4y2Ba:图S10(c)和S11(c))。gydF4y2Ba

图4gydF4y2Ba
装具gydF4y2Ba

真假发现率。gydF4y2Ba在模拟研究中,对于返回调整后的p值或FDR估计的9种方法,对施加的FDR阈值为0.05观察到的真假发现率(FDR)gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 1250gydF4y2Ba (控制板gydF4y2Ba一种gydF4y2Ba),gydF4y2Ba B.gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba (控制板gydF4y2BaB.gydF4y2Ba),gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 4000gydF4y2Ba (控制板gydF4y2BaCgydF4y2Ba)gydF4y2Ba B.gydF4y2Ba 2000年gydF4y2Ba 2000年gydF4y2Ba , (控制板gydF4y2BaD.gydF4y2Ba),gydF4y2Ba 年代gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba (控制板gydF4y2BaE.gydF4y2Ba),gydF4y2Ba RgydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba (控制板gydF4y2BaFgydF4y2Ba)。只有两个样本的每个条件,三种方法(VST + Limma,Voom + Limma和Samseq)没有呼叫任何de基因,并且FDR被认为是未定义的。gydF4y2Ba

当DE基因在不同方向上调节时,将DE基因的数量从1,250增加到4,000增加,改善了控制FDR的能力(模拟研究gydF4y2Ba B.gydF4y2Ba 2000年gydF4y2Ba 2000年gydF4y2Ba 数字gydF4y2Ba4.gydF4y2BaD,与图比较gydF4y2Ba4.gydF4y2Bab)。相反,当所有DE基因在相同方向上调节时,增加DE基因的数量损害了控制FDR的能力,特别是对于最大的样本尺寸(模拟研究gydF4y2Ba B.gydF4y2Ba 0.gydF4y2Ba 4000gydF4y2Ba ,图gydF4y2Ba4.gydF4y2BaC,与图比较gydF4y2Ba4.gydF4y2Ba一种)。介绍了具有极高计数的异常值(模拟研究gydF4y2Ba 年代gydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba 和gydF4y2Ba RgydF4y2Ba 625gydF4y2Ba 625gydF4y2Ba 基于负二项分布的baySeq、NBPSeq和edgeR的fdr显著增加。在这些条件下,基于转换的方法对FDR的影响和控制也较小(图)gydF4y2Ba4.gydF4y2Bae和gydF4y2Ba4.gydF4y2Ba此外,SAMseq和TSPM的fdr在很大程度上不受异常值的影响。gydF4y2Ba

在实际情况中,我们不仅对保持较低的错误发现率感兴趣,而且还希望能够找到真正的阳性结果。因此,我们也计算了在FDR阈值为0.05时被称为显著的基因中真正的阳性率(被发现显著的真正DE基因的部分)。一般来说,DESeq和baySeq倾向于给出最低的真阳性数(附加文件gydF4y2Ba1gydF4y2Ba:图S22)。这应该根据图来查看gydF4y2Ba4.gydF4y2Ba在那里表明这些方法通常也给出了低分数的错误发现。另外两种方法,基于NB模型,Edger和NBPSeq以及我们使用零充气的NB模型的Shrinkseq,返回更真实的阳性,但价格较高的假冒发现率。非参数SAMSEQ方法在所有仿真设置中都提供了高的真实阳性率,似乎没有伴随的高假发现率。然而,对于最小的样本尺寸,这种方法没有发现任何显着差异表达的基因,由于其非参数性质和对样品置换的依赖性并不令人惊讶。EBSEQ的真正阳性率大大不受样品大小的影响,但由于样本尺寸增加,假发现率下降。gydF4y2Ba

正如预期的那样,增加两个条件之间的表达差异(gydF4y2BawgydF4y2BaggydF4y2Ba(见材料与方法)提高了检测真实DE基因的能力,降低了观察到的错误发现率,所有方法的结果一致(数据未显示)。当两种情况下的分散度不同时,我们观察到大多数方法的FDR增加(附加文件gydF4y2Ba1gydF4y2Ba:图S12(c),与图相比gydF4y2Ba4.gydF4y2Bab)。gydF4y2Ba

来自两种鼠标菌株的真实RNA-SEQ数据gydF4y2Ba

除了合成数据集,我们还分析了21只小鼠的RNA-seq数据集,其中10只为C57BL/6J株,11只为DBA/2J株[gydF4y2Ba30.gydF4y2Ba]。过滤掉21只小鼠的总计数小于10的基因后,数据集包含11,870个基因。我们应用了11种方法来找到在两种小鼠菌株之间显示差异表达的基因。发现在FDR或贝叶斯FDR阈值下的所有基因被认为是显着的。目前尚不清楚如何为噪声问题返回的Q值设置阈值,以与其他方法的FDR估计或调整的P值相当,因此从大多数后续分析中排除了噪音。gydF4y2Ba

首先,我们比较了每种方法发现的DE基因的数量(图gydF4y2Ba5.gydF4y2Ba一种)。通过Shrinkseq发现最多的De基因,而Bayseq相对较少。如图所示gydF4y2Ba5.gydF4y2BaA,TSPM,Edger,NBPSeq和基于两个转换的方法发现大约相同数量的DE基因。接下来,我们研究了不同方法称为de的基因组之间的重叠。数字gydF4y2Ba5.gydF4y2Bab显示了Edger,Deseq,NBPSeq和TSPM发现的DE基因之间的重叠(仅包括四种方法以使VENN图解释为解释)。从这个数字中,我们指出,Deseq发现的DE基因也在很大程度上发现,也可以通过Edger,NBPSeq和TSPM(回想一下,三个后者发现了更多的de基因)。相比之下,Edger,NBPSeq和TSPM都发现了一个相当数量的“独特的”de基因,其未与其他方法共享。数字gydF4y2Ba5.gydF4y2BaC显示了Bayseq,Ebseq和基于两个转换的方法的相应比较。通过变化+雷玛发现的DE基因基本上形成了VST +雷玛发现的略大的DE基因的子集。同样,Bayseq发现的许多DE基因也被EBSEQ发现,EBSEQ发现的DE基因也在很大程度上发现了基于转化的方法。最后,由Samseq和Shrinkseq发现的DE基因含有所有其他方法发现的大部分基因。表格gydF4y2Ba1gydF4y2Ba显示每对方法的差异表达基因的集合之间的重叠。要通过不同的方法表征优先称为de的基因集,我们将DE基因标记为MA样图(附加文件gydF4y2Ba1gydF4y2Ba:图S23)。这些结果显然表明,对于所有方法,对于具有低平均表达的基因需要更高的倍数变化。Bayseq似乎需要比所有表达水平的其他方法更高的折叠变化,并且没有呼叫任何高表达的基因DE。相反,Samseq和Shrinkseq需要呼叫高表达基因DE的较低折叠变化,而低表达基因的阈值与来自其他方法的阈值相似。高表达基因所需的低折叠变化可能潜在地损害来自Samseq和Shrinkseq的一些发现的生物学意义,并且可能包含额外的折叠变化阈值。gydF4y2Ba

图5gydF4y2Ba
figure5gydF4y2Ba

分析底部数据集。一种gydF4y2Ba:在底部数据集中的两只小鼠菌株之间发现的基因数量显着。gydF4y2BacgydF4y2Ba:通过不同方法发现的DE基因集中的重叠。gydF4y2BaD.gydF4y2Ba:对比来自同一品系的两组小鼠,发现的显著DE基因的平均数量,在这种情况下,我们预计没有真正的DE基因。gydF4y2Ba

表1gydF4y2Ba由不同方法用于最底数据集的共享差异表达基因的数量gydF4y2Ba

在附加文件中gydF4y2Ba1gydF4y2Ba:图S24-S28,我们显示了归一计数的计数(使用TMM方法提供的归一化因子标准化[gydF4y2Ba8.gydF4y2Ba[图书馆尺寸在于,所有样品中只能通过单一方法发现的一些基因。DESEQ,Edger,Voom + Limma,Bayseq和Ebseq没有找到任何独特的De基因,因此没有对应这些方法的附图。来自其他文件gydF4y2Ba1gydF4y2Ba:在图S24-S28中,我们注意到,ShrinkSeq和SAMseq所发现的DE基因在某种程度上都倾向于合理的高表达,并且在两种条件下的样本中表达一致,而对于其他许多方法,独特的DE基因显示出高度不一致的计数,即使在条件。vst+limma单独发现的两个基因在所有样本中数量都很低,就像TSPM单独发现的大多数基因一样。gydF4y2Ba

在附加文件中gydF4y2Ba1gydF4y2Ba:图S29我们比较了通过不同方法获得的bottom数据集的基因排名分数(分数的计算方法如前所述,请回忆一下,高分数对应的基因被认为是DE)。从图中可以看出,edgeR、DESeq、vom +limma、vst+limma、TSPM和SAMseq对这些基因的排序趋于相似,而NBPSeq对这些基因的排序不那么相似。baySeq和EBSeq得到的排名与其他排名有很大的不同。gydF4y2Ba

为了进一步评估方法的性能,我们将它们应用于仅由C57BL / 6J应变组成的小鼠组成的数据集,我们在其中定义了每个5个样本的两个任意样本类。分析重复了不同的任意分歧的五倍。在这些条件下,我们预计没有基因是真正的。然而,大多数方法在至少一个例子中发现了差异表达的基因。tspm发现到迄今为止最大的de基因数量(图gydF4y2Ba5.gydF4y2Bad)支持我们之前观察到这种方法可能太自由。通过研究五个情况下称为DE的基因,我们注意到通过NBPSEQ发现的DE基因经常与DE基因重叠,而TSPM仅少量的DE基因与其他方法发现的那些。EBSEQ还倾向于呼叫独特的基因,任何其他方法都没有找到。不同方法发现的de基因之间缺乏共识可能是进一步的指示,它们确实是假的阳性,而不同的方法倾向于有利于不同类型的模式。gydF4y2Ba

结论gydF4y2Ba

在本文中,我们评估和比较了11种方法的差异表达分析RNA-seq数据。表格gydF4y2Ba2gydF4y2Ba总结了主要的调查结果和观察。在这里评估的那些中没有单一方法是在所有情况下最佳的,因此在特定情况下选择的方法取决于实验条件。一种mong the methods evaluated in this paper, those based on a variance-stabilizing transformation combined with limma (i.e., voom+limma and vst+limma) performed well under many conditions, were relatively unaffected by outliers and were computationally fast, but they required at least 3 samples per condition to have sufficient power to detect any differentially expressed genes. As shown in the supplementary material (Additional file1gydF4y2Ba),当两种情况的离散度不同时,他们的表现也更差。非参数SAMseq是大样本数据集表现最好的方法之一,每个条件至少需要4-5个样本,才能有足够的能力找到DE基因。对于高表达基因,SAMseq方法要求的具有统计学显著性的fold change低于其他许多方法,这可能会影响一些具有统计学显著性的DE基因的生物学意义。对于ShrinkSeq来说也是一样的,但是它有一个在推断过程中强制折叠更改需求的选项。gydF4y2Ba

表2gydF4y2Ba主要观察结果的总结gydF4y2Ba

小样本量(每个条件2个样本量)也给确实能够发现差异表达基因的方法带来了问题,导致错误发现率有时大大超过FDR截断所暗示的期望阈值。对于参数方法,这可能是由于在平均和分散参数的估计不准确。在我们的研究中,TSPM作为受样本量影响最大的方法脱颖而出,这可能是由于使用渐近统计。尽管rna测序技术向大样本发展,条形码技术和多路复用技术为以固定成本分析更多的样本创造了机会,但就目前而言,rna测序实验的成本往往过于昂贵,无法进行大规模复制。本研究传递的结果强烈表明,在小样本收集中发现的差异表达基因需要谨慎解释,真正的FDR可能比选择的FDR阈值高几倍。gydF4y2Ba

DESEQ,Edger和NBPSeq基于类似原理,并且在基因排名方面表明,总体上具有相对相似的准确性。然而,由于估计分散参数的不同方式,在预先指定的FDR阈值下,在预先指定的FDR阈值下的显着差分表达基因在这些方法之间变化。借助默认设置和合理的样本大小,Deseq经常过于保守,而Edger和特别是NBPSeq通常过于自由,称为更大数量的假(和真实)的基因。在补充材料中(附加文件gydF4y2Ba1gydF4y2Ba)我们显示不同参数的磨边机和DESeq可以对微分表达式分析的结果产生很大的影响,无论是我错误率的能力控制类型和错误发现率和探测的能力真正的基因。这些结果也表明,推荐的参数(在主要论文中使用)确实是精心选择的,往往提供最好的结果。gydF4y2Ba

EBSEQ,Bayseq和Shrinkseq使用不同的推理方法,并为每个基因估算差异表达的后概率。Bayseq在某些条件下表现良好,但结果是高度变化的,特别是当与另一个条件相比,当所有de基因都上调时。在异常值存在下,EBSEQ发现比Bayseq用于大型样品尺寸的较低的误报,而对于小样本尺寸,相反是如此。gydF4y2Ba

方法gydF4y2Ba

在接下来的章节中,我们将简要概述十一种用于差异表达分析的方法,并在本文中进行评价和比较。更详细的描述,我们参考原始出版物。所有的方法都以一个计数矩阵为起点,该矩阵包含实验中每个样本中每个基因的读取数。其中9种方法直接处理计数数据,其余2种方法转换计数并将转换后的值输入R包limma [gydF4y2Ba10.gydF4y2Ba该技术最初用于微阵列数据的差异表达分析。gydF4y2Ba

直接在计数数据上工作的方法可以广泛地分为参数(Bayseq [gydF4y2Ba14gydF4y2Ba], EBSeq [gydF4y2Ba24gydF4y2Ba],Shrinkseq [gydF4y2Ba27gydF4y2Ba),磨边机(gydF4y2Ba23gydF4y2Ba], DESeq [gydF4y2Ba7.gydF4y2Ba],nbpseq [gydF4y2Ba15gydF4y2Ba]及TSPM [gydF4y2Ba13gydF4y2Ba])和非参数方法(诊断[gydF4y2Ba25gydF4y2Ba]和SAMseq [gydF4y2Ba26gydF4y2Ba])。[中的两级泊松模型(TSPM)提出[gydF4y2Ba13gydF4y2Ba]基于计数的泊松模型,通过准似然方法延伸,如果数据中有足够的证据,则允许过度分散。因此,第一步是为过度分解的证据单独测试每个基因,以确定用于差异表达分析的两个模型中的哪一个。差异表达的测试基于渐近统计,这意味着每个基因的总计数在所有样品中,都不能太小。因此,作者建议从分析中取出总计数小于10的基因。他们还注意到,对于TSPM运行良好,可能重要的是存在没有过度分散的一些基因。gydF4y2Ba

剩下的大多数参数模型(baySeq, DESeq, EBSeq, edgeR和NBPSeq)都使用负二项(NB)模型来解释过度分散,而ShrinkSeq允许用户在许多不同的分布中进行选择,包括NB和零膨胀NB分布。DESeq、edgeR和NBPSeq采用经典的假设检验方法,而baySeq、EBSeq和ShrinkSeq则采用贝叶斯框架进行转换。众所周知,推理过程的一个关键部分是对每个基因的分散参数进行可靠的估计,因此在这个估计上投入了相当大的努力。由于大多数RNA-seq实验的样本容量小,很难可靠地估计基因分散参数,这促使数据集中所有基因之间的信息共享,以获得更准确的估计。DESeq、edgeR和NBPSeq在弥散估计中都包含了信息共享,这种信息共享的方式解释了三种方法之间的主要差异。第一个建议[gydF4y2Ba12gydF4y2Ba]假设所有基因所有基因都具有相同的分散参数。然后可以使用条件最大似然方法从所有可用数据估计这一点。然而,所有基因的共同分散可能是过度限制的假设,因此进一步开发了该方法以允许基因 - 明智的分散估计,但是,使用加权似然方法将单个估计施加普通的估计值[gydF4y2Ba31gydF4y2Ba]。该方法由Edger使用。相比之下,DESEQ和NBPSEQ通过使用参数或本地回归模拟数据集中的基因的观察平均值(或平均色散)关系来获得色散估计。在获得拟合值之后,DESEQ通过将基因的分散定义为从拟合获得的最大值和基因的单独分散估计来定义基因的分散性。NBPSeq不采用与DESEQ相同类型的保守方法,仅使用拟合的色散值。在获得每个基因的平均值和分散参数的估计后,使用精确测试的变体(对于两组比较)或广义的线性模型的变体(允许更复杂的实验),对每个基因的平均值和NBPSeq测试进行显着差异表达设计)。gydF4y2Ba

baySeq和EBSeq使用的方法在基础NB模型方面类似于前面提到的三种方法,但在推理过程方面有所不同。对于baySeq,用户定义一个集合gydF4y2Ba模型gydF4y2Ba,每一个本质上是将样本划分为组,其中,同一组中的样本被假定共享相同的基础分布参数。在经验贝叶斯框架内,baySeq然后估计数据集中每个基因的每个模型的后验概率。利用整个基因集合的信息,对NB模型中的参数形成经验先验分布。EBSeq使用类似的方法,但假设参数的先验分布的参数形式,以及所有基因之间共享的超参数,并从数据中估计。gydF4y2Ba

ShrinkSeq也采用贝叶斯的观点,它支持许多不同的计数模型,包括NB和零膨胀NB。它提供了色散参数的收缩,但也提供了其他参数的收缩,例如对推断感兴趣的回归系数。此外,在对每个特征拟合模型后,还结合了非参数化的先验和后验优化步骤。gydF4y2Ba

这里评估的两种非参数方法noise eq和SAMseq,不假设数据的任何特定分布。SAMseq基于Wilcoxon统计量,对数据的多次重采样取平均值,并使用样本排列策略来估计该统计量的不同截断值的错误发现率。然后用这些估计来定义每个基因的q值。noise eq研究观测数据在两种对比条件下的fold-changes分布和绝对表达式差异,并将这种分布与属于同一条件的成对样本的比较得到的对应分布进行比较(这称为“噪声分布”)。简单地说,NOISeq为每个基因计算一个统计数据(这里表示)gydF4y2Ba问gydF4y2BaNOISeqgydF4y2Ba)定义为来自噪声分布的点的分数,其对应于较低倍数的变化和低于原始数据中感兴趣基因的绝对表达差异。gydF4y2Ba

最后,两种变换的方法(方差稳定转换DESeq提供的包和轰转换从limma R包)的目标是找到一个转换的数,使它们更适合传统的分析方法开发的微分表达式分析微阵列上下文。DESeq R包中提供的方差稳定变换(这里表示为“vst”)明确地通过假设NB分布和使用DESeq得到的分散估计来计算变换。从limma R包的“voom”转换本质上是对数转换归一化计数,并使用转换数据的均值-方差关系来计算基因权重,然后由limma在差分表达分析期间使用基因权重。gydF4y2Ba

在本研究中,我们仅关注两组比较,因为这可以说是实践中最常见的情况。但是,大多数评估方法支持更复杂的实验设计。大多数方法(编辑器,DESEQ,NBPSEQ,TSPM)通过广义线性模型(GLM)框架实现了这一点,其中用户可以指定所需的对比度以测试。Limma封装提供了类似的变换数据的灵活设计选项。贝叶斯方法(Bayseq和Ebseq)允许用户提供定义假设应用相同分配参数的样本集合的模型,并返回所定义的每个模型的后部可能性。Shrinkseq通过Inla方法基于高斯潜模型的一般框架[gydF4y2Ba32gydF4y2Ba],这允许非常灵活的实验设计,包括随机效应。还可以在估计差异表达的后验概率的估计中施加折叠变化阈值。Samseq为各种情况提供非参数测试,例如配对和未配对的两组比较,多群比较和生存分析。噪音,在其当前实现中,只允许两组比较。gydF4y2Ba

参数的选择gydF4y2Ba

在本文中比较的许多方法允许用户选择某些参数的值,这可以以各种方式影响结果。我们主要使用了实现中提供的默认值,但在补充材料中(附加文件gydF4y2Ba1gydF4y2Ba),并对不同参数取值下的性能进行了比较。本节总结了在主论文中用于评估的参数值。有关不同参数含义的更详细信息,请参阅描述各自方法的原始出版物。gydF4y2Ba

对于edgeR,我们使用TMM方法(m值的切边均值[gydF4y2Ba8.gydF4y2Ba])计算样品之间的归一化因子。我们使用了Tagwise色散估计,挤压通过“移动平均”方法计算的趋势估计。我们进行了精确的测试,找到了在两个条件之间差异表达的基因。gydF4y2Ba

对于DESeq,我们计算了每个基因分散参数的集合估计。我们使用局部回归来寻找均值-方差关系,并采用保守的方法选择最大的拟合值和每个基因的个体离散度估计。在这里,我们还使用了精确的测试来发现DE基因。局部回归方法也用于DESeq包提供的方差稳定转换(表示为“vst”)。这里,我们使用了“盲”选项来进行离散度估计。gydF4y2Ba

对于TSPM、baySeq、voom和NBPSeq,我们使用TMM方法计算归一化因子。对于NOISeq,我们使用TMM方法对计数进行归一化,然后将数据输入差分表达式分析。此外,对于NBPSeq,我们使用了负二项分布的“NBP”参数化。对于baySeq,我们假设一个负二项分布,并使用拟似然方法估计先验。我们使用5000个样本容量来估计先验。此外,我们假设两个样本组中的一个基因的离散度相等,并使用“BIC”选项进行先前的重新估计步骤。对于EBSeq,我们使用了默认的‘median’归一化方法,即DESeq提供的归一化方法[gydF4y2Ba7.gydF4y2Ba]。gydF4y2Ba

在应用ShrinkSeq之前,我们使用TMM归一化因子对计数进行归一化。在ShrinkSeq中,我们随后采用了零膨胀负二项分布,并在推理过程中对弥散参数以及感兴趣的回归系数应用了收缩。为了使ShrinkSeq的结果与其他方法的结果相比较,在估计错误发现率时,我们没有强加非零倍变化阈值。gydF4y2Ba

数据集gydF4y2Ba

本文中的大部分评估都是基于合成数据,我们可以控制设置和每个基因的真实差异表达状态。我们从负二项分布中生成每个基因的计数,从真实RNA-seq数据中估计均值和分散参数,遵循相同的方法[gydF4y2Ba20.gydF4y2Ba]。我们指的是补充材料(附加文件gydF4y2Ba1gydF4y2Ba)有关如何估计参数的更详细信息。所有方法都在相同的数据集上运行。gydF4y2Ba

我们让gydF4y2BaGgydF4y2Ba = {ggydF4y2Ba1gydF4y2Ba、……gydF4y2BaggydF4y2Ba|gydF4y2BaGgydF4y2Ba|gydF4y2Ba}表示我们数据集中的基因集合。在合成数据集中,我们取|g |=12,500。同样,我们让gydF4y2Ba年代gydF4y2Ba = {年代gydF4y2Ba1gydF4y2Ba、……gydF4y2Ba年代gydF4y2Ba|gydF4y2Ba年代gydF4y2Ba|gydF4y2Ba表示一组样本,并假设这些被分成两个子集SgydF4y2Ba1gydF4y2Ba和sgydF4y2Ba2gydF4y2Ba。在我们的实验中,我们让|SgydF4y2Ba1gydF4y2Ba| = |年代gydF4y2Ba2gydF4y2Ba|,然后考虑SgydF4y2Ba1gydF4y2Ba为样品的“对照组”,SgydF4y2Ba2gydF4y2Ba作为一组异常表型的样本。我们让gydF4y2Ba GgydF4y2Ba 德gydF4y2Ba 向上gydF4y2Ba ⊆gydF4y2Ba GgydF4y2Ba 表示两种样品组之间差异表达的基因集,在s中上调gydF4y2Ba2gydF4y2Ba。同样的,gydF4y2Ba GgydF4y2Ba 德gydF4y2Ba 下来gydF4y2Ba ⊆gydF4y2Ba GgydF4y2Ba 表示SgydF4y2Ba2gydF4y2Ba年代相比gydF4y2Ba1gydF4y2Ba。gydF4y2Ba

表示样品S中基因G计数的随机变量表示为gydF4y2BaYgydF4y2BaGS.gydF4y2Ba。它是由负二项式分布建模的,按照[gydF4y2Ba8.gydF4y2Ba],通过放手gydF4y2Ba

YgydF4y2Ba GS.gydF4y2Ba ~gydF4y2Ba 注gydF4y2Ba 吝啬的gydF4y2Ba =gydF4y2Ba μ.gydF4y2Ba GS.gydF4y2Ba 那gydF4y2Ba vargydF4y2Ba =gydF4y2Ba μ.gydF4y2Ba GS.gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba μ.gydF4y2Ba GS.gydF4y2Ba φ.gydF4y2Ba GS.gydF4y2Ba 。gydF4y2Ba

在这里,gydF4y2Baφ.gydF4y2BaGS.gydF4y2Ba是分散参数,控制过分散的程度。此外,gydF4y2Ba

μ.gydF4y2Ba GS.gydF4y2Ba =gydF4y2Ba E.gydF4y2Ba YgydF4y2Ba GS.gydF4y2Ba =gydF4y2Ba λ.gydF4y2Ba GCgydF4y2Ba 年代gydF4y2Ba σ.gydF4y2Ba ggydF4y2Ba ∈gydF4y2Ba GgydF4y2Ba λ.gydF4y2Ba GCgydF4y2Ba 年代gydF4y2Ba 米gydF4y2Ba 年代gydF4y2Ba

在哪里gydF4y2Ba米gydF4y2Ba年代gydF4y2Ba是样本S的测序深度,我们定义为gydF4y2Ba米gydF4y2Ba年代gydF4y2Ba = 107.gydF4y2BaUgydF4y2Ba年代gydF4y2Ba为了gydF4y2BaUgydF4y2Ba年代gydF4y2Ba~gydF4y2Ba联合国gydF4y2Ba[0.7, 1.4],gydF4y2BacgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba)gydF4y2Ba∈gydF4y2Ba{gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba,gydF4y2Ba年代gydF4y2Ba2gydF4y2Ba}表示样品s的条件gydF4y2Baφ.gydF4y2BaGS.gydF4y2Ba在两个样本组中是相同的,即,gydF4y2Baφ.gydF4y2BaGS.gydF4y2Ba=gydF4y2Baφ.gydF4y2BaggydF4y2Ba对所有gydF4y2Ba年代gydF4y2Ba。gydF4y2Ba

对于每个基因,我们画了一对值gydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba 年代gydF4y2Ba 1gydF4y2Ba 和gydF4y2Baφ.gydF4y2BaggydF4y2Ba从真实RNA-SEQ数据估计的那些。然后我们定义gydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba 年代gydF4y2Ba 2gydF4y2Ba =gydF4y2Ba γ.gydF4y2Ba ggydF4y2Ba vgydF4y2Ba ggydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba 年代gydF4y2Ba 1gydF4y2Ba 在哪里gydF4y2Ba γ.gydF4y2Ba ggydF4y2Ba =gydF4y2Ba wgydF4y2Ba ggydF4y2Ba +gydF4y2Ba γ.gydF4y2Ba ¯gydF4y2Ba ggydF4y2Ba 那gydF4y2Ba γ.gydF4y2Ba ¯gydF4y2Ba ggydF4y2Ba ~gydF4y2Ba exp.gydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba

vgydF4y2Ba ggydF4y2Ba =gydF4y2Ba {gydF4y2Ba 1gydF4y2Ba 如果gydF4y2Ba ggydF4y2Ba ∈gydF4y2Ba GgydF4y2Ba 德gydF4y2Ba 向上gydF4y2Ba -gydF4y2Ba 1gydF4y2Ba 如果gydF4y2Ba ggydF4y2Ba ∈gydF4y2Ba GgydF4y2Ba 德gydF4y2Ba 下来gydF4y2Ba 0.gydF4y2Ba 除此以外gydF4y2Ba

的参数gydF4y2BawgydF4y2BaggydF4y2Ba表示两组之间差异表达的下限。在我们的模拟中,我们让gydF4y2BawgydF4y2BaggydF4y2Ba所有g = 1.5。gydF4y2Ba

为了模拟不同的真实情况,我们也评估了使用泊松分布(即,在没有过度分散的情况下,模拟研究表示“gydF4y2BaPgydF4y2Ba”)。此外,我们研究了包括极高计数的异常值的效果。异常值是通过两种不同的方式引入的。对于“单一”异常仿真研究(表示'gydF4y2Ba年代gydF4y2Ba'),我们选择了10%的基因,对于这些基因中的每一个,我们选择了一个样本,我们将观察到的计数乘以5到10之间的随机选择的因子。“随机”异常仿真研究(表示')gydF4y2BaRgydF4y2Ba’),我们独立考虑每个观察到的计数,并以0.05的概率将一个计数乘以一个在5到10之间随机选择的因子。表格gydF4y2Ba3.gydF4y2Ba总结了在不同的仿真研究中使用的参数值。对于每个合成数据集,我们在进行差异表达分析之前,过滤掉所有样本中总计数小于10的所有基因。gydF4y2Ba

表3gydF4y2Ba用于生成合成数据集的参数汇总gydF4y2Ba

除了合成数据,我们还考虑了真正的RNA-seq数据集[gydF4y2Ba30.gydF4y2Ba]我们下载了gydF4y2Bahttp://bowtie-bio.sourceforge.net/recount/gydF4y2Ba。数据集包含来自来自两种不同鼠标菌株的21个样品的RNA-SEQ数据。对于此数据集,我们还过滤了所有基因,其中21个样本的总数不超过10,在数据集中留下了11,870个基因。在补充材料中,我们分析了另外两种真实数据集[gydF4y2Ba33gydF4y2Ba那gydF4y2Ba34gydF4y2Ba],从同一来源下载。gydF4y2Ba

参考gydF4y2Ba

  1. 1。gydF4y2Ba

    Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B:gydF4y2Ba通过RNA-Seq定位和定量哺乳动物转录组。gydF4y2BaNAT方法gydF4y2Ba2008年,gydF4y2Ba5.gydF4y2Ba(7):621-628。10.1038 / nmeth.1226gydF4y2Ba

    文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  2. 2.gydF4y2Ba

    陈克,王c,shi t:gydF4y2Ba不同RNA-SEQ数据分析的可用方法概述。gydF4y2Ba中国生命科学gydF4y2Ba2011年,gydF4y2Ba54:gydF4y2Ba1121 - 1128。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  3. 3.gydF4y2Ba

    Oshlack A, Robinson医学博士,Young医学博士:gydF4y2Ba从RNA-SEQ读取差异表达结果。gydF4y2Ba基因组医学杂志gydF4y2Ba2010年,gydF4y2Ba11:gydF4y2Ba220.10.1186 / gb - 2010 - 11 - 12 - 220gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  4. 4.gydF4y2Ba

    Agarwal A, Koppstein D, Rozowsky J, Sboner A, Habegger L, Hillier LW, Sasidharan R, Reinke V, Waterston RH, Gerstein M:gydF4y2BaRNA-SEQ与平铺阵列转录组数据的比较与校准。gydF4y2BaBMC基因组学gydF4y2Ba2010年,gydF4y2Ba11:gydF4y2Ba383.10.1186 / 1471-2164-11-383gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  5. 5.gydF4y2Ba

    Bradford JR, Hey Y, Yates T, Li Y, Pepper SD, Miller CJ:gydF4y2Ba寡核苷酸微阵列对全局转录分析的大规模平行核苷酸测序比较。gydF4y2BaBMC基因组学gydF4y2Ba2010年,gydF4y2Ba11:gydF4y2Ba282. 10.1186 / 1471-2164-11-282gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  6. 6.gydF4y2Ba

    Bullard JH,Purdom E,Hansen KD,Dudoit S:gydF4y2Ba评价mRNA-SEQ实验中标准化和差异表达的统计方法。gydF4y2BaBMC BioinformagydF4y2Ba2010年,gydF4y2Ba11:gydF4y2Ba94.10.1186 / 1471-2105-11-94gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  7. 7.gydF4y2Ba

    Anders S, Huber W:gydF4y2Ba序列计数数据的差异表达分析。gydF4y2Ba基因组医学杂志gydF4y2Ba2010年,gydF4y2Ba11:gydF4y2BaR106。10.1186 / GB-2010-11-10-R106gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  8. 8.gydF4y2Ba

    罗宾逊MD,Oshlack A:gydF4y2BaRNA-SEQ数据差异表达分析的缩放归一化方法。gydF4y2Ba基因组医学杂志gydF4y2Ba2010年,gydF4y2Ba11:gydF4y2BaR25。10.1186 / GB-2010-11-3-R25gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  9. 9.gydF4y2Ba

    dilies MA, Rau A, Aubert J, Hennequet-Antier C, jeanmouin M, Servant N, Keime C, Marot G, Castel D, Estelle J, Guernec G, Jagla B, Jouneau L, Laloë D, Le Gall C, Schaëffer B, Le Crom S, Guedj M, Jaffrézic F:gydF4y2BaIllumina高通量RNA测序数据分析规范化方法的综合评价。gydF4y2Ba简短生物形象gydF4y2Ba2012.Epub ahead of print Epub ahead of print 10.1093/bib/bbs046gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  10. 10。gydF4y2Ba

    SMYTH GK:gydF4y2Ba用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。gydF4y2BaStat Appl Genet Mol BiolgydF4y2Ba2004年,gydF4y2Ba3:gydF4y2Ba第三条。gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  11. 11.gydF4y2Ba

    奥尔PL:gydF4y2BaSrivastava S.gydF4y2Ba。Doerge RW:差异表达 - 下一代及以后。简短的Funct基因组学;2011年。gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  12. 12.gydF4y2Ba

    罗宾逊博士,史密斯GK:gydF4y2Ba对负二项式色散的小样本估计,应用于Sage数据。gydF4y2Ba生物统计学gydF4y2Ba2008年,gydF4y2Ba9:gydF4y2Ba321 - 332。gydF4y2Ba

    文章gydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  13. 13.gydF4y2Ba

    奥尔PL,Doerge RW:gydF4y2Ba用于测试RNA-seq数据的两阶段泊松模型。gydF4y2BaStat Appl Gen Mol BiolgydF4y2Ba2011年,gydF4y2Ba10:gydF4y2Ba第26条。gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  14. 14.gydF4y2Ba

    Hardcastle TJ,Kelly Ka:gydF4y2BabaySeq:识别序列计数数据中差异表达的经验贝叶斯方法。gydF4y2BaBMC BioinformagydF4y2Ba2010年,gydF4y2Ba11:gydF4y2Ba422.10.1186 / 1471-2105-11-422gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  15. 15.gydF4y2Ba

    di y,schafer dw,cumbie js,chang jh:gydF4y2Ba评估RNA-SEQ差异基因表达的NBP负二项式模型。gydF4y2BaStat Appl Genet Mol BiolgydF4y2Ba2011年,gydF4y2Ba10:gydF4y2Ba第24条。gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  16. 16.gydF4y2Ba

    周永红,夏凯,法莱特:gydF4y2Ba一种强大而灵活的RNA序列计数数据分析方法。gydF4y2Ba生物信息学gydF4y2Ba2011年,gydF4y2Ba27gydF4y2Ba(19): 2672 - 2678。10.1093 /生物信息学/ btr449gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  17. 17.gydF4y2Ba

    Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y:gydF4y2BaRNA-seq:技术重现性的评估和与基因表达阵列的比较。gydF4y2Ba基因组ResgydF4y2Ba2008年,gydF4y2Ba18gydF4y2Ba(9):1509-1517。10.1101 / GR.079558.108gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  18. 18.gydF4y2Ba

    Trapnell C、Williams BA、Pertea G、Mortazavi A、Kwan G、van Baren MJ、Salzberg SL、Wold BJ、Pachter L:gydF4y2Ba通过RNA-SEQ的转录程序组件和定量揭示了细胞分化期间未经发布的转录物和同种型切换。gydF4y2BaNAT BIOTECHN.gydF4y2Ba2010年,gydF4y2Ba28日:gydF4y2Ba511-515。10.1038 / NBT.1621gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术搜索gydF4y2Ba

  19. 19.gydF4y2Ba

    Kvam VM,刘平,司勇:gydF4y2Ba从RNA-seq数据中检测差异表达基因的统计方法的比较。gydF4y2Ba是J机器人gydF4y2Ba2012年,gydF4y2Ba99gydF4y2Ba(2): 248 - 256。10.3732 / ajb.1100340gydF4y2Ba

    文章gydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  20. 20.gydF4y2Ba

    Robles Ja,Qureshi Se,Stephen SJ,Wilson SR,Burden CJ,Taylor JM:gydF4y2Ba使用RNA测序检测差异表达的高效实验设计和分析策略。gydF4y2BaBMC基因组学gydF4y2Ba2012年,gydF4y2Ba13:gydF4y2Ba484.101186 / 1471-2164-13-484gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  21. 21。gydF4y2Ba

    Nookaew I, Papini M, Pornputtpong N, Scalcinati G, Fagerberg L, Uhlén M, Nielsen J:gydF4y2Ba基于RNA-SEQ的转录组分析与微阵列的差异基因表达的基于RNA-SEQ的转录组分析的综合比较:案例研究gydF4y2Ba酿酒酵母gydF4y2Ba。gydF4y2Ba核酸res.gydF4y2Ba2012年。在印刷品之前,EPUB领先于印刷品10.1093 / NAR / GKS804gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  22. 22。gydF4y2Ba

    R核心团队:gydF4y2BaR:统计计算的语言和环境gydF4y2Ba。奥地利维也纳:R统计计算基础;2012.gydF4y2Bahttp://www.r-project.org/gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  23. 23。gydF4y2Ba

    罗宾逊MD,麦卡锡DJ,SMYTH GK:gydF4y2Ba编辑:用于数字基因表达数据的差异表达分析的生物导体包。gydF4y2Ba生物信息学gydF4y2Ba2010年,gydF4y2Ba26日:gydF4y2Ba139 - 140。10.1093 /生物信息学/ btp616gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  24. 24.gydF4y2Ba

    Leng N, Dawson J, Thomson J, Ruotti V, Rissman A, Smits B, Haag J, Gould M, Stewart R, Kendziorski C:gydF4y2BaEBSeq:用于RNA-seq实验推理的经验贝叶斯层次模型gydF4y2Ba。威斯康星大学:生物统计和医学信息学系第226技术代表;2012.gydF4y2Bahttp://www.biostat.wisc.edu/tech-reports/pdf/tr_226.pdf.gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  25. 25.gydF4y2Ba

    Tarazona S,García-Alcalde F,Dopazo J,Ferrer A,Conesa A:gydF4y2BaRNA-SEQ中的差异表达:深度问题。gydF4y2Ba基因组ResgydF4y2Ba2011年,gydF4y2Ba21:gydF4y2Ba2213 - 2223。10.1101 / gr.124321.111gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  26. 26.gydF4y2Ba

    Li J, Tibshirani R:gydF4y2Ba寻找一致的模式:一种用于识别RNA-SEQ数据中差异表达的非参数方法。gydF4y2Ba统计方法MED RESgydF4y2Ba2011.Epub ahead of printgydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  27. 27.gydF4y2Ba

    Van de Wiel MA, Leday GGR, Pardo L, Rue H, Van der Vaart AW, Van Wieringen WN:gydF4y2Ba通过估计多个收缩先验对RNA测序数据进行贝叶斯分析。gydF4y2Ba生物统计学gydF4y2Ba2012年,gydF4y2Ba14:gydF4y2Ba113-128。gydF4y2Ba

    文章gydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  28. 28.gydF4y2Ba

    VentRucci M,Scott Em,Cocchi D:gydF4y2Ba对标准化死亡率的多次测试:FDR估计的贝叶斯分层模型。gydF4y2Ba生物统计学gydF4y2Ba2011年,gydF4y2Ba12:gydF4y2Ba51 - 67。10.1093 /生物统计学/ kxq040gydF4y2Ba

    文章gydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  29. 29.gydF4y2Ba

    Bancroft T, Nettleton D:gydF4y2Ba利用具有不同离散零分布的排列p值估计错误发现率gydF4y2Ba。技术报告:爱荷华州立大学;2009. [gydF4y2Bahttp://www.stat.iastate.edu/preprint/articles/2009-05.pdf.gydF4y2Ba] []gydF4y2Ba

    谷歌学术搜索gydF4y2Ba

  30. 30.gydF4y2Ba

    Diotty D,Walter Na,Hunter Je,Darakjian P,Kawane S,Buck KJ,Searles Rp,Mooney M,McWeeney Sk,Hitzermann R:gydF4y2Ba使用RNA-Seq和微阵列评估C57BL/6J和DBA/2J小鼠纹状体的基因表达。gydF4y2Ba《公共科学图书馆•综合》gydF4y2Ba2011年,gydF4y2Ba6.gydF4y2Ba(3):E17820。10.1371 / journal.pone.0017820gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  31. 31.gydF4y2Ba

    罗宾逊博士,史密斯GK:gydF4y2Ba适用于评估标签丰富差异的统计测试。gydF4y2Ba生物信息学gydF4y2Ba2007年,gydF4y2Ba23:gydF4y2Ba2881-2887。10.1093 / Bioinformatics / BTM453gydF4y2Ba

    文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  32. 32.gydF4y2Ba

    Rue H, Martino S, Chopin N:gydF4y2Ba隐高斯模型的近似贝叶斯推断使用积分嵌套拉普拉斯近似。gydF4y2Baj r统计数据库bgydF4y2Ba2009年,gydF4y2Ba71gydF4y2Ba(2):319-392。10.1111 / J.1467-9868.2008.00700.xgydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  33. 33。gydF4y2Ba

    Blekhman R, Marioni JC, Zumbo P, Stephens M, Gilad Y:gydF4y2Ba灵长类动物的性别特异性和谱系特异性替代拼接。gydF4y2Ba基因组ResgydF4y2Ba2010年,gydF4y2Ba20.gydF4y2Ba(2): 180 - 189。10.1101 / gr.099226.109gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

  34. 34。gydF4y2Ba

    Hammer P, Banck MS, Amberg R, Wang C, Petznick G, Luo S, Khrebtukova I, Schroth GP, Beyerlein P, Beutler AS:gydF4y2BamRNA-SEQ具有无症状接头的神经系统转录组织在慢性疼痛中进行的神经系统的发现。gydF4y2Ba基因组ResgydF4y2Ba2010年,gydF4y2Ba20.gydF4y2Ba(6):847-860。10.1101 / GR.101204.109gydF4y2Ba

    pmed中央gydF4y2Ba文章gydF4y2BaCASgydF4y2BaPubMedgydF4y2Ba谷歌学术搜索gydF4y2Ba

下载参考gydF4y2Ba

作者信息gydF4y2Ba

从属关系gydF4y2Ba

作者gydF4y2Ba

相应的作者gydF4y2Ba

对应于gydF4y2Ba夏洛特·斯内非gydF4y2Ba。gydF4y2Ba

额外的信息gydF4y2Ba

竞争利益gydF4y2Ba

作者们宣称他们没有相互竞争的利益。gydF4y2Ba

作者的贡献gydF4y2Ba

CS和MD参与了研究的设计、结果的解释和手稿的撰写。CS进行了实现和数值实验。两位作者都阅读并批准了最终稿件。gydF4y2Ba

电子辅料gydF4y2Ba

包含文本中提到的补充数据。gydF4y2Ba

本文还评估了edgeR和DESeq参数选择不同值的效果,以及另外两种基于转换的方法的效果,并在两种比较条件下评估了不同弥散参数模拟数据的效果。我们也提出了一些比较基于数据集的3个样本每个条件。该文件还包含了关于从真实数据中估计均值和分散参数的信息,以及两个真实RNA-seq数据集的额外分析。最后,它包含样本R代码运行微分表达式分析和估计计算时间的不同方法的需求。(PDF 3 MB)gydF4y2Ba

作者为图片提交的原始文件gydF4y2Ba

权利和权限gydF4y2Ba

本文由BioMed Central Ltd.授权出版。欧宝体育2021足球欧洲杯买球平台这是一篇根据知识共享署名许可(gydF4y2Bahttp://creativeCommons.org/licenses/by/2.0.gydF4y2Ba)提供任何介质中的不受限制使用,分发和再现,所以提供了正确的工作。gydF4y2Ba

重印和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

引用这篇文章gydF4y2Ba

Soneson, C., Delorenzi, M.比较RNA-seq数据差异表达分析的方法。gydF4y2Ba欧宝娱乐合法吗14日,gydF4y2Ba91(2013)。https://doi.org/10.1186/1471-2105-14-91gydF4y2Ba

下载引用gydF4y2Ba

关键词gydF4y2Ba

  • 差异表达gydF4y2Ba
  • 基因表达gydF4y2Ba
  • RNA-seqgydF4y2Ba
\gydF4y2Ba