跳到主要内容

RSEM:从RNA-Seq数据中准确的转录本定量,有或没有参考基因组

一种协议本文于2013年7月11日发布

摘要

背景

RNA-Seq正在彻底改变转录本丰度的测量方式。从RNA-Seq数据中进行转录本定量的一个关键挑战是处理映射到多个基因或亚型的reads。由于很难确定哪些转录本是同一基因的异构体,因此在缺乏测序基因组的情况下,这一问题对于从头转录组组装的定量尤为重要。第二个重要的问题是RNA-Seq实验的设计,包括reads的数量、reads的长度以及reads是来自cDNA片段的一端还是两端。

结果

我们提出了RSEM,一个用户友好的软件包,用于定量基因和亚型丰度从单端或对端RNA-Seq数据。RSEM输出丰度估计,95%可信区间和可视化文件,也可以模拟RNA-Seq数据。与其他现有工具相比,该软件不需要参考基因组。因此,结合一个从头转录组组装器,RSEM可以在没有测序基因组的情况下对物种进行准确的转录定量。在模拟和真实数据集上,RSEM的性能优于或可比依赖参考基因组的定量方法。利用RSEM有效利用模糊定位reads的能力,我们的研究表明,通过大量的短单端reads,可以获得最准确的基因水平丰度估计数。另一方面,根据每个基因可能的剪接形式的数量,可以通过使用对端读来提高单个基因内同型异构体的相对频率估计。

结论

RSEM是一种准确和用户友好的软件工具,用于量化来自RNA-SEQ数据的转录性丰富。由于它不依赖于参考基因组的存在,因此对于用De Novo转录组组件进行量化特别有用。此外,RSEM已经为RNA-SEQ提供了有价值的定量实验设计的宝贵指导,目前是相对昂贵的。

背景

RNA-SEQ是一种强大的技术,用于分析预测替换微阵列的转录om [1]。利用近期测序技术的进展,RNA-SEQ实验从来自样品RNA片段的CDNA的末端产生数百万相对短的读数。所产生的读取可用于许多转录组分析,包括转录量化[2-7.]、差分表达式测试[8.9.],基于参考的基因注释[6.10.]和de novo转录程序组装[11.12.]。在本文中,我们专注于转录量定量的任务,这是基因和同种型水平的相对丰富的估计。测序后,量化任务通常涉及两个步骤:(1)读取对参考基因组或转录组的映射,以及(2)基于读取映射的基因和同种型丰度的估计。

定量中一个主要的并发症是RNA-Seq读取并不总是唯一地映射到单个基因或亚型。以前,我们已经证明了在统计模型中适当地考虑读映射的不确定性对于实现最准确的丰度估计是至关重要的[7.]。在本文中,我们提出了一个用户友好的软件包,RSEM (RNA-Seq by Expectation Maximization),它实现了我们的量化方法,并对我们的原始模型提供了扩展。RSEM独特的一个关键特征是缺乏参照基因组的要求。相反,它只需要用户提供一组参考转录本序列,例如由从头转录组汇编器产生的序列[11.12.]。对我们原始方法的扩展包括配对端(PE)和可变长度读取,片段长度分布和质量分数的建模。此外,现在计算95%的可信度间隔(CI)和后平均估计(PME),用于每种基因和同种型的丰度,以及最大可能性(ml)估计。最后,RSEM现在通过概率上加权读取对齐和读取深度图来实现其输出。

通过模拟和真正的RNA-SEQ数据的实验,我们发现RSEM对其他相关方法具有卓越的量化准确性。通过额外的实验,我们获得了关于PE数据值的令人惊讶的结果,以及用于估算转录物丰富的质量评分信息。尽管PE读取提供的信息比单端(SE)读取更多信息,但我们的实验表明,对于相同的测序吞吐量(就碱基测序的碱基的数量而言),SHORT SE读取允许在基因中获得最佳的定量精度 -等级。虽然一个人会假设质量分数提供有价值的信息,用于正确读取读取的映射,但是对于RNA-SEQ与Illumina的错误配置文件读取,考虑到质量评分的模型不会显着提高模型的量化精度只使用读取序列。

相关工作

在一些最初的RNA-Seq论文中使用的一个简单的量化方法[13.14.]今天仍然使用它是计算唯一地映射到每个基因的读数的数量,可能校正其序列的“可用性”的基因的计数[15.]它的长度。这种方法的主要问题是它:(1)抛出数据并产生偏置估计,如果没有考虑“可用性”,(2)对可选的基因产生不正确的估计[16.(3)(3)对估算同种型丰富的任务并不良好。后来发展了几种方法,通过“拯救”映射到多个基因的读取(“多reads”)来解决第一问题[17.18.]。其他一些方法解决了后两个问题,但不是第一个问题,通过在亚型水平上建模RNA-Seq数据[5.]。后来,我们开发了RSEM背后的方法论,通过使用RNA-Seq reads的生成模型和EM算法来估计亚型和基因水平上的丰度,解决了所有这些问题[7.]。自RSEM方法的出版以来,已经开发了许多利用类似统计方法的方法[3.4.6.19.-22.]。

在开发的方法中,只有RSEM和ISOEM能够完全处理读取的读取,两种方法的作者都显示出两种方法的作者对实现最佳估计准确性非常重要[4.7.]。与IsoEM相比,RSEM能够建模非均匀序列独立的读起始位置分布(RSPDs),例如由一些RNA-Seq协议产生的3’偏置分布[1]。此外,RSEM可以计算PME和95% ci,而IsoEM只能产生ML估计数。最后,RSEM是我们所知道的唯一一种不需要全基因组序列就能工作的统计方法,它可以对只有转录序列可用的物种进行RNA-Seq分析。

实现

典型的RSEM运行仅包括两个步骤。首先,生成一组参考记录序列并预处理以供以后的RSEM步骤使用。其次,一组RNA-SEQ读取与参考转录物对齐,并且所得到的对准用于估计丰度及其可信度间隔。这两个步骤由用户友好的脚本进行rsem-prepare-referencersem-calculate-expression。RSEM工作流程的步骤如图所示1并在以下部分中更详细地描述。

图1
图1

RSEM软件工作流程。标准RSEM工作流程(由实心箭头表示)包括运行两个程序(rsem-prepare-referencersem-calculate-expression),自动使用Bowtie进行读取对齐。具有备用对齐程序的工作流程另外使用虚线箭头连接的步骤。两个额外的程序,RSEM-BAM2WIG.rsem-plot-model,允许可视化RSEM的输出。还可以通过由虚线箭头所示的工作流模拟RNA-SEQ数据。

参考序列准备

RSEM被设计用于与转录序列对齐的reads,而不是整个基因组序列。使用转录水平比对有几个优点。首先,对于真核生物样本,RNA-Seq读序列对基因组的比对由于剪接和聚腺苷化而变得复杂。跨越剪接连接或延伸到多聚(A)尾巴的Reads在基因组水平上对齐是一个挑战,尽管有工具可以对齐剪接连接Reads [23.-25.]。其次,使用转录级别对准容易允许从没有测序基因组的物种的样品分析,但具有正面表征的转录组(可能通过RNA-SEQ转录组组件[11.12.])。最后,所有可能的转录本的总长度通常比基因组的长度要小得多,这使得转录本的比对速度更快。

一套成绩单可以指定给rsem-prepare-reference用两种方式之一。最简单的方法是提供Rescript序列的Fasta格式化文件。例如,可以从参考基因组数据库,de novo转录组汇编器或est数据库获得这样的文件。或者,使用--gtf选项,可提供基因注释文件(GTF格式)和全基因组序列(FASTA格式)。对于经常被研究的物种,这些文件可以很容易地从数据库下载,例如UCSC基因组浏览器数据库[26.]和Ensembl [27.]。如果存在现有基因注释的质量,则可以使用基于参考的RNA-SEQ转录组合体汇编器,例如袖扣[28.],以GTF格式提供一组改进的基因预测。当需要基因水平丰度估计时,可以指定一个附加文件,指定哪些转录本来自同一基因(通过--transcript - to-gene-map选项),或者,如果提供了一个GTF文件,每个转录本的“gene_id”属性可以用来确定基因成员。无论使用哪种指定转录本的方法,RSEM都会生成自己的一组预处理转录本序列,供后面的步骤使用。对于poly(A) mRNA的分析,RSEM将在参考转录本中添加poly(A)尾部序列,以实现更准确的读取比对- No-Polya.)。用于准备参考序列的脚本仅需要一次每种参考转录组,因为转录序列以样本 - 独立的方式预处理。

读取映射和丰度估计

rsem-calculate-expression脚本处理读取的对齐对参考记录序列和相对丰富的计算。默认情况下,RSEM使用Bowtie对齐程序[29.]来对齐读取,并使用专门为RNA-Seq定量选择的参数。或者,用户可手动运行不同的对齐程序,以SAM格式提供对齐[30.)rsem-calculate-expression

当使用替代对准器时,必须注意适当地设置对准器参数,以便RSEM可以提供最好的丰度估计。首先,也是最关键的一点是,必须将对齐器配置为报告一次读取的所有有效对齐,而不仅仅是单个的“最佳”对齐。其次,我们建议配置对齐器,以便在确定有效对齐时,只考虑每个读取的短前缀(一个“种子”)内的匹配和不匹配。例如,默认情况下,RSEM运行“蝴蝶结”来查找一个读取的前25个碱基中最多有两个不匹配的所有对齐。这个想法是允许RSEM来决定哪些对齐最有可能是正确的,而不是给对齐者这个责任。由于RSEM比read aligners使用更详细的RNA-Seq读取生成过程模型,这导致了更准确的估计。最后,为了减少RSEM的运行时间和内存使用,有必要配置对齐器来抑制具有大量有效对齐的读取(例如,> 200)的对齐报告。

虽然原始RSEM包仅支持固定长度SE RNA-SEQ读取没有质量分数信息,但新的软件包支持各种输入数据类型。RSEM现在支持SE和PE读取和可变长度的读取。可以以FASTA或FASTQ格式给出读取。如果以FASTQ格式提供读取,则RSEM将使用质量分数数据作为其统计模型的一部分。如果未提供质量分数,则RSEM使用我们先前描述的位置相关的误差模型[7.]。

在读取的对齐之后,RSEM使用其统计模型的期望最大化(EM)算法计算ML丰度估计(参见方法)。可以使用许多选项来指定RSEM使用的模型,应根据产生输入读取的RNA-SEQ协议来定制。例如,如果使用了股线特定的协议,则- 特定于特定于应指定选项。否则,假设读取具有来自感觉或反义方向的相同概率。片段长度分布由- 框架长度 -这对SE分析尤其重要。对于PE分析,RSEM从数据中学习片段长度分布。如果协议产生高度5'或3'偏置的读位置分布,则——estimate-rspd应指定选项,以便RSEM可以估计读取开始位置分布(RSPD),这可能允许更准确的丰度估计[7.]。

除了计算ML丰度估计数,RSEM还可以使用其模型的贝叶斯版本来生成每个基因和亚型丰度的PME和95% CI。这些值是通过吉布斯抽样(见方法)计算的,可以通过指定- CI.选项。95%的CIS对于评估样品的差异表达,特别是对于重复基因或同种型,因为CIS由于随机采样效果和读取映射歧义而捕获不确定性。我们建议使用CIS与差异表达式工具的结果结合使用,该工具目前不会考虑来自多欧分配的方差。可以使用PME值代替ML估计,因为它们非常相似,但具有通常包含在95%CIS内的方便性,这有时不是小ML估计的情况。

RSEM的主要输出包括两个文件,一个用于异构级估计,另一个用于基因级估计。就两项措施提供了丰富的估计。首先是估计来自给定同植物或基因衍生的片段的数量。我们只能估计这个数量,因为读数通常不会唯一地映射到单个成绩单。该计数通常是非整数值,并且是给予ML丰度的同种型或基因衍生自同种型或基因的可接近和未过滤片段的数量的期望。这些(可能圆形)计数可以由差异表达方法(如Edger)使用[9.或DESeq [8.]。第二种丰度量是由给定同种型或基因组成的估计的转录物的估计分数。该措施可以直接用于零和一个或可以乘以10的值6.以获得每百万转录本(TPM)的度量。抄本分数度量比流行的RPKM更受欢迎[18.]及FPKM [6.]措施,因为它与平均表达的转录长度无关,因此在样品和物种上更具比较[7.]。

可视化

RSEM可以在基因组浏览器中产生两种不同的RNA-Seq数据可视化输出,如UCSC基因组浏览器[31.]。当指定——out-bam选项时,RSEM将读取的对齐从文本映射到基因组坐标,并以BAM格式输出结果对齐[30.]。BAM文件中的每一个对齐(使用MAPQ字段)都根据它是真正对齐的概率进行加权(给定RSEM学习到的ML参数)。在基因组浏览器中可视化BAM文件使用户能够看到所有的读取对齐和RSEM分配给它们的后向概率。可以进一步处理BAM文件RSEM-BAM2WIG.程序生成一个UCSC wig格式的文件,该文件给出每个基因组位置重叠的预期读数,给定ML参数。摆动可视化对于查看文本中的读取分布非常有用。图中显示了UCSC基因组浏览器中BAM和WIG可视化的一个示例2。为了生成可视化,必须为参考准备脚本提供GTF格式化的注释文件,以便读取对齐可以映射回基因组坐标。

图2.
figure2

UCSC基因组浏览器中的RSEM可视化。在UCSC基因组浏览器中,从鼠标RNA-SEQ数据集SRR065546的RSEM输出的示例可视化。(a)蠕动输出的同时可视化,其给出了基因组中的每个位置的预期读取深度,以及BAM输出,这使得概率加权读取对准。在BAM轨道中,配对读数通过薄的黑线连接,读取的黑暗表示其对准的后验概率(黑色意义高概率)。(b)预期读取深度(顶部轨道)的示例基因从无唯一映射计算的读取深度仅读取(底部轨道)。

为了帮助诊断RNA-SEQ数据生成或量化中的潜在问题,RSEM还允许从给定样本中学习的测序模型的可视化。这是通过运行来实现的rsem-plot-model关于产出的计划rsem-calculate-expression。许多地块是由rsem-plot-model,包括学习的片段和读取长度分布,RSPD和测序错误参数。来自SRA实验SRX018974的RNA-SEQ数据集生成的三个图[25.]显示在附加文件中1

模拟

RSEM另外允许根据其所基于的生成模型进行仿真RNA-SEQ数据集(请参阅方法)。模拟由此进行rsem-simulate-reads程序,它将作为输入丰度估计、测序模型参数和参考转录本(由rsem-prepare-reference)。通常,通过在真实数据集上运行RSEM获得丰度估计和排序模型,但也可以手动设置它们。

结果和讨论

与相关工具的比较

为了评估RSEM,我们将其性能与许多相关的量化方法进行了比较。我们与ISOEM(v1.0.5)进行比较[4.、袖扣(v1.0.1) [6.],栅栏(v1.0)[2]以及RSEM的原始实现(v0.6)[32.]。味噌 [3.],它使用类似于RSEM、IsoEM和Cufflinks的概率模型,因为它目前只计算每个基因的替代剪接形式的相对频率,而不是全局转录片断,所以没有被包括在比较中。为了公平起见,我们只对袖扣进行了量化分析。也就是说,它被配置为计算我们提供给所有方法的一组基因注释的丰度估计数,并且不被允许预测新的转录本。袖扣和rQuant都需要读取到基因组序列,我们使用TopHat [24.]为这个目的。TopHat提供了基因注释和平均片段长度,不允许预测新的剪接连接。对于需要转录序列比对的RSEM和IsoEM,我们使用了Bowtie [29.]。由于评估RNA-Seq定量方法准确性的“金标准”数据有限,我们在模拟数据和真实数据上对这些方法进行了测试。在模拟数据上,我们额外测量了方法的计算性能(时间和内存)。

模拟数据

由于没有公开的RNA-SEQ数据模拟器,我们使用RSEM软件包中包含的模拟器进行了实验。该模拟器使用简单且广泛使用的RNA-SEQ片段模型在样本中的转录物中均匀地并在所有可能的起始站点上独立地进行采样。用于模拟的模型与Cufflinks和ISOEM明确假定的模型相同,并由栅格隐式使用。因此,我们的仿真实验是在从他们假设的模型生成数据时执行的各种方法执行的测试。我们最初尝试使用未发表的外部仿真软件包,磁通模拟器[33.]但是软件中的几个错误阻止了我们在本文的目的中使用它。

我们使用模拟器从小鼠转录组以非链状的方式产生一组200万RNA-SEQ片段。通过这些片段模拟配对末端读取,并且通过简单地抛出每对的第二读取来构建单端读取组。使用了两组鼠标参考记录集:Refseq注释[34.和ensemble注释[27.)(见方法)。RefSeq集是保守的,平均每个基因有20852个基因和1.2个亚型。相比之下,Ensembl集有22329个基因,平均每个基因有3.4个亚型。我们已经在RSEM网站上提供了这次实验的模拟数据。

对于每个模拟集,我们通过测试方法计算丰度估计,并使用先前使用的中位数百分比(MPE),误差分数(EF)和假阳性(FP)统计数据来测量转录分数估计的准确性[7.]。MPE是估计值与真实值误差百分比的中位数。10% EF是丰度估计的百分比误差大于10%的部分转录本。最后,FP统计是真实丰度小于1个TPM的转录本的比例,这些转录本被预测至少有1个TPM。通过3个水平的估计计算了这些统计值:(1)基因相对丰度,(2)全球亚型相对丰度,(3)基因内亚型相对丰度。

数字3.通过[中的图案,给出了从Refseq模拟集上的五种方法的丰度估计的误差的分布。4.]。表格1为该方法提供MPE,10%EF和FP速率。Ensembl模拟集的结果显示在附加文件中2。RSEM v0.6和rQuant只在SE数据上运行,因为它们不处理PE数据。

图3.
图3

四种RNA-Seq定量方法的准确性。RSEM、IsoEM、Cufflinks和rQuant对模拟RNA-Seq数据估计的误差百分比分布。从PE数据得到的整体亚型和基因估计的误差分布分别如图(A)和(B)所示。SE数据的整体亚型和基因估计误差分布分别如图(C)和(D)所示。

表1应用于模拟数据的量化方法的精度措施

对于PE和SE读取,RSEM和ISOEM优于袖扣和栅格。在这两对方法之间的性能方面可能有两种主要原因。首先,袖扣和栅栏不完全处理映射到多个基因(“基因MultieReads”)。袖扣使用“救援”-like策略进行多read的初始分数分配,这大致相当于RSEM和ISOEM使用的EM算法的一次迭代。至于栅栏,从[2]如果和该方法如何处理基因多柜。性能差距的第二个原因是袖扣和栅方需要对基因组的对准,而不是转录组。正如我们在实施部分所述,RNA-SEQ读取到基因组序列的对准是对真核物种的挑战,其RNA转录物是拼接和多腺苷酸化。

除了refseq和Ensembl集中,该方法的相对性能是相似的,尽管袖扣在Ensembl集中令人惊讶地令人惊讶地令人惊讶地令人惊讶。仔细检查袖扣的结果表明,该方法在转录物的子集中产生异常高的丰度估计。该子集由比平均片段长度(280个碱基)更短的转录物(不包括聚(a)尾部),表明袖扣的当前实施不正确处理短记录。

RSEM和ISOEM对PE数据相当,但对于SE数据,RSEM稍微准确。对于ISOEM的RSEM的相对较小的改善可能是由于更详细地实现了Poly(a)尾部处理,其在ISOEM的原始版本中并不存在,并且仅被引入其软件。RSEM V0.6上的当前版本的RSEM版本的改进是由于SE数据的片段长度的建模,最初由[4.]提高准确性。

MAQC数据

由于我们很少知道样本中“真实”的转录本丰度,因此将RNA-Seq量化方法的基准设定在真实数据上是一项挑战。目前,qRT-PCR似乎是最流行的生产“金标准”丰度测量的技术,虽然没有仔细的实验设计和数据分析,它可能会给出不准确的结果[35.]。而RNA-Seq被普遍认为是一种比微阵列更准确的定量技术[1,它是否也优于qRT-PCR还有待观察。

对于我们的测试,我们使用从微阵列质量控制(MAQC)项目中使用的样本生成的数据[36.],正如许多其他RNA-Seq定量准确性的研究所做的那样[37.38.]。MAQC项目评估了多种微阵列平台和技术,包括TaqMan qRT-PCR,用于两个人类RNA样本,一个来自脑组织(HBR),另一个来自混合组织类型(UHR)。该项目的TaqMan qRT-PCR测量包括一个小子集(1000个)基因的丰度值,在两个样本的每个样本上有4个技术重复。最近,三个小组在两个MAQC样本上生成了RNA-Seq数据[25.37.39.]。

我们在每个MAQC RNA-SEQ数据集上应用了量化方法,并将其丰富的预测与QRT-PCR值进行了比较。所有方法都提供了人Refseq基因注释。至于模拟实验,袖扣仅在量化模式下运行,并且仅允许Tophat映射到注释中存在的剪接结。袖扣和ISOEM在没有其序列特异性偏压校正模式的情况下运行,可以提高用随机六示例性引发协议产生的RNA-SEQ库的定量精度,其用于所有MAQC RNA-SEQ数据。我们没有使用其特定位置的偏置校正(RSPD)运行RSEM,因为这仅适用于寡核苷酸底漆RNA-SEQ库,这通常对源自转录物的3'末端的读数偏差。

为了评估RNA-Seq丰度预测与qRT-PCR测量的相似性,我们计算了丰度值的对数的皮尔逊相关性。我们使用了一个对数转换来防止相关性值被最丰富的转录本所控制。为了避免零的问题,我们只计算那些通过qRT-PCR和所有方法预测丰度为非零的基因的相关值。我们另外计算了每种方法的假阳性(FP)、真阳性(TP)、假阴性(FN)和真阴性(TN)计数,其中“阳性”意味着非零的预测丰度和真理由qRT-PCR测量确定。

每个MAQC RNA-SEQ样本上测试方法的相关值如表所示2。一般来说,这些方法给出了每个样本的可比相关值。确认[38.],与其他方法相比,袖链的偏差修正模式给出的预测相关性更高,特别是在HBR样本上。与袖链不同,IsoEM的偏差校正模式对这些样品的qRT-PCR值的相关性没有显著影响。Spearman和Pearson相关值计算没有对数转换的丰度产生类似的结果(附加文件3.)。方法的TP,FP,TN和FN计数也是可比的(附加文件3.)。

表2定量方法预测结果与MAQC qRT-PCR值的相关性

可以通过许多因素来解释这些数据集上的方法(具有偏置校正除外的跨克链接除外)之间的清晰区别。首先,QRT-PCR测量仅在Refseq集合中仅提供1,000(5%),总共有19,005个基因。在用Refseq的注释中过滤QRT-PCR基因并具有非零丰度(参见方法),只能使用716来进行相关分析。其次,这组基因被偏向具有相对独特的序列的单同种型基因和基因,降低了这些数据的能力,将这些方法区分在同种型定量或多欧洲处理的方法中。该组中每个基因的平均同种型数量为1.1,与所有基因的1.7相比(P.< 10-115(如Mood’s median test)。同样,集合中基因的平均“可映射性”(见方法)为0.96,而所有基因的平均值为0.91 (P.< 10-6)。最后,QRT-PCR值中的偏见,也许是由于可变扩增效率[35.],可能导致了不准确的金标准。

运行时间和内存

除了比较量化方法的准确性外,我们还测量了它们的运行时间和内存使用情况。为此,我们使用了模拟小鼠RefSeq数据集的2000万个片段,其大小可与Illumina基因组分析仪IIx单车道产生的数据相媲美。表格3.列出每种方法在SE和PE数据上的运行时间和峰值内存使用情况。额外的文件4.给出了模拟的鼠标集合的相应值。所有方法都运行在8核2.93 GHz Linux服务器上,32 GB RAM和超线程启用。用Bowtie比对转录序列集,用RSEM进行量化使用的内存最少,约为1.1 GB。Cufflinks和rQuant的内存使用高峰是由于运行TopHat来对齐读取到的基因组。这两种方法的量化程序分别需要RefSeq数据集的0.4 GB和1.6 GB内存。IsoEM是最快的方法,但内存需求最大,最高可达14gb。需要注意的是,这些方法的运行时间并不是完全可比较的,因为RSEM和Cufflinks除了计算ML估计外,还计算CIs,而其他方法只计算ML估计。

表3在SE和PE数据上运行时间和内存使用量化方法

RSEM所需的运行时间和内存与读取对齐的数量线性缩放,这通常与读数的数量成比例。虽然当前版本的RSEM具有并行化EM算法,但由于两个原因,它不会比原始版本更快。首先,当前版本运行EM算法,了解更多迭代以提高准确性。在此数据集上,当前版本持续为4,802次迭代,而旧版本的643则相比。其次,当前版本的运行时间包括计算95%信誉间隔的时间,这需要大量计算,并且不是原始版本的特征。

实验结果

通过将RSEM扩展到PE数据模型,并读取质量分数信息,我们开始确定这些更复杂的数据类型是否允许提高丰度估计精度。为此,我们进行了两组模拟实验。在第一组实验中,我们比较了体育阅读和体育阅读的性能。对于第二个问题,我们测试了质量分数是否提供了提高估计准确性的信息。

配对与单端读取

我们以前表明,对于SE RNA-SEQ协议,读数的数量比用于增加基因级丰度估计的准确性的读取的长度更重要[7.]。给定固定的测序吞吐量(根据碱基总数),我们发现最佳读取长度为25碱基,用于鼠标和玉米中的SE RNA-SEQ分析。该结果通过后来的研究证实了[4.]。最近的研究已经得出结论,PE阅读可以提供比SE阅读更高的估计精度,特别是对于选择性剪接基因的同型[3.4.]。随着RSEM现在扩展到PE数据模型,我们决定用我们自己的模拟来测试这些结果。

我们模拟了四种不同配置的RNA-Seq数据:(1)2000万,35个碱基SE reads,(2) 2000万,70个碱基SE reads,(3) 2000万,35个碱基PE reads,和(4)4000万35个碱基SE reads。后三种配置在测序的碱基数量方面给出了相同的吞吐量,因此在成本方面是最具可比性的,前提是一个简单的经济模型,其中一个为每个测序的碱基付费。我们模拟了人类和小鼠,并使用RefSeq和Ensembl注释,以确定物种或注释集是否是一个因素。除了对每个配置进行不同物种和注释集的模拟外,我们还模拟了有和没有测序错误的情况,以评估变量读取对齐灵敏度是否有影响。

表格4.给出从Refseq模拟数据集计算的RSEM估计的MPE,10%EF和FP(附加文件5.给出ensemble bl集合对应的值)。正如预期的那样,在读取数固定的情况下,70碱基读取比35碱基读取提供了更好的估计精度。确认以前的结果[3.4.[通过读取和总吞吐量固定的数量,PE读取通过SE读取的提高估计精度(将PE精度与SE 70基底精度的PE精度进行比较)。然而,利用相同的测序吞吐量,短硒读数在基因水平下提供了最高的估计精度。此结果跨两种物种,无论是否读取都包含序列错误。这些结果表明,如果主要目标是基因丰富的准确估计,则大量短期读取的测序是最好的。例如,考虑到PE 35底部读取的Illumina车道和SE 35读数的两个Illumina车道之间的选择,我们的模拟表明,后者将为基因级估计提供最佳总量化结果。在这种情况下使用SE读取的额外优点是SE读取的两个泳道可以并行运行,而PE Lane的两端当前是一个之后的一个。因此,使用短SE读取可以节省排序时间。该结果取决于具有片段长度分布的SE估计过程,因为SE数据不容易用于自动确定该分布。然而,这种分布通常可以通过其他方式提前获得。

表4从不同性质的RNA-Seq数据集获得的准确性

另一方面,如果主要关注的是单个基因中选择性剪接事件的相对频率,那么PE数据可以根据转录组提供更准确的估计。对于人类RefSeq模拟,PE数据比SE数据有更大的精度提高,这一结果可以解释为人类RefSeq注释在每个基因上平均有更多的亚型(1.6),而小鼠RefSeq注释(1.2)。这进一步得到了使用Ensembl注释的模拟结果的支持,平均每个基因有明显更多的同型异构体(人类为6.3,小鼠为3.4)。因此,对于基因经历了大量可变剪接事件的物种,PE数据可能更有利于推断这些事件的相对频率。虽然基因水平和基因内亚型水平估计的结果是清楚的,但全球亚型水平估计的结果是混合的。在某些模拟集中,SE数据比PE数据性能更好(具有相同的吞吐量),而在其他模拟集中,情况则相反。这可以用这样一个事实来解释,即亚型的全球丰度是其基因丰度和其基因内丰度的产物。因此,可以通过在其他两个水平上产生更好的丰度估计来提高整体同型丰度精度。通过更准确的基因水平估计SE数据和通过更准确的基因内亚型估计PE数据改进了全局isoform水平估计。

总的来说,我们建议研究人员在决定RNA-Seq实验的参数之前,仔细考虑他们的目标,例如读长和读数。虽然人们可能倾向于产生较长和PE的reads,但如果唯一的目标是基因丰度的定量,使用更多的SE reads可能更节省成本。如果目标是分析基因内亚型频率或执行非量化任务,如转录组组装,那么PE阅读应该是首选。为了确定对特定转录组进行量化的最优测序策略,可以使用RSEM模拟工具。

RNA-SEQ定量的质量评分的值

我们执行了模拟实验,以确定是否使用质量评分(而不是读取序列本身)来提高RNA-SEQ数据的定量准确性。执行两个SE模拟,每个模拟具有不同的测序误差模型。模拟使用鼠标Refseq转录程序集作为参考。在第一模拟中,根据该位置处的质量分数给出给定的读取位置,在给定的读取位置引入错误。也就是说,在具有PHRED质量分数的位置引入错误的概率问:是10.-问:/ 10.。在第二仿真中,测序误差的概率给出了质量分数问:根据培训数据确定(我们称之为“经验”模型)。对于两个模拟数据集,我们使用两种不同的模型与RSEM的丰富估计了:一种将质量分数考虑(“质量分数”模型),以及使用我们原始错误模型的第二个,这不会考虑质量分数,而是估计作为位置和基本依赖性的测序误差模型(“配置文件”模型)。对于两个模拟数据集上的两个RSEM模型的丰度估计计算MPE,10%EF和FP统计数据(表5.)。我们发现,即使排序错误遵循质量分数给出的理论概率,质量分数模型的准确性实际上与轮廓模型的难以区分。模拟与ensemble文本集给出了类似的结果(附加文件6.)。这表明,为了从RNA-Seq数据进行量化,来自illumina生成reads的质量分数提供的附加信息很少。然而,这并不意味着不需要对序列错误进行建模。相反,这些结果表明,一个有效的测序错误模型可以从只读序列学习。我们强调,这些结果只是用于量化的任务。SNP检测等应用程序肯定需要考虑质量分数信息。

表5质量分数建模对量化精度的影响

结论

我们介绍了RSEM,用于从RNA-SEQ数据进行基因和同种型水平定量的软件包。通过使用实际数据的模拟和评估,我们已经表明RSEM对其他量化方法具有卓越的性能或相当的性能。与其他工具不同,RSEM不需要参考基因组,因此应该对De Novo转录组组件进行定量。软件包具有许多其他有用的功能,用于RNA-SEQ研究人员,包括可视化输出和CI估计。此外,该软件是用户友好的,通常需要大多数命令来估计原始RNA-SEQ读取的丰富,并使用标准格式的参考签字文件。最后,RSEM的仿真模块对于确定用于量化实验的最佳测序策略是有价值的。利用该模块,我们已经确定了大量的短期读取是最适合基因级定量的,而PE读数可以改善小鼠和人记录组的基因异构型频率。

RSEM将继续开发,以保持最新的测序技术和研究的RNA-Seq协议的细节。未来的工作将包括在模型中加入额外的偏差,如序列特定的读取位置偏好[38.40]和特定于转录物的读分布[41.]。我们还打算增加对由ABI SOLiD序列生成的颜色空间读取和读取对齐中的indels的支持。

可用性和需求

  • 项目名称:rsem.

  • 项目主页欧宝直播官网apphttp://deweylab.biostat.wisc.edu/rsem

  • 操作系统:任何posix兼容的平台(例如,Linux, Mac OS X, Cygwin)

  • 编程语言:c++, Perl

  • 其他要求:pthreads;领结 [29.]对于默认对齐模式rsem-calculate-expression;R为rsem-plot-model

  • 执照:GNU GPL。

方法

统计模型

RSEM使用的统计模型可以由图中所示的定向图形模型表示4.。与我们原来的统计模型比较[7.],该模型在四个方面进行了扩展。首先,现在使用一对观察到的随机变量对PE读取进行建模,R.1R.2。对于SE读数,R.2被视为潜在的随机变量。其次,从读取或一对读取的片段的长度现在建模并由潜随机变量表示F。的分布F是否使用全局片段长度分布来指定λ.F(给定且标准化)截断并标准化,因为片段来自有限长度的特定转录物。那是,在哪里一世是成绩单的长度吗一世。首先引入使用用于RNA-SEQ定量的片段长度分布,[6.]对于配对结束数据,后来由[4.]对于单端数据。

图4.
装具

RSEM使用的定向图形模型。该模型包括N一组随机变量,一个每个测序的RNA-SEQ片段。片段N.,其父抄本,长度,开始位置和方向由潜在变量表示GN.FN.S.N.O.N.分别。对于PE数据,观察到的变量(阴影圈)为读取长度(),质量分数()和序列()。对于SE数据,, 和没有观察到。模型的主要参数由载体给出θ.,这代表了来自每个转录物的片段的现有概率。

第三个扩展允许读取的长度变化(例如454数据)。读取的长度由观察到的随机变量表示L.(或者L.1L.2对于PE读数)。类似于片段长度模型,分布L.是否使用全局读长度分布指定λ.R.,这被截断并归一化给定特定的片段长度。在符号,。最后,读取的质量分数现在用于模拟该读取序列的概率。读取的质量分数字符串由随机变量表示问:。为量化的目的,我们不指定问:随机变量,因为观察到并且不依赖于任何其他随机变量(即,我们只对读取其质量分数的读取的条件可能性感兴趣)。我们使用经验误差函数而不是依赖于所暗示的错误的理论概率,而不是依赖于所暗示的错误。ε.。鉴于读取位置一世有质量分数问:一世并且来自参考字符C,读字符的条件概率R.一世P.R.一世|问一世, C)=ε.R.一世,问:一世, C)。如果质量分数不可用或不可靠,那么我们的位置和参考字符依赖的错误模型[7.]可以使用。

期望 - 最大限度

给定一组RNA-SEQ数据,RSEM的主要目标是计算参数的ML值,θ.,在上一节中呈现的模型,其中θ.一世表示一个片段是从抄本衍生出来的概率一世(和θ.0.表示“噪声”文本,从中可能派生出没有对齐的读取)。一旦估计,θ.值被转换为分数(我们用τ.)使用公式在哪里是成绩单的有效长度一世[6.[给出对于poly(a) - 转录物和对于聚(a)+转录物,在哪里一种是poly(a)尾巴的长度。有效长度可以认为是一个片段可能开始的位置在转录序列的平均数量一世

RSEM计算近似ML估计值θ.使用EM算法(有关详细信息,请参阅[7.])。这个估计是近似的,因为对齐是用来限制读取的可能位置的。在EM的前20次迭代(每100次迭代)中,更新片段长度、RSPD参数和测序误差分布θ.。在所有其他迭代中,只有θ.参数更新。这种估计策略是对原始的RSEM实现的改进,原始的RSEM估计除了θ.在EM之前使用唯一映射读取。算法在全部停止θ.一世值≥10-7具有不到10的相对变化-3。收敛后,RSEM输出MLτ.值,以及从每个转录本衍生的RNA-Seq片段数的期望值,给定ML参数。

为了加快推断,会过滤掉读取大量对齐(默认情况下至少200个)的数据。我们另外过滤掉了可能来自poly(A)尾部的读取,因为对齐器可能不总是检测到这些读取有许多对齐。由于对齐近似和这种过滤策略,所描述的EM程序的直接应用将导致包含高度重复序列(包括poly(a)尾巴)的转录本的偏丰度估计。因此,我们对ML估计器进行了轻微的修改,以调整这种偏差。的成绩单一世,我们计算一个值m一世,这是从成绩单生成的读取(片段)的概率一世不会有大量的对齐。一般来说,价值m一世取决于片段长度分布,读取长度分布,RSPD,方案的股线特异性以及聚(a)尾的长度。在EM的最大化步骤期间,我们的修改是设置θ.一世成比例C一世/(纳米一世), 在哪里C一世是源自转录物的预期片段数一世N是未过滤片段的总数。

吉布斯抽样

除了计算ML估计,RSEM使用贝叶斯版本的模型来计算PME和丰度的95% ci。在贝叶斯模型中θ.参数被视为具有狄利克雷先验分布的潜在随机变量。狄利克雷分布的参数(α.)设为1,使先验等价于均匀分布,最大后验估计θ.等于ML估计。

RSEM通过两阶段采样过程计算pme和95% CIs。首先,折叠式Gibbs采样算法的一个标准应用[42.]用于获取计数向量的采样集合,其中每个向量表示映射到每个转录的片段的数量。在Gibbs采样算法的每一轮中,每个片段的真实映射被重新采样,给定所有其他片段的当前映射。根据EM算法计算的ML参数对每个片段的初始映射进行采样。该算法对1000个计数向量进行采样。

采样过程的第二阶段涉及采样值θ.给定从第一阶段采样的每个计数向量。给定一个计数向量,C, 一种θ.从其后部分布采样载体,这只是一种dirichlet分布α.一世=C一世+ 1.对于每个计数矢量,50θ.载体是采样的,导致50,000个样品θ.。这θ.将样品转化为转录物分裂(τ.)然后总结为生产每项转录物的丰富的PME和95%CI。

为了验证RSEM生成的CI,我们模拟了使用鼠标Refseq注释和估计的CIS的RNA-SEQ数据,并具有5​​0%的可信度,可信度高达95%。然后,我们计算了成绩单的一部分,真正的丰富在信誉间隔内下降,除了至少1个TPM的所有成绩单中(表6.)。结果表明,95%的可信度间隔合理准确,并且这些间隔是紧密的(由于正确预测的转录水平的分数与可信度水平的步骤下降)。从鼠标集团算法仿真数据估计的CIS估计不太准确(附加文件7.)。我们调查了为什么CIS在该组上不太准确,发现许多CI由于Ensembl集合中的Dirichlet之前和较大数量的转录物而向下偏置。虽然Ensembl集合的CIS没有表现出来以及Refseq集合,但我们预计它们仍然非常有用,以便在样本中比较丰度,因为CIS中的偏差应该是一致的。然而,这些结果表明,需要进一步的工作来开发能够更好地处理大量成绩单的现有分布,这些分布具有典型的RNA-SEQ数据集。

表6 RSEM可信区间估计的准确性

参考序列

两个来源用于参考转录程序集注释:来自UCSC基因组浏览器数据库的Refseq Gene注释[26.和ensemble发行版63注释[27.]。用于人员和小鼠的Refseq注释的基因组版本分别构建36.1(UCSC HG18)并分别构建37(UCSC MM9)。对于人类注释,使用构建37(UCSC HG19)代替。REFSeq和Ensembl注释都被过滤以除去位于非标准染色体上的非编码基因和基因(例如,CHR1_Random和CHR5_H2_HAP1)。此外,我们鉴定了位于多重非重叠位置的少量Refseq基因,并重命名它们,使得每个基因源自独特的基因座。

模拟

RSEM使用的生成统计模型很容易用于模拟RNA-SEQ数据。除了模型的主要参数(例如,丰富,片段和读取长度分布以及测序误差模型参数)之外,必须提供质量分数信息以模拟读取。出于本文的模拟的目的,我们使用了一阶马尔可夫链模型的质量评分,以为每个读取产生质量得分串。从序列读取存档(SRA)的真实RNA-SEQ数据集中学习了仿真模型的参数。从SRA Accession SRX026632学习鼠标仿真参数,该参数由来自C2C12小鼠肌细胞的Poly(A)+ RNA库测序的〜420万PE 35碱基读数[3.]。对于人类模拟,我们从SRA Resciveion SRX016368学习参数,其中由MAQC UHR样本测序的〜9300万SE 35读数[37.]。随着人类数据的读取,RSEM提供了碎片长度分布μ.= 200,σ.= 29,以便了解其他模型参数。然而,对于模拟,人类和小鼠的数据生成的片段长度分布与μ.= 280σ.= 17,用于[]3.]进行类似的模拟。最后,为了模拟mrna有poly(A)尾巴这一事实,我们在每个转录本的末尾添加了125 As。

MAQC验证

从基因表达(Geo)下载Taqman QRT-PCR测量(平台GPL4097)。对于每个样品,将基因的丰度作为将检测阈值传递给所有技术复制的所有探针的值的平均值。下列的 [37.],如果一个基因的探针有75%超过了检测阈值,则认为该基因表达了。将GEO记录中每个基因的RefSeq转录条目与基因组注释中每个基因的RefSeq转录条目进行比较。仅保留GEO条目为注释条目超集的基因。这样做是为了确保RNA-Seq估计数与qRT-PCR探针的估计数具有可比性,而qRT-PCR探针的估计数仅保证与GEO记录中给出的样本对应。结果共检出716个基因,其中在UHR和HBR中分别检出656个和618个。

为了分析过滤后的qRT-PCR基因在整个人类RefSeq基因集中的代表性,我们计算了每个基因的“可映射性”。对于每个亚型,我们从其序列中生成所有可能的35个碱基读取,并用Bowtie将它们与整个转录集对齐,最多允许两种不匹配。一个亚型的可映射性被计算为仅与其基因的亚型对齐的读取的部分。然后,一个基因的可映射性被计算为其亚型可映射性的平均值。

缩写

体育:

paired-end

SE:

单端

ml:

最大似然

中外职业:

后部平均估计

置信区间:

可信度区间

MPE:

平均误差百分比

EF:

错误的部分

外交政策:

假阳性

RSPD:

读取开始位置分发

参考文献

  1. 1。

    Wang Z,Gerstein M,Snyder M:RNA-SEQ:用于转录组织的革命性工具。自然评论Genetics 2009,10:57-63。10.1038 / NRG2484

    公共医学中心CAS文章PubMed.谷歌学者

  2. 2。

    伯纳特R, Rätsch G: rQuant。一个基于rna测序的转录本定量工具。核酸研究2010,(38 Web服务器):W348-51。

  3. 3。

    Katz Y, Wang ET, Airoldi EM, Burge CB: RNA测序实验的分析和设计。自然科学学报,2010,37(6):761 - 768。10.1038 / nmeth.1528

    公共医学中心CAS文章PubMed.谷歌学者

  4. 4。

    Nicolae M, Mangul S, Măndoiu I, Zelikovsky A:从RNA-Seq数据中估计可变剪接异构体频率。《生物信息学算法》,《计算机科学》课堂讲稿。编辑:Moulton V, Singh M. Liverpool, UK:施普林格Berlin/Heidelberg;2010:202 - 214。

    谷歌学者

  5. 5。

    江H,Wong WH:RNA-SEQ中同种型表达的统计推论。Bioinformatics 2009,25(8):1026-1032。10.1093 / Bioinformatics / BTP113

    公共医学中心CAS文章PubMed.谷歌学者

  6. 6。

    Trapnell C,Williams B,Pertea G,Mortazavi A,Kwan G,Van Baren M,Salzberg S,Wold B,Pachter L:转录程序组装和RNA-SEQ定量揭示了细胞分化期间未经发布的转录物和同种型切换。自然生物技术2010,28(5):511-515。10.1038 / NBT.1621

    公共医学中心CAS文章PubMed.谷歌学者

  7. 7.

    Li B,Ruotti V,Stewart RM,Thomson Ja,Dewey CN:RNA-SEQ基因表达估计与读取映射不确定性。Bioinformatics 2010,26(4):493-500。10.1093 / Bioinformatics / BTP692

    公共医学中心文章PubMed.谷歌学者

  8. 8.

    序列计数数据的差异表达分析。中国生物医学工程学报,2011,31(1):1 - 6。

    公共医学中心文章PubMed.谷歌学者

  9. 9.

    罗宾逊MD,麦卡锡DJ,SMCYTH GK:Edger:用于数字基因表达数据差异表达分析的生物导体包。生物信息学2010,26:139-40。10.1093 / Bioinformatics / BTP616

    公共医学中心CAS文章PubMed.谷歌学者

  10. 10。

    Guttman M,Garber M,Levin JZ,Donaghey J,Robinson J,Adiconis X,Fan L,Koziol MJ,Gnirke A,Nusbaum C,Rinn JL,Lander ES,Regev A:AB初始重建鼠标中的细胞类型特定转录om。揭示了Lincrnas的保守的多偏振结构。自然生物技术2010,28(5):503-510。10.1038 / NBT.1633

    公共医学中心CAS文章PubMed.谷歌学者

  11. 11.

    Robertson G,Schein J,Chiu R,Corbett R,Field M,Jackman SD,Mungall K,Lee S,Okada HM,Qian JQ,Griffith M,Raymond A,Thiessen N,Cezard T,Butterfield Ys,Newsome R,Chan SK,她R,Varhol R,Kamoh B,Prabhu Al,Tam A,Zhao Y,Moore Ra,Hirst M,Marra Ma,Jones SJM,无源PA,Birol I:De Novo集装和RNA-SEQ数据分析。自然方法2010,7(11):909-12。10.1038 / nmeth.1517

    CAS文章PubMed.谷歌学者

  12. 12.

    Grabherr Mg,Haas Bj,Yassour M,Levin JZ,Thompson Da,Amit I,Adiconis X,Fan L,Raychowdhury R,Zeng Q,Chen Z,Mauceli E,Hacohen N,Gnirke A,Rhind N,Di Palma F,BirrenBW,NUSBAUM C,LINDBLAD-TOH K,Friedman N,Regev A:来自RNA-SEQ数据的全长转录组件,没有参考基因组。自然生物技术2011,29(7):644-52。10.1038 / NBT.1883

    公共医学中心CAS文章PubMed.谷歌学者

  13. 13。

    Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M:RNA测序定义的酵母基因组的转录景观。科学2008,320(5881):1344-1349。10.1126 / Science.11​​58441.

    公共医学中心CAS文章PubMed.谷歌学者

  14. 14。

    Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y: RNA-seq:技术重现性的评估和与基因表达阵列的比较。基因组研究2008,18(9):1509-17。10.1101 / gr.079558.108

    公共医学中心CAS文章PubMed.谷歌学者

  15. 15.

    Morin R, Bainbridge M, Fejes A, Hirst M, Krzywinski M, Pugh T, McDonald H, Varhol R, Jones S, Marra M:使用随机引物cDNA和大规模平行短读测序分析HeLa S3转录组。生物工程学报,2008,28(2):1 - 6。10.2144 / 000112900

    CAS文章PubMed.谷歌学者

  16. 16。

    王X,吴Z,张X:同种型丰度推理提供了RNA-SEQ中基因表达水平的更准确估计。中国生物信息学与计算生物学杂志2010,8(4):177-92。

    CAS文章PubMed.谷歌学者

  17. 17。

    FAULKNER GJ,Forrest Arr,Chalk Am,Schroder K,Hayashizaki Y,Carninci P,Hume Da,Grimmond SM:用于多映射短序列标签的救援战略通过笼子改进转录活动的调查。基因组学2008,91(3):281-8。10.1016 / J.YGENO.2007.11.003

    CAS文章PubMed.谷歌学者

  18. 18.

    Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B: RNA-Seq定位和定量哺乳动物转录组。自然方法2008,5(7):618 - 8。10.1038 / nmeth.1226

    CAS文章PubMed.谷歌学者

  19. 19.

    冯军,李伟,蒋涛:基于短序列读码的同源型推断。计算生物学学报,2011,18(3):305-21。10.1089 / cmb.2010.0243

    公共医学中心CAS文章PubMed.谷歌学者

  20. 20。

    Paşaniucb,Zaitlen n,Halperin E:准确估计RNA-SEQ实验中同源基因的表达水平。中国计算生物学2011,18(3):459-68。10.1089 / cmb.2010.0259

    文章PubMed.谷歌学者

  21. 21。

    Richard H,Schulz MH,Sultan M,NürnbergerA,Schrinner S,Balzereit D,Dagand E,Rasche A,Lehrach H,Vingron M,Haas SA,Yaspo ML:RNA-SEQ实验中的外显子表达水平预测替代同种型。核酸研究2010,38(10):E112 ..

    公共医学中心文章PubMed.谷歌学者

  22. 22。

    Taub M,Lipson D,Speed TP:用于分配模糊的短读的方法。信息和系统的通信2010,10(2):69-82。

    文章谷歌学者

  23. 23。

    De Bona F, Ossowski S, Schneeberger K, Ratsch G:短序列reads的最佳剪接比对。2008年生物信息学,24 (16):i174 - 180。10.1093 /生物信息学/ btn300

    文章PubMed.谷歌学者

  24. 24。

    Trapnell C,Pachter L,Salzberg SL:Tophat:发现带RNA-SEQ的接头连接点。Bioinformatics 2009,25(9):1105-11。10.1093 / Bioinformatics / BTP120

    公共医学中心CAS文章PubMed.谷歌学者

  25. 25。

    Au KF,江H,林L,XING Y,WONG WH:脾脏映射从配对终端RNA-SEQ数据检测接头。核酸研究2010,38(14):4570-8。10.1093 / nar / gkq211

    公共医学中心CAS文章PubMed.谷歌学者

  26. 26。

    富士塔Pa,Rhead B,Zweig as,Hinrichs As,Karolchik D,Cline Ms,Goldman M,Barber GP,Clawson H,Coelho A,Diarkhans M,Dreszer Tr,Giardine Bm,Harte Ra,Hillman-Jackson J,HSU F,Hsu F,Kirkup V,Kuhn RM,学习K,Li Ch,Meyer LR,Pohl A,Raney Bj,Rosenbloom KR,Smith Ke,Haussler D,Kent WJ:UCSC Genome浏览器数据库:Update 2011.核酸研究2011,(39数据库):D876-82。

  27. 27。

    Flicek P,Amode Mr,Barrell D,Beal K,Brent S,Chen Y,Clapham P,Coate G,Fairley S,Fitzgerald S,Gordon L,Hendrix M,Hotllier T,Johnson N,KähäriA,Keefe D,Keenan S那Kinsella R, Kokocinski F, Kulesha E, Larsson P, Longden I, McLaren W, Overduin B, Pritchard B, Riat HS, Rios D, Ritchie GRS, Ruffier M, Schuster M, Sobral D, Spudich G, Tang YA, Trevanion S, Vandrovcova J, Vilella AJ, White S, Wilder SP, Zadissa A, Zamora J, Aken BL, Birney E, Cunningham F, Dunham I, Durbin R, Fernández-Suarez XM, Herrero J, Hubbard TJP, Parker A, Proctor G, Vogel J, Searle SMJ: Ensembl 2011. Nucleic Acids Research 2011, (39 Database):D800–6.

  28. 28。

    Roberts A,Pimentel H,Trapnell C,Pachter L:使用RNA-SEQ鉴定注释基因组中的新转录物。Bioinformatics 2011. 2011年6月21日在线发表于2011年6月21日首次出版

    谷歌学者

  29. 29。

    Langmead B, Trapnell C, Pop M, Salzberg SL:人类基因组短DNA序列的超快和高效记忆对齐。中国生物医学工程学报,2009,30 (3):457 - 461 ..

    公共医学中心文章PubMed.谷歌学者

  30. 30。

    Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, 欧宝直播官网appHomer N, Marth G, Abecasis G, Durbin R: Sequence Alignment/Map format and SAMtools。生物信息学2009,25(16):2078 - 9。10.1093 /生物信息学/ btp352

    公共医学中心文章PubMed.谷歌学者

  31. 31。

    Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler, David: UCSC的人类基因组浏览器。基因组研究,2002,12(6):996-1006。

    公共医学中心CAS文章PubMed.谷歌学者

  32. 32。

    李家,江H,Wong WH:在RNA-SEQ数据中以短读率建模不均匀性。Genome Biology 2010,11(5):R50 ..

    公共医学中心文章PubMed.谷歌学者

  33. 33。

    磁通模拟器[http://flux.sammeth.net/simulator.html.]

  34. 34。

    NCBI参考序列:当前状态、政策和新举措。核酸研究2009,(37数据库):D32-6。

  35. 35。

    Bustin SA:为什么需要qPCR出版指南?- MIQE的例子。方法2010、50(4):217 - 26所示。10.1016 / j.ymeth.2009.12.006

    CAS文章PubMed.谷歌学者

  36. 36。

    施L,里德LH,琼斯WD, Shippy R,沃灵顿是的,贝克SC,科林斯PJ, de Longueville F,川崎,李肯塔基州,罗Y,太阳丫,Willey JC, Setterquist RA,费舍尔通用、通W,德拉甘YP,迪克斯DJ, Frueh弗兰克-威廉姆斯,Goodsaid调频,赫尔曼·D,詹森房车,约翰逊CD, Lobenhofer EK,宫殿RK, Schrf U, Thierry-Mieg J,王C,威尔逊M, Wolber PK,张L,黑龙江,保W, Barbacioru CC,卢卡斯AB Bertholet V,两C,布罗姆利B, D,布朗Brunner,卡纳莱斯R,曹XM, Cebula助教,陈JJ,程J,楚TM, Chudin E,科森J,葡萄酒JC, cron LJ,戴维斯C,戴维森TS, Delenstarr G,邓X, Dorris D,雷欧AC, Xh粉丝,方H, Fulmer-Smentek年代,Fuscoe JC,加拉格尔K,通用电气W,郭,郭X,海格J, Haje PK,汉J,汉族T, Harbottle HC,哈里斯SC, Hatchwell E,豪泽CA,海丝特年代,香港H, Hurban P,杰克逊SA,霁H,骑士CR、郭WP,勒克莱尔我,利维年代,李求刘C,刘Y, Lombardi MJ,马Y, Magnuson SR, Maqsodi B, McDaniel T,梅N, Myklebost啊,宁B, Novoradovskaya N,奥尔女士,奥斯本TW, Papallo,帕特森老师:微阵列质量控制(MAQC)项目显示了平台间和平台内基因表达测量的重复性。生物工程学报,2006,24(9):1151-61。10.1038 / nbt1239

    CAS文章PubMed.谷歌学者

  37. 37。

    Bullard JH,法律e,Hansen Kd,Dudoit S:MRNA-SEQ实验中标准化和差异表达的统计方法评估。欧宝娱乐合法吗BMC生物信息学2010,11:94.101186 / 1471-2105-11-94

    公共医学中心文章PubMed.谷歌学者

  38. 38。

    Roberts A, Trapnell C, Donaghey J, Rinn JL, Pachter L:通过纠正片段偏倚改进RNA-Seq表达估计。中国生物医学工程学报,2011,32 (3):457 - 461 ..

    公共医学中心文章PubMed.谷歌学者

  39. 39。

    Wang et,Sandberg R,罗S,Khrebtukova I,张L,Mayr C,Kingsmore SF,Schroth GP,培训CB:人体组织转录组中的替代同种类调节。自然2008,456(7221):470-6。10.1038 / Nature07509.

    公共医学中心CAS文章PubMed.谷歌学者

  40. 40.

    Hansen KD,Brenner Se,Dudoit S:illumina转录组测序的偏见,由随机六聚集灌注引起。核酸研究2010,38(12):E131 ..

    公共医学中心文章PubMed.谷歌学者

  41. 41.

    吴Z,王X,张X:使用非均匀读取分布模型,以改善RNA-SEQ的同种型表达推理。Bioinformatics 2011,27(4):502-8。10.1093 / Bioinformatics / BTQ696

    CAS文章PubMed.谷歌学者

  42. 42。

    刘建生:贝叶斯计算中的折叠吉布斯采样器及其在基因调控问题中的应用。美国统计学会学报,1994,89(427):958-966。10.2307 / 2290921

    文章谷歌学者

下载参考

确认和资金

我们感谢Victor Ruotti,Ron Stewart,Angela Elwell,以及Jennifer Bolin的反馈,以及关于RNA-SEQ协议的有价值的讨论。我们还感谢此稿件的审稿人以获得其建设性评论。BL部分由James Thomson麦克阿瑟博士和Mutgridge研究所的资助部分资助了生物学和医学中的计算和信息学研究所。NIH授予1R01HG005232-01A1部分地支持CD。

作者信息

隶属关系

作者

通讯作者

对应于科林·N杜威

额外的信息

作者的贡献

BL写了RSEM软件,共同开发了方法和实验,进行了计算实验,并帮助起草了稿件。CD共同开发了方法和实验,并写了稿件。所有作者阅读并认可的终稿。

电子辅料

作者的原始提交的图像文件

权利和权限

本文在BioMed Central Ltd.的许可下发布了这是一个开放的访问文章,根据欧宝体育2021足球欧洲杯买球平台Creative Commons归因许可(http://creativeCommons.org/licenses/by/2.0.),允许在任何媒介上不受限制地使用、分发和复制,但前提是原稿被适当引用。

再版和权限

关于这篇文章

引用这篇文章

李,B.,杜威,C.N.RSEM:具有或不具有参考基因组的RNA-SEQ数据的准确转录物定量。欧宝娱乐合法吗12,323(2011)。https://doi.org/10.1186/1471-2105-12-323

下载引用

关键字

  • 丰度估计
  • 计数矢量
  • 片段长度分布
  • 读取长度分布
  • 转录分数
\