跳到主要内容

SpeaQeasy:用于R / Biocumond-Powered RNA-SEQ分析的表达分析和定量的可伸缩管道

摘要

背景

RNA测序(RNA-seq)是一种常见而广泛的生物检测方法,其产生的数据量越来越大。在实践中,在原始rna测序获得直接有价值的信息(如差异基因表达数据)之前,研究者必须执行大量的个人步骤。现有的软件工具通常是专门的,只执行一个更大的工作流程中的一个步骤,例如读取到参考基因组的对齐。对更全面和可重复的工作流程的需求导致了许多公开可用的RNA-seq管道的生产。然而,我们发现大多数需要计算专业知识来设置或在几个用户之间共享,没有积极维护,或者缺乏我们自己的分析中发现的重要特性。

结果

为了满足这些问题,我们开发了一种用于表达分析和量化(SPEAQeAsy)的可扩展管道,该管道易于安装和共享,并为R / Biocumondock下游分析解决方案提供桥梁。SpeaQeaeasy正在跨计算框架(SGE,Slurm,Local,Docker集成)和不同的配置文件(http://research.libd.org/speaqeasy/)。

结论

SPEAQeasy对用户友好,降低了生物学家和临床医生对RNA-seq数据处理的计算域进入壁垒,因为主要输入文件是一个包含样本名称和对应的FASTQ文件的表格。其目标是提供一种灵活的管道,无论研究人员的技术背景或计算环境如何,都可以立即使用。

背景

通过高通量测序的出现,基因表达分析已经彻底改变了[123.]它在RNA测序中启用了爆炸(RNA-SEQ)项目[4.5.6.]。测序机通常以FASTQ格式输出数据[7.根据给定实验的读取长度和覆盖深度,可以对每个样品进行几千兆字节的磁盘空间。在执行此数据的任何统计分析之前,如差异表达[8.9.],研究人员需要处理千兆字节甚至TB的数据,以压缩它并提取所需信息。这样做需要计算苛刻的步骤,如RNA-SEQ对齐[10.11.12.]并读取量化[13.14.]。自RNA-SEQ的出现以来,设计了一种不同的生物信息学软件,旨在解决RNA-SEQ处理的具体步骤[15.16.17.]。

已经开发了几种RNA-SEQ加工生物信息化管道,以将这些所需的处理步骤系在一起[18.19.20.21.22.23.]。这些方法的共同目标涉及帮助生物学家和研究人员将这些生物信息学溶液一起编织,以统一地从RNA-SEQ项目具有不同特征的项目;例如,单端与配对端。RNA-SEQ处理管道具有不同的特性,例如RNA-SEQ对准器的选择和它们使用的质量控制步骤。每个RNA-SEQ处理管道的设计选择可能会影响哪些分析研究人员可以使用处理的数据执行。此外,软件安装,可移植性和支持级别的易于影响这些管道的可用性。

近年来,我们在几个RNA-SEQ项目中工作了[24.25.26.]并设计了一个RNA-SEQ处理管道,满足我们的需求,以产生质量检查和统一处理的数据,然后我们可以在我们的统计分析中使用我们可以使用多种质量控制度量。然后,我们通过NextFlow框架提高了本市管道的可用性和可移植性[27.]。我们的解决方案,SPEAQeasy,最终生成范围ummarizedexperiment.R对象[28.]这是许多Biocumond R包的基础块和它们提供的统计方法[8.9.29.30.]。SpeaQeasy的其他关键特征是它产生与DNA基因分型信息偶联的信息可用于检测和固定样品掉扫描[31.32.33.],RNA-SEQ处理质量指标,有助于统计调整样本的质量差异[5.,这些数据为未注释转录组的探索提供了动力,而且由于Nextflow的配置灵活性,这些数据可以在多个计算框架中使用[27.]。

结果

概述

我们已经开发了一个便携式RNA测序(RNA-seq)处理管道,SPEAQeasy,提供分析准备的基因表达文件(图。1)。SpeaQeasy是一个nextflow供电[27.从一组FASTQ文件开始的管道[7.,执行质量评估和其他处理步骤(实现:概述),并生成易于使用的R对象[29.]。SPEAQeasy不仅有助于传统RNA-seq下游分析,如基因差异表达,也有助于注释转录组的探索[34.35.[量化跨越外显子连接的读取并提供BigWig基对覆盖文件[36.]。输入RNA-SEQ读取使用Hisat2对齐[37.使用Kallisto的参考基因组和伪对齐与参考转录组[38.]或鲑鱼[39.]。基因,外显子,外显子-外显子连接然后使用特征计数[14.]和Regtools [40]。然后,由此产生的质量指标和读取量化输出进行创建概括分析[28.]结合读取量化,表达式功能信息和处理和质量指标的对象。然后可以与各种各样的生物导体一起使用这些概括的物体[29.[r包以执行下游分析,如差异表达[8.9.30.]鉴定差异表达的区域(der)[41.]和探索数据分析[42.43.]。对于人类样品,SpeaQeasy还可以进行与BCFTOOLS的基于RNA的基因型[44.它可以与基于DNA的基因型数据偶联以识别和解决样品渗透(图。2:下游)。此外,对于涉及ERCC SPIKE-INS的实验[45.],SpeaQeasy通过样品产生图,以快速可视化92个ERCC转录物中的每一个的预期与测量浓度(附加文件1:图S1)。因此,SPEAQeasy简化了任何基于人类、小鼠和大鼠衍生数据的RNA-seq项目,并为生物导体宇宙提供了一座桥梁。此外,基于nextflow的实现允许更有经验的开发人员快速添加额外的步骤或切换软件,创建一个灵活和可伸缩的RNA-seq处理管道。我们编写了一个循序渐进的示例,演示如何替换修剪工具Trimmomatic [46.[修剪加拉尔[47.],作为有兴趣修改Speaqeasy的组件的人的指南(http://research.libd.org/SPEAQeasy/software.html#using-custom-software)。

图1
图1

samples.manifest一个例子。样本.Manifest.Manifest.申请paired-end样品由五个标签分隔列:(1)第一个FASTQ文件的路径,(2)可选的第一个FASTQ文件的md5签名,(3)对第二个FASTQ文件路径,(4)可选的第二个FASTQ文件的md5签名,(5)样本ID。前两个条目使用相同的样本ID,当一个生物样本在多个通道中测序,从而生成多个FASTQ文件时,这很有用。前两对FASTQ文件将被合并

图2
图2.

Speaqeasy工作流程图。每个管道执行的简化工作流程图。红色框表示FASTQ文件输入到管道;绿色着色表示来自管道的主要输出文件;剩余框表示计算步骤。黄色步骤是可选的还是总是执行的;例如,准备一组特定的注释文件一次,并使用缓存进行进一步运行。最后,蓝色步骤是在每个管道执行时发生的普通过程。工作流程向下进行,图中的每行隐式表示并行执行若干计算步骤的能力

配置SpeaqeAsy.

SPEAQeasy,通过Nextflow [27.,可以部署在各种高吞吐量计算环境,如:本地机器,Sun/Son Grid Engine (SGE)计算集群,启用Docker的服务器[48.和云计算环境[49.例如亚马逊AWS。Nextflow提供了使用特定于当前计算环境的配置文件运行相同代码的能力。为了方便使用SPEAQeasy,我们为软件和注释文件提供了Docker容器,并为这样的环境提供了SPEAQeasy配置文件。对于SGE或其他集群,SPEAQeasy也可以使用lmod [50.]软件模块,例如我们为JHPCE SGE集群提供(https://jhpce.jhu.edu/)。为了在特定计算环境中使用SpeaeAsyy,识别示例配置文件(实现:配置;附加文件3.:最多最类似于设置的表S1,请相应地进行复制和编辑。我们的JHPCE LMOD文件和Docker Setup文件为希望手动设置软件依赖项的研究人员提供安装说明(http://research.libd.org/SPEAQeasy)。

要在特定计算机设置上测试SpeaeAsy,请首先识别适合环境的“主”脚本。存在于JHPCE或SLURM,SGE或本地环境中执行的脚本。级别庞大的群集的用户将启动SpeaQeasy的测试运行:

$$ {\ texttt {sbatch}} \; {\ texttt {运行}} \ _ {\ texttt {pipeline}} \ _ {\ texttt {slurm}} {\ texttt {.sh}} $$

SpeaQeasy为每个参考生物和链的组合提供测试样品。如果用户没有删除,也使用这些测试样本——small_test选项并没有指定包含示例的目录。使用包含示例的文件——输入选项(实现:测试样本)。虽然典型的测试运行在大约15分钟内可以完成,但第一个执行将显着更长,因为必须下载参考和带注释相关的文件,并为给定的有机体和注释版本构建。成功完成后,日志文件speaqeasy_output.log.将在底部指示此成功,以及诸如总运行时等细节。您可以检查并熟悉SPEAQeasy (Results: outputs)的输出文件,默认情况下,这些文件位于原始存储库的子文件夹中结果。我们的文档提供了进一步的详细信息(http://research.libd.org/speaqeasy/)。

常见SPEAQeasy选项

一旦安装了Speaqeaeasy,研究人员必须创建一个清单文件,其中包含有关要处理的RNA-SEQ样本的信息(实现:输入)。接下来,选择编写的“main”脚本以使用可用的作业调度程序(如果有的话)(实现:用例)。在此脚本中,研究人员可以修改特定分析的命令选项。具体地,需要选择适当的参考基因组的选择- 参考,这可能需要“HG19”,“HG38”,“MM10”或“RN6”。指定读取是否是单个或配对的选项- 样本,它取得“单曲”或“配对”。最后,研究人员将指示他们期望所有样本的链状模式遵守选项- 斯特朗德,这可能是“向前”,“反向”或“未命中”。Speaqeasy Infers作为质量控制措施的每个样品中存在的实际链状(实施:配置;图。3.:主要选择)。请参阅文档http://research.libd.org/SPEAQeasy有关详细的选择(实现:配置)。

图3
图3.

强制的选项在主SC.R.一世Pt.一种用户提供的三个必需信息是参考基因组、样本模式和所有样本中出现的期望链模式。有效的选项在该图中向右水平描绘。B.显示了完整命令的示例 - 在这种情况下,还指定了在没有Docker的SGE调度程序上运行的测试

SpeaQeAsy输出文件

SPEAQeasy的每次执行都会生成一些输出文件(实现:outputs, Additional file3.:表S2)。兴趣的主要产出之一是范围ummarizedexperiment.R对象[28.],其中包含有关序列范围,计数和每个功能的附加注释的信息。SpeaQeasy为每个特征类型生产单独的文件,包括基因,外显子和外显子连接。因为数据包装到范围ummarizedexperiment.对象,可以立即利用多种生物导体包,以便在使用isee等工具的交互式探索数据开始,以适合许可的常用用例进行进一步的分析。42.]。每个样本也会收集一系列质量指标,并保存在R数据帧和逗号分隔值文件中(附加文件3.:表S3)。因此,用户可以评估利息的指标,或利用信息控制进一步分析的感兴趣的协调因素。度量包括在对准期间的一致性,映射和未映射的读数的分数,分配给基因的读数部分和类似的数量。

SpeaQeasy还可选地为每个样本生成Bigwig覆盖文件,每个STRAND的一个平均覆盖文件[36.]。为了使样本之间的比较,覆盖范围标准化为4000万映射读取的100个基对。虽然可以直接使用BigWig文件,但SpeaQeasy执行额外的步骤以在基因组区域中量化覆盖范围。生成RDATA文件以描述表达的区域[41.],为涉及发现差分表达的地区的分析提供了基础。

对于人类样本,执行变体呼叫,最终为变体呼叫格式(VCF)的实验产生单个文件[51.]。此文件包含740个单核苷酸变体(SNV)密码编码站点的基因型信息,具有MAF> 30%(附加文件4.:补充文件1.在变体呼叫之后,每个人通常具有独特的基因型简档,并且可以利用这一点以与在排序之前生成的身份信息表一起识别错误标识的样本,通常使用高覆盖变体的子集RNA-SEQ数据(结果:涉及样品掉掉的示例用例)。

涉及示例交换的示例用例

我们提供了一个Vignette,以证明如何利用SPEAEASY输出来解决样本标识问题并执行差异表达分析(http://research.libd.org/speaqeasy-example/)使用Bipseq PhyseCentode项目的数据[52.[包括来自双极性疾病的批量RNA-SEQ数据影响来自杏仁醛的个体和神经典型的对照,和患有因子前刺铰霉菌(SACC)。为了再现性,Vignette通过如何在执行后续分析之前下载示例数据并运行SpeaQeaeSy。

首先,我们展示了如何通过在测序之前从用户提供的基因型调用构成自相关矩阵。每个SNP处的特定呼叫表示为数值,使得可以在任何两个样本之间计算总相关联。与由SpeaQeAsy进行的基因型调用产生相同的基质(图。4.一种)。然后可以利用用户提供的元数据以确定样品是否与相同标记的供体的样品相关,最终可以解决具有更复杂的身份问题的结论性样本次数或下降样本。最后,范围ummarizedexperiment.可以使用这些发现和示例元数据来更新来自SpeaQeaeSy的对象。

图4
图4.

SpeaQeasy的主要输出文件。SPEAQeasy生成蓝框中描述的文件,作为最终感兴趣的产品。基因、外显子和外显子-外显子连接的计数聚集成三个各自熟悉的R对象范围ummarizedexperiment.班级。这允许用户立即跟进许多生物导体工具以执行任何所需的差异表达分析。如果是- 抄本提供选项,产生RDATA文件以在基因组中提供对区域的表达信息。这允许用户使用许多生物导体包适当地计算差分表达区域。最后,对于人类样品的实验,调用变体最终在740个特定的SNV下产生单个基因型呼叫的基因型呼叫。与在测序样本之前记录的基因型数据一起,可以解决在测序过程中不可避免地发生的错误标签和其他身份问题(http://research.libd.org/speaqeasy-example.

接下来,我们从视觉上探讨基因表达变异的来源。首先,通过主成分分析,评估读取总数、一致性映射率等变量对表达的影响(图1)。4.b).我们还绘制了每个个体的前10个主成分,然后按性别和大脑区域划分,以了解这些变量对表达的影响。

之后,我们执行差异表达分析(附加文件3.:表S4 A,图。4.c).这涉及到计数的规范化刨边机[8.],形成感兴趣的设计基质,并控制异源性的计数变焦[53.]。林马[30.]用于构建表达的线性模型,从中,经验贝叶斯计算可以确定显着差异表达的基因。然后,我们选择高于特定意义阈值的基因,在这种情况下,P <0.2,以及对感兴趣的变量的绘图表达。我们展示了如何构建表达式热图Pheatmap.[54.]对于顶部基因,用群体标记为兴趣的协变量 - 在这种情况下,性别,脑区和诊断状态(图。4.d)。

最后,我们使用该包进行基因本体学分析clusterProfiler[43.]。其目的是将显著差异表达的基因与已知的功能和生物学过程联系起来。控件组成示例查询Comparecluster.功能,并将结果写入CSV格式(附加文件3.:表S4 B)。

讨论

RNA-SEQ的许多“端到端”管道已经公开可用[19.20.21.22.]。然而,大多数都很难安装或配置,需要手动处理与注释相关的文件,或者通常缺乏我们在SPEAQeasy中开发的特性(表S5)。

常见的管道安装模式涉及使用公寓[55.],其中用户激活和加载安装软件依赖性的环境。如果在系统上已经提供了Conda,则安装过程本身通常是简单的,并且记录良好。但是,在多个用户之间共享管道访问(例如,在研究组/实验室)通常是不经验的用户的不动制性,可能需要每个人单独安装,并且并不总是记录此常用用途。相比之下,SpeaQeasy提供了多个安装选项,并且多个用户可以使用单个副本共享单个安装实例:复制主脚本和可选的配置文件,然后可以为各个用例修改。首选安装方法依赖于NextFlow [27.]除非先前下载,否则在运行时自动提取预先指定的Docker图像;这种方法用于某些目前可用的管道[19.]。SpeaQeasy的目标之一是提供一种简单的安装方法,无论是对软件/环境管理工具(例如,Conda,Docker,奇点等)都不了解的知识也不是根访问权限。因此,我们还提供了一种通过单个命令执行的Linux用户的替代方法(实现:软件管理):

$$ {\ texttt {bash}} \; {\ texttt {install \ _software}} {\ texttt {.sh}} \; {\ texttt {“local”}} $$

SpeaQeasy中的另一个主要关注涉及最大限度地降低需要配置执行环境的管道的用户。虽然许多现有的管道 - 在一些资源管理器/作业调度平台上的理论支持执行,但很少被预先配置为真正利用单独的设置。例如,基于Snakemake的[56.Pipelines [21.22.]允许规范CPU核心的总数分配,在本地计算机上行事相同,如任意计算群集。但是,在实践中,群集用户通常必须考虑几个其他硬件资源,例如内存或磁盘空间使用情况。最值得注意的是,基于级别的基于级别的集群的用户可以根据各个作业的指定运行时间来收取。在NextFlow和基于Snakemake的工作流程的情况下,各个作业在每个流水线组件内部提交,通常它隐式留给用户担心每个组件的时间规范。要解决此常用用例,我们已经为许多环境(本地执行,基于SGE的群集,基于Slurm的群集)编写和测试了配置文件,为作业运行时,内存和磁盘等变量建立明智的默认值用法。

SpeaQeasy提供其他杂项特征,我们常常或在其他可用的管道中常见(附加文件3.:表S5)。第一个涉及可以自动处理跨越多个文件的输入FASTQ样本。每一行样本.Manifest.Manifest.文件(实现:输入)指定样本的一个读取或一对读取的路径,然后是关联的ID;对于跨输入FASTQ文件拆分的示例只会对输入文件的每个集合(行)重复相同的ID。另一个功能是自定义每个示例日志记录,它跟踪所执行的确切系列命令,以及一些其他上下文有助于调试,例如相关的工作目录,退出状态和每个进程的其他日志记录信息(附加文件2:图S2)。在观察随着管道在复杂性的过程中,我们有动力实现此功能,因此越来越需要了解NextFlow的实现细节以调试执行错误。因为即使是一个正确的书面软件管道在处理步骤的输入意外不同或软件有一个错误时,我们也可以遇到错误,但我们相信没有专门调试工具的管道对大多数用户无法访问。

软件管道有时不会积极维护。鉴于我们对使用Speaqeasy的兴趣我们[24.25.26.57.],我们正在积极地维护SpeaeAsy,通过将其调整为释放新的软件,因为在SpeaQeaeAsy依赖项的较新版本中解析了漏洞。SpeaQeasy包括一个示例数据集,我们在内部用于测试执行时,我们将更新进行SpeaQeaeSy。鉴于SpeaQeAsy和NextFlow的开源性质,如果用户对交换处理工具或想要扩展到其他基因组引用的支持,则可以调整SpeaQeAsy代码mm10.RN6.hg19hg38。SpeaQeAsy代码可在GitHub上获得(https://github.com/lieberinstitute/speaqeasy.https://github.com/lieberinstitute/speaqeasy-example),并且可以通过与用户的互动扩展。

我们预计Speaqeasy将在更精细的分辨率下探索基因表达,例如使用外显子和外显子连接数据。后者是强大的,用于探索未注释的转录组以及基对覆盖数据[35.]。SPEAQeasy将受益于统计和生物信息学方法的发展,这些方法将跨多个表达层次的结果整合起来。

实现

概述

管道执行始于读取质量和其他质量指标的初步量大,通过FASTQC 0.11.8 [15.]。然后使用Trimmomatic 0.39可选地修剪读取[46.[并使用FASTQC再次进行修整后修整后的质量评估。与Hisat2 2.1.0进行参考基因组的对准[37.],与Kallisto 0.46.1的转录组上的伪公平0.46.1 [38.或三文鱼1.2.1 [39.]。Regtools的组合0.5.1 [40]和featurecounts(subread 2.0.0)[14.[用于量化基因,外显子和外显子连接。同时,用生物导体可选地计算表达区域(ERS)[29.] r package derfinder [41.]。结果是一个范围ummarizedexperiment.[29.]具有计数信息的对象,具有ER信息的RDATA文件,以及可视化关联数据的图表。使用BCFTOOLS 1.10.2 [44.]生成VCF文件[51.]对于实验。SpeaQeAsy是灵活的,允许使用更新的软件来代替上面列出的软件。

配置

SpeaQeasy的使用涉及配置两个文件:“Main”脚本和配置文件。“main”脚本包含运行管道的命令,以及特定于输入数据的选项,以及关于管道如何表现的基本选择。In this script, the researcher must specify if reads are paired-end or single-end, the reference species/genome (i.e. hg38, hg19, mm10, or rn6), and the expected strandness pattern to see in all samples (e.g. “reverse”). Strandness is automatically inferred using pseudoalignment rates with kallisto [38.,管道可以配置为在断言链和推断链之间出现任何不一致时停止,或者只是警告并继续。特别地,我们使用每个样本的一个子集来对参考转录组进行伪比对,尝试两个rf-strandedfr-strandedKallisto接受的命令行选项。每个选项的成功对齐读数的数量用于推导每个样本的实际链。例如,每个选项的大约相等的数(40-60%)对齐的读数表明读取缺乏股线特异性,因此“未命中”;两者之间的足够大的折叠差异表示“反向”或“向前”-Strandness。具体而言,大于80%的总读取对齐必须使用rf-stranded推断样品的选项是“反向” - 频繁,低于20%,以推断出“向前”--strandness。我们发现这些截止值可靠地识别不准确- 斯特朗德从用户的规范,虽然没有如此严格地误认为不同意正确的规范。“main”脚本中的另一个示例命令选项控制是否根据FASTQC基于适配器内容度量进行修剪样本[15.,修剪所有的样本,或根本不执行修剪。

配置文件允许对每个管道组件的管道设置和硬件资源需求进行微调。易用性是SPEAQeasy的一个核心焦点,SLURM、SGE和本地linux环境的配置文件都是用合理的默认值预构建的。用户根本不需要修改配置文件来适当地运行SPEAQeasy;然而,对于那些需要它的用户来说,存在很大程度的控制和定制。高级用户可以调整简单的配置变量,将任意命令行参数直接传递给SPEAQeasy调用的每个软件工具。例如,当从BAM对齐文件创建wiggle coverage文件时,默认情况下是将计数规范化为100个碱基对的4000万个映射读取。这是通过每个配置文件中以下变量的默认值实现的:

$ $ {\ texttt {bam2wig \ _args }} = \, ``- {\ texttt {t}} \; $ $ 4000000000”

假设一个研究人员对150个基对映射的4000万映射的读数感兴趣,并且希望跳过重复的命中读取。可以调整上述变量以将适当的命令参数传递给bam2wig.py [58.]:

$$ {\ texttt {bam2wig \ _args}} = \,`` - {\ texttttt {t}} \; 6000000000 \;- {\ texttt {u}}“$$

同样的过程可以用于调整SPEAQeasy中使用的任何其他软件工具,允许类似于直接运行每个步骤的控制级别。与此同时,与变量相关的设置(如存储、可能的读取配对和文件命名选择)也会被自动考虑。

输入

一个单独的文件,叫做样本.Manifest.Manifest.,用于将Speaqeaeasy指向输入FASTQ文件,并将样本与特定ID相关联。它是保存为选项卡分隔的文本文件的表,包含每个读取(或一对读取),可选MD5和和示例ID的路径。可以重复示例ID,其允许样本最初跨越自动合并的多个文件(图。5.)。输入文件必须具有FASTQ格式,其中包含“.fq”“.fastq”扩展,并且可能具有Gzip-Compress文件的附加“.gz”扩展名。

图5
图5.

对BipSeq PsychENCODE数据集的子集应用SPEAQeasy的示例分析结果。一种使用来自SPEAQeasy产生的RNA-seq数据的变异信息的样本之间spearman相关性的热图。非对角线高相关值表示潜在的样本交换。B.源自诊断的Speaqeasy产生的基因表达计数的前两个主要成分(PC)。C在控制和双极性障碍之间差异表达的归一化Log2表达式的Boxplots使用SpeaQeAsy处理的Bipseq Psychend Data的子集影响了个体。D.顶部差异表达基因的热线,具有脑区(Amygdala或Sacc),性别(男性或女性)和诊断(双相或对照)的注释。看http://research.libd.org/speaqeasy-example/为了完整的示例分析

输出

SpeaQeasy产生多个输出文件,其中一些输出文件由处理工具本身产生(附加文件3.:表S2)和其他由SpeaQeaeSy进行促进下游分析的人(图。2)。主要的SpeaQeAsy输出文件,相对于指定的——输出目录,是:

  • count_objects /目录,rse_gene_ [experiment_name]。Rdatarse_exon_ [实验_name] .rdatarse_jx_ [实验_name] .rdatarse_tx_ [实验_name] .rdata:这些是范围的ummarizedexperiment对象[29.]包含原始表达数量(基因和外显子:FeatureCounts;外显子连接:来自Regtools;成绩单:kallisto或鲑鱼计数),质量指标作为样本表型数据(附加文件3.:表S3)和依赖于所使用的参考基因组的表达式特征信息。

  • merged_variants /人类样本目录,mergedvariants.vcf.gz.:这是一个可变呼叫格式(VCF)文件[51.] 740个常见变体的信息,可用于识别样品互换。例如,如果从给定的供体测序两个或更多个脑区域,则这些变体的推断基因型可用于验证样品是否正确分组。如果从DNA基因分型芯片中存在外部DNA基因型信息,则可以证明RNA样品确实与预期的供体相匹配,以确保下游表达定量性状基因座(EQT1)分析将使用正确的RNA和DNA配对数据。

  • 覆盖范围/ Bigwigs /当Speaqeaeasy运行时的目录- 抄本选项,[sample_name] .bw对于未加工的样本或[sample_name] .forward.bw[sample_name] .reverse.bw对于绞链样本:这些是碱基对覆盖的bigWig文件,标准为4000万,每个bigWig文件读取100个碱基对。它们可用于以不含注释的方式识别已表达的区域[41.],用于量化与劣化相关的区域,例如QSVA算法[59.],在基因组浏览器上可视化[60.在其他用途​​中。

软件管理

SpeaQeasy提供了两个用于管理软件依赖项的选项。如果docker [61.可以在用户想要运行的系统上运行,软件可以以一种真正可重复和不费力的方式进行管理。作为一个基于Nextflow的管道,SPEAQeasy可以隔离工作流的单个组件,称为流程,内部码头容器。容器描述运行流水线命令所需的整个环境和一组软件版本(例如hisat2-对齐),消除可能发生的一组软件工具(例如SpeaQeaeasy)在不同系统上安装时可能发生的常见问题。如果尚未下载(在第一个管道运行),则在运行时自动拉动每个Docker图像,否则使用本地下载的图像。

因为docker不是总是可用的,或者配置权限不是很简单,Linux用户也可以在本地安装软件依赖项。在存储库目录中,用户可以运行以下命令:

$$ {\ texttt {bash}} \; {\ texttt {install}} \ _ {\ texttt {software}} {\ texttt {.sh}} \; {\ texttt {local“}} $$

这将每个软件实用程序从可用的源版本安装,以及否则作为预编译的二进制文件。因为在存储库的子目录中执行安装,所以用户无需对大多数工具都没有root访问权限。但是,我们要求将Java和Python3全局安装。此要求的动机是,我们预计大多数用户将拥有这些工具已经全局安装,并且通常在系统上与其他安装的潜在冲突建议这些工具的本地安装。

虽然Docker和本地软件安装是管理软件的正式支持和推荐的方法,但有感兴趣的用户存在其他替代方案。speaqeasy包含一个名为的文件conf / command_paths_long.config.,包含在管道执行期间要调用的每个软件实用程序的长路径。用户可以在已经安装的软件版本的路径中替换任何实用程序,在这个文件中。熟悉Lmod环境模块的同学[50.还可以在它们的配置文件模块名称中浏览以用于特定的SpeaQeaeAsy进程。然而,这往往是已经安装了多种生物信息学模块的那些可行的选择。

注解

SpeaQeasy旨在具有批注和参考文件的巨大灵活性。默认情况下,从Gencode中拉出注释文件(参考基因组,参考转录组和脚本注释)[62.]对于人和小鼠样本,或ensembl [63.]对于大鼠样品。物种的选择由命令标志控制“- 参考“在”主要“脚本中,可以保持”HG38“,”HG19“,”MM10“或”RN6“。在配置文件中,简单的变量控制要使用的Gencode Release或Ensembl版本。执行管道运行时,SpeaQeasy会检查指定的注释文件是否已被下载。如果是,则不会再次执行下载,以便当前或将来运行。这反映了Speaqeaeasy的一般特征,由其NextFlow基础提供,如果它们的输出已经存在,则永远不会“重复”。简单地缓存输出,并跳过相关的进程。

SPEAQeasy还提供了对分析中包含的特定序列的轻松控制——这是我们在其他使用GENCODE或Ensembl等数据库的公开可用rna测序管道中没有看到的特性。特别是,研究人员有时只对与规范参照染色体相关的比对/结果感兴趣(例如,智人的chr1-chr22、chrX、chrY和chrMT)。另外,有时额外的contigs(通常以“GL”或“KI”开头的序列)也需要作为分析的一部分。RNA-seq工作流程通常忽略了对齐序列和包含在下游分析中的序列之间的细微差异。SPEAQeasy提供了一个配置变量,称为anno_build.,避免这个问题,并捕获大多数用例。将变量设置为“main”,仅使用整个管道的规范参考序列;“初级”的值包括在Gencode中看到的其他Contigs [62.名称中有“primary”名称的注释文件(例如:grch38.primary_assembly.genome.fa.)。

但是,用户不限于使用Gencode / Ensembl注释。相反,人们可以选择点指向包含具有主命令选项所需的注释文件的目录“--annotation [目录路径]”。要指定包含自定义注释文件的目录,而不是放置GENCODE/Ensembl文件的位置,可以使用选项"——custom_anno(标签)”。标签将内部生成的文件与用于所使用的特定注释的名称相关联。所需的注释文件包括基因组组件FastA,参考转录组Fasta和转录组注释GTF。对于人类样本,VCF格式的网站列表[51.还需要呼叫变体。最后,如果要执行ERCC量化,则必须提供Kallisto的ERCC指数[45.]。

用例

我们预期大多数用户都可以访问云计算资源或本地计算群集,以具有调度程序(如资源管理(Slurm)或Sun Grid Engine / Son)的简单Linux实用程序等潜在大型成员管理计算资源网格引擎(SGE)。但是,Speaqeasy也可以在基于Linux的机器上本地运行。对于这些情况中的每一个,预先配置“主要”脚本和关联配置文件以用于开箱即用兼容性。例如,浆液用户将打开run_pipeline_slurm.sh.为他/她的实验设置选项,并选择调整设置conf / slurm.config(或者conf / docker_slurm.config.对于Docker用户)。

在配置文件中,简单的变量,如“存储器”和“CPU”透明控制每个进程的硬件资源规范(例如要使用的主要内存和CPU核心数)。这些语法来自NextFlow,它管理如何将这些简单的用户定义选项转换为群集识别的语法(如果适用)。但是,NextFlow还会使其简单明确指定特定于群集的选项。例如,假设特定用户打算在基于SGE的计算群集中使用SpeaeAley,但知道他/她的群集限制了在作业期间可以写入的默认最大文件大小。如果突然发生旋转过程超过此限制,则用户可以在相应的配置文件中找到进程名称(附加文件3.:表S1),并添加行“clusterOptions ='-l h_fsize = 100g'“(这是用于将提到的文件大小限制为100g的SGE语法,可能更自由的约束。

我们还期待常用案例涉及在许多用户之间共享单一安装SpeaQeaeAsy(例如,研究实验室)。希望在他/她自己的数据集上运行Speaeaeasy的新用户只是必须复制相应的“主要”脚本(例如,run_pipeline_slurm.sh.)到所需的目录,并为实验修改它。然后,所有用户都可以自动访问过去的管道中的任何注释文件,默认共享配置(潜在的共享配置)(可能在优化特定于一个人的集群中的设置)。但是,如果首选,可以通过简单的命令行选项选择特定的注释位置或配置设置。

测试样品

从序列读取归档(SRA)下载测试样品或使用聚酯模拟[64.],取决于样品的生物,链和配对。然后每个都分娩到100,000读。

  • 人类:

    • 单端,反向:SRS7176970和SRS7176971 [65.]

    • 单端,前进:ERS2758385和ERS2758384

    • 配对结束:SRS5027402和SRS5027403 [66.]

    • 配对向前:来自轨道RNA的DM3_FILE1和DM3_FILE2 [67.];样品Sample_01和用聚酯产生的样品_02 [64.]

  • 鼠标

    • 单端,反向:SRS7205735和ERS3517668

    • 单端,前进:使用聚酯生成的所有文件[64.]

    • 配对结束,反向:SRS7160912和SRS7160911

    • 配对结束,前进:使用聚酯生成的所有文件[64.]

    • 单端,反向:SRS6431375

    • 单端,前进:使用聚酯生成的所有文件[64.]

    • 对端,反向:SRS6590988和SRS6590989 [68.]

    • 配对结束,前进:使用聚酯生成的所有文件[64.]

结论

我们呈现Speaqeasy,积极维护的管道,汇总计数,质量指标和对感兴趣的协变量范围ummarizedexperiment.[29.]具有与许多Biocumond R包立即集成的对象,用于潜在下游分析。SpeaQeasy旨在对任何技术经验的研究人员都可以访问,并在许多常见的计算环境中使用“开箱即用”。配置自动处理具有合理默认的注释,硬件资源分配和特定于特定的设置,但为那些对微调感兴趣的人提供了灵活性。我们认为SpeaQeasy将是一个有用的桥接工具,用于习惯于RNA-SEQ分析的生物孔子世界。

可用性数据和材料

SpeaQeasy利用最初获得SRA的测试样品,Rail-RNA [67.]或使用使用聚酯纤维[64.](实现:测试样本)。这些数据均可直接从SPEAQeasy (https://github.com/lieberinstitute/speaqeasy.)。使用Bipseq PhyseCondode项目的示例数据的代码[52.]可用https://github.com/lieberinstitute/speaqeasy-example.

缩写

AWS:

亚马逊网络服务

中央处理器:

中央处理器

CSV:

逗号分隔值(文件格式)

呃:

表示区域

ERCC:

外部RNA控制联盟

eQTL:

表达量化性状基因座

JHPCE:

John Hopkins性能计算环境

MAF:

轻微的等位基因频率

QSVA:

质量替代变量分析

RNA-SEQ:

RNA测序

上海黄金交易所的:

太阳网发动机或电网引擎的儿子

粘:很多

用于资源管理的简单Linux实用程序

SNV:

单核苷酸变异

Speaqeasy:

用于表达分析和量化的可扩展管道

SRA:

序列读取存档

sACC:

患者前刺铰链皮质

VCF:

变体电话格式

参考

  1. 1。

    Goodwin S,McPherson JD,McCombie WR。到世:十年的下一代测序技术。NAT Rev Genet。2016; 17:333-51。

    CASPubMed.谷歌学术

  2. 2。

    Hawkins Rd,GC,Ren B.下一代基因组学:一种综合的方法。NAT Rev Genet。2010; 11:476-86。

    CASPubMed.公共医学中心谷歌学术

  3. 3.

    Metzker ml。测序技术 - 下一代。NAT Rev Genet。2010; 11:31-46。

    CASPubMed.谷歌学术

  4. 4.

    RNA测序:青少年时期。Nat Rev Genet. 2019; 20:631-56。

    CASPubMed.谷歌学术

  5. 5。

    K.Van Den Bergeet al。, RNA测序数据:表达分析的搭便车指南。安努。Rev. Biomed。数据SCI。2(2019)。https://doi.org/10.1146/annurev-biodatasci-072018-021255.

  6. 6。

    RNA-Seq:转录组学的革命性工具。Nat Rev Genet, 2009; 10:57-63。

    CASPubMed.公共医学中心谷歌学术

  7. 7。

    Cock PJA,Fields CJ,Goto N,Heuer ML,米PM。Sanger FastQ文件格式,适用于质量分数和SOLEX / ILLUMINA FASTQ VARIANTS。核酸RES。2010; 38:1767-71。

    CASPubMed.谷歌学术

  8. 8。

    罗宾逊医学博士,麦卡锡DJ,史密斯GK。edgeR:一个用于数字基因表达数据差异表达分析的Bioconductor软件包。生物信息学。2010;26:139-40。

    CAS谷歌学术

  9. 9.

    爱情MI,Huber W,Anders S.使用DESEQ2的RNA-SEQ数据的折叠变化和分散的调节估计。基因组Biol。2014; 15:550。

    PubMed.公共医学中心谷歌学术

  10. 10。

    RNA-seq序列的断裂景观:我们的STARs中的默认。核酸研究2018;46:5125-38。

    CASPubMed.公共医学中心谷歌学术

  11. 11.

    Trapnell C,Salzberg SL。如何将数十亿张短读映射到基因组上。NAT BIOTECHNOL。2009; 27:455-7。

    CASPubMed.公共医学中心谷歌学术

  12. 12.

    Dobin A等人。星:超快通用RNA-SEQ对齐器。生物信息学。2013; 29:15-21。

    CASPubMed.公共医学中心谷歌学术

  13. 13。

    Anders S,Pyl Pt,Huber W. htseq - 使用高吞吐量排序数据的Python框架。生物信息学。2015; 31:166-9。

    CASPubMed.公共医学中心谷歌学术

  14. 14。

    Liao Y, Smyth GK, Shi W. featurects:一个高效的通用程序,用于分配序列读取到基因组特征。生物信息学。2014;30:923-30。

    CASPubMed.谷歌学术

  15. 15.

    S. Andrews,Babraham生物信息学 - FASTQC高吞吐量序列数据的质量控制工具(2018),(可用https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)。

  16. 16。

    Pertea M等。StringTie可以改进rna序列的转录组重构。生物科技Nat》。2015;33:290-5。

    CASPubMed.公共医学中心谷歌学术

  17. 17。

    Ewels P,Magnusson M,Lundin S,KällerM.MultiQC:在单个报告中总结多个工具和样本的分析结果。生物信息学。2016; 32:3047-8。

    CAS文章谷歌学术

  18. 18。

    Collado-Torres L等人。使用求助部2可重复的RNA-SEQ分析。NAT BIOTECHNOL。2017; 35:319-21。

    CASPubMed.公共医学中心谷歌学术

  19. 19。

    P. Ewels等。NF-Core / RNASEQ:NF-Core / RNASEQ版本1.4.2。Zenodo 2019;https://doi.org/10.5281/zenodo.3503887

  20. 20。

    Federico A等人。Pipeliner:基于NextFlow的框架,用于定义测序数据处理管道。前群体。2019; 10:614。

    PubMed.公共医学中心谷歌学术

  21. 21。

    Cornwell M等人。VIPER:RNA-SEQ的可视化管道,一种用于高效和完整的RNA-SEQ分析的Snakemake工作流程。欧宝娱乐合法吗BMC生物信息学。2018; 19:135。

    PubMed.公共医学中心谷歌学术

  22. 22。

    S. Orjuela,R.Huang,K.M.Membach,M. D. Robinson,C.斯蒙森,盔甲:用于预处理和差异分析RNA-SEQ数据的自动可重复的模块化工作流程。G3(Bethesda)9.,2089-2096(2019年)。

  23. 23。

    Seelbinder b等人。GEO2RNASEQ:易于使用的R管线,用于完全预处理RNA-SEQ数据。生物XIV。2019年。https://doi.org/10.1101/771063

    文章谷歌学术

  24. 24。

    Collado-Torres L等人。基因表达,调节和跨越开发和精神分裂症中额叶和海马的基因表达,调节和连贯性的区域异质性。神经元。2019; 103:203-216.E8。

    CASPubMed.公共医学中心谷歌学术

  25. 25。

    贾维埃AE等。人牙齿过滤细胞层中的分析基因表达揭示了精神分裂症的见解及其遗传风险。Nat Neurosci。2020; 23:510-9。

    CASPubMed.谷歌学术

  26. 26。

    Burke EE等。使用诱导多能干细胞分析神经元分化和成熟的转录组特征。Nat Commun。2020;11:462。

    CASPubMed.公共医学中心谷歌学术

  27. 27。

    di tommaso p等。NextFlow使可重复的计算工作流程能够。NAT BIOTECHNOL。2017; 35:316-9。

    PubMed.谷歌学术

  28. 28。

    M. Morgan,V. Obenchain,J. Hester,H.Pagès,摘要分析:摘要考虑因素集装箱(2019)。

  29. 29。

    Huber W等人。用生物体协调高通量基因组分析。NAT方法。2015; 12:115-21。

    CASPubMed.公共医学中心谷歌学术

  30. 30.

    里奇我,等。LiMMA为RNA测序和微阵列研究进行差异表达分析。核酸RES。2015; 43:E47。

    PubMed.公共医学中心谷歌学术

  31. 31.

    黄俊,陈杰,梁磊。一种用于RNA测序样本识别的工具。生物信息学。2013;29:1463-4。

    CASPubMed.谷歌学术

  32. 32.

    堡垒A等人。MBV:一种解决样品误标表的方法,并检测大型基因型和测序测定数据集中的技术偏差。生物信息学。2017; 33:1895-7。

    CASPubMed.公共医学中心谷歌学术

  33. 33.

    Deelen P等。从公共rna测序数据中调用基因型可以识别影响基因表达水平的基因变异。基因组医学。2015;7。

    PubMed.公共医学中心谷歌学术

  34. 34.

    Morillon A, Gautheret D.桥梁参考转录组和真实转录组之间的差距。基因组医学杂志。2019;20:112。

    PubMed.公共医学中心谷歌学术

  35. 35。

    D.张et al。不完整的注释对我们对孟德尔和复杂的神经源性疾病的理解有不成比例的影响。SCI。adv。6.,eaay8299(2020)。

  36. 36。

    Kent WJ, Zweig AS, Barber G, Hinrichs AS, Karolchik D. BigWig和BigBed:支持大型分布式数据集的浏览。生物信息学。2010;26:2204-7。

    CASPubMed.公共医学中心谷歌学术

  37. 37。

    Kim D, Paggi JM, Park C, Bennett C, Salzberg SL.基于图的基因组比对和HISAT2和hisat基因型的基因分型。生物科技Nat》。2019;37:907-15。

    CASPubMed.公共医学中心谷歌学术

  38. 38。

    Bray NL, Pimentel, Melsted P, Pachter L.近最佳概率rna序列定量。生物科技Nat》。2016;34:525-7。

    CASPubMed.谷歌学术

  39. 39。

    Patro R,Duggal G,Love Mi,Irizarry Ra,Kingsford C. Salmon提供了快速和偏见的转录表达式的量化。NAT方法。2017; 14:417-9。

    CASPubMed.公共医学中心谷歌学术

  40. 40.

    冯y y等。Regtools:对发现癌症剪接变异的基因组和转录组数据的综合分析。生物XIV。2018年。https://doi.org/10.1101/436634

    文章谷歌学术

  41. 41。

    Collado-Torres L等人。RNA-SEQ与Derfinder的灵活表达区域分析。核酸RES。2017; 45:E9。

    PubMed.谷歌学术

  42. 42。

    K. rue-Albrecht,F.Marini,C.Soneson,A.T.L Lun,Isee:互动概括分析资源管理器。[版本1;同行评审:3批准]。F1000res。7.,741(2018)。

  43. 43。

    yu g,王l-g,韩y,他q-y。ClusterProfiler:用于比较基因集群中的生物主题的R包。omics。2012; 16:284-7。

    CASPubMed.公共医学中心谷歌学术

  44. 44。

    Li H.统计框架,用于SNP呼叫,突变发现,关联映射和群体序列映射和群体总体参数估计。生物信息学。2011; 27:2987-93。

    CASPubMed.公共医学中心谷歌学术

  45. 45。

    Lee H,Pine PS,McDaniel J,Salit M,Oliver B.外部RNA控制Consortium Beta版本更新。J基因组学。2016; 4:19-22。

    PubMed.公共医学中心谷歌学术

  46. 46。

    Bolger Am,Lohse M,Usadel B. Trimmomatic:用于Illumina序列数据的灵活修剪器。生物信息学。2014; 30:2114-20。

    CASPubMed.公共医学中心谷歌学术

  47. 47。

    F. Krueger,Github - FelixKrueger / Trimgalore:Cutadapt的包装器和FASTQC始终应用适配器和质量修剪到FASTQ文件,具有RRB数据(2019)的额外功能,(可用https://github.com/FelixKrueger/TrimGalore)。

  48. 48。

    D. Merkel,Docker:轻量级的Linux容器,可实现一致的开发和部署。Linux J.2014年(2014)。

  49. 49。

    Langmead B,Nellore A.云计算基因组数据分析和协作。NAT Rev Genet。2018; 19:208-19。

    CASPubMed.公共医学中心谷歌学术

  50. 50。

    MCLAY R,SCHULZ KW,Barth WL,Minyard T.在实践状态报告 - SC'11。纽约,纽约,美国:ACM媒体;2011. p。1。

    谷歌学术

  51. 51。

    DaneCek P等人。变体呼叫格式和vcftools。生物信息学。2011; 27:2156-8。

    CASPubMed.公共医学中心谷歌学术

  52. 52。

    Phangendode知识门户。突触。2016年。https://doi.org/10.7303/syn4921369

    文章谷歌学术

  53. 53。

    法律cw,陈y,shi w,smyth gk。变大:精密重量解锁RNA-SEQ读数的线性模型分析工具。基因组Biol。2014; 15:R29。

    PubMed.公共医学中心谷歌学术

  54. 54。

    R. Kolde,Pheatmap:漂亮的热门(2019)。

  55. 55.

    蟒蛇,Anaconda软件分销(anaconda,2016)。

  56. 56.

    KösterJ,Rahmann S. Snakemake - 一种可扩展的生物信息学工作流引擎。生物信息学。2012年; 28:2520-2。

    PubMed.谷歌学术

  57. 57.

    Price AJ等。不同的神经元DNA甲基化模式横跨人类皮层发育揭示关键时期和独特的作用CpH甲基化。基因组医学杂志。2019;20:196。

    PubMed.公共医学中心谷歌学术

  58. 58.

    RSeQC: RNA-seq实验的质量控制。生物信息学。2012;28:2184-5。

    CASPubMed.谷歌学术

  59. 59。

    贾维埃AE等。QSVA差异表达分析中RNA质量校正的框架。Proc Natl Acad Sci USA。2017; 114:7130-5。

    CASPubMed.谷歌学术

  60. 60.

    肯特WJ等人。UCSC的人类基因组浏览器。Genome Res。2002; 12:996-1006。

    CASPubMed.公共医学中心谷歌学术

  61. 61.

    w·张et al。,基于轻量级集装箱的用户环境(2019)。

  62. 62.

    Frankish A等。人类和小鼠基因组的GENCODE参考注释。核酸杂志2019;47:D766-73。

    CASPubMed.谷歌学术

  63. 63.

    Cunningham F等人。Ensembl 2019.核酸RES。2019; 47:D745-51。

    CASPubMed.谷歌学术

  64. 64.

    A. C. Freazee,A. E.Jaffe,R. Kirchner,J.T.Leek,Polyester:模拟RNA-SEQ读取(2020)。

  65. 65。

    Y. Han.et al。,使用肺和结肠有机体鉴定SARS-COV-2抑制剂。自然589.,270-275。

  66. 66。

    magini p等人。SMPD4的丧失会导致患有微骨畸形和先天性血症血症的发育障碍。我是j嗡嗡声的遗传。2019; 105:689-705。

    CASPubMed.公共医学中心谷歌学术

  67. 67。

    Nellore A等人。Rail-RNA:RNA-SEQ拼接和覆盖的可扩展分析。生物信息学。2017; 33:4033-40。

    CASPubMed.谷歌学术

  68. 68。

    萧哥等。转录组分析鉴定肺动脉高压下的疾病状和点状的途径和虐余化。J Cell Mol Med。2020; 24:11409-21。

    CASPubMed.公共医学中心谷歌学术

  69. 69。

    李H,等。序列对齐/地图格式和samtools。生物信息学。2009; 25:2078-9。

    PubMed.公共医学中心谷歌学术

下载参考

致谢

我们要感谢SPEAQeasy所基于的处理软件工具的作者,特别是那些回答我们关于GitHub问题、支持论坛和电子邮件的问题的人。

可用性和需求

资金

该项目得到了Lieber大脑发展研究所和NIH R21MH120497-01的支持。所有资助者在这项研究的设计中没有任何作用。

作者信息

隶属关系

作者

贡献

N.J.E.-概念化,方法,软件,写作原始草案,可视化。E.E.B.-概念化,方法,软件。J.L.-方法,软件。B.K.B.-方法,软件。准 - 正式分析。L.H.-DATA策策。B.N.P.-软件。V.L.S.-软件。e.g-m。- 软件。 I.A-O.—Methodology, Software, Project administration. A.E.J.—Conceptualization, Methodology, Software, Writing—Review & Editing, Project administration. L.C-T.—Conceptualization, Methodology, Software, Writing—Original Draft, Writing—Review & Editing, Project administration. All authors have read and approved the final manuscript.

相应的作者

对应于Leonardo Collado-Torres

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益冲突

J.L.,V.L.S.,E.G-M。,I.A-O。冬季基因组学雇用。所有其他作者都没有申报利益冲突。冬季基因组学在这项研究的设计中没有作用。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1

图S1预期与实际ERCC浓度。SPEAQeasy为每个样本绘制图,便于直观地比较ERCC转录本丰度与kallito测量的浓度。

附加文件2

图S2SPEAQeasy测井通过样本跟踪计算步骤。为了帮助透明度并大大简化执行错误来源,SpeaQeasy会自动生成每个样本的几条信息的日志。按提交顺序,打印每个NextFlow进程的名称,以及(1)工作目录:存在所有相关文件,(2)退出代码:该进程是否成功的标准指示或其失败,(3)在给定进程期间运行的特定命令列表。以上是示例日志顶部的快照

附加文件3.

表S1可用配置概要文件。配置文件存在SpeaQeasy / Conb.目录。SGE和SLURM集群中存在配置配置文件,以及Linux机器上的本地执行。这些配置文件可以针对特定群集定制,例如JHPCE配置文件jhpce.config,运行在SGE集群上。用户选择的文件还取决于软件依赖项是用docker管理的,还是本地安装的。表S2speaqeasy输出文件。Speaqeasy产生的中间输出表。这些不包括关注的主要输出文件(图。2),但从每个处理步骤的其他杂项输出。在Filename列中,方括号表示依赖于相关变量的一个或多个值;例如,文件[sample_name] _process_trace.log请参阅一组多个文件,每个文件根据与特定文件关联的示例明确地命名。星号表示匹配多个文件的通配符,当各个文件名可能取决于实验时。例如,sample_name _trimmed * .fastq可以参考sample1_trimmed_1.fastq.fastq.sample1_trimmed_2.fastq。下一列分别提供包含每个给定文件(相对于输出文件夹)的目录和文件内容的描述。表S3在SpeaQeAsy输出中记录的质量指标。其中一个主要管道输出是逗号分隔的值(CSV)文件,其中字段(列)是不同的质量指标,并且每行(行)与一个样本相关联。上面给出了确切的字段名称的列表及其描述。表S4SpeaQeasy-示例差异表达和基因本体结果。(A)中分析的BipSeq数据子集的差分表达式结果http://research.libd.org/speaqeasy-example/(b)基因本体富集来自于双相情感障碍患者与神经正常对照差异表达结果中p值< 0.005的基因。表S5。管道比较。几种公开可用的RNA-SEQ管道之间的使用相关特征比较。

附加文件4.

SNVS补充床文件。用于样本识别的常见snv存储在BED文件中(一种common_missense_snvs_hg19.bed.和 (B.common_missense_snvs_hg38.bed.

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

伊格尔斯,新泽西,伯克,e。e。莱纳德,J。et al。SpeaQeAsy:用于R / Biocumond-Power的RNA-SEQ分析的表达分析和定量的可伸缩管道。欧宝娱乐合法吗22,224(2021)。https://doi.org/10.1186/s12859-021-04142-3

下载引用

关键字

  • RNA-SEQ.
  • 管道
  • 生物体
\