跳过主要内容GydF4y2Ba

探照灯:使用动态生成的R脚本进行自动批量RNA序列探索和可视化GydF4y2Ba

摘要GydF4y2Ba

背景GydF4y2Ba

一旦大量RNA-SEQ数据已经处理,即对齐,然后生成的表达式和差分表,仍然存在探索生物学,可视化和解释的基本过程。在不使用可视化和解释管道的情况下,这一步骤可能是耗时和费力的,并且通常使用R.虽然商业可视化和解释管道是全面的,可自由的水管目前更有限。GydF4y2Ba

结果GydF4y2Ba

在这里,我们演示了Searchlight,一个免费可用的散装rna测序可视化和解释管道。Searchlight提供:全面的统计和可视化分析,专注于全球、途径和单基因水平;通过三个工作流程,与大多数不同的实验设计兼容,无论有机体或实验复杂性;报告;以及通过用户友好的r脚本和Shiny应用程序支持下游用户修改情节。我们表明,与目前最好的工具(VIPER和BioJupies)相比,Searchlight提供了更大的自动化。我们在一项定时的再分析研究中证明,除了标准的散装RNA-seq处理管道,Searchlight可以用于完成散装RNA-seq项目,直到手稿质量数字,在3小时内。GydF4y2Ba

结论GydF4y2Ba

与手动的基于R的分析或目前最好的免费可用的管道(VIPER和BioJupies)相比,Searchlight可以减少完成大量RNA-seq项目到手稿水平所需的时间和精力。探照灯适用于生物信息学家、服务提供者和科研人员。GydF4y2Bahttps://github.com/Searchlight2/Searchlight2GydF4y2Ba.GydF4y2Ba

背景GydF4y2Ba

一旦散装RNA-SEQ数据已经被处理,即对准,然后生成的表达和差分表[GydF4y2Ba1.GydF4y2Ba,仍然存在着对生物学进行探索、可视化和解释的基本过程(这里称为EVI)。EVI通常在报告、论文或手稿中生成结果数字时达到顶峰。GydF4y2Ba

由于改进的质量控制(QC)和校准工具(如FastP [GydF4y2Ba2.GydF4y2Ba],明星[GydF4y2Ba3.GydF4y2Bakallisto [GydF4y2Ba4.GydF4y2Ba)和使用自动化管道处理阶段现在基本上是微不足道的,通常只需要生物信息学家几个小时就能完成。尽管具有明显的优势,但对EVI的自动化管道的使用并不普遍。许多人选择了定制的基于R的分析,这一过程在分析和可视化方面提供了自由,但往往需要几天甚至几周的时间才能完成。GydF4y2Ba

用于EVI自动化的商业工具(如独创性路径分析[GydF4y2Ba5.GydF4y2Ba](IPA)和Partek Flow [GydF4y2Ba6.GydF4y2Ba)是使用最广泛的,产生了一系列全面的情节和分析。同时也为用户提供了方便的方法来修改图。结果,他们可以将执行EVI阶段所需的时间减少到仅仅几个小时,因此通常简化了EVI阶段的大部分内容。GydF4y2Ba

然而,免费可用的工具有更多的限制。例如,两个最全面的生物木星[GydF4y2Ba7.GydF4y2Ba]和VIPER [GydF4y2Ba8.GydF4y2Ba,不包括典型的和通常关键的分析步骤,如差异表达基因的热图或箱图(或类似的)。BioJupies仅适用于人类或小鼠实验,而不适用于超过两种条件的实验(如时间进程、两种药物对健康的比较,或具有适当对照的CRISPR敲除)。VIPER只包括有限的方法来探索大于两个条件的实验(即维恩图,但没有正式的签名分析)。最重要的是,这两种工具都没有为用户提供方便的方法来直观地修改他们生成的绘图(例如字体类型、轴标签、绘图大小、网格类型、点或热图颜色、缩放等)。这在VIPER中尤其受限,因为它的输出在视觉上彼此不一致(即不同的字体、网格类型、配色方案等)。GydF4y2Ba

Consequently, these tools are suitable for a fraction of experimental designs only, can require users to backtrack and perform additional manual analysis—even for simple experiments, and in the non-trivial situation that users wish to modify plots visually, (e.g. to make them consistent with each other, consistent with other non-omic results, consistent with a journals figure guidelines, or to resize to fit optimally into figure space), users can be forced to replot entirely using alternative means such as R. Though both tools offer accessible first pass analysis to non-bioinformaticians, because of these limitations, they often ultimately provide bioinformaticians with little or no time advantage over a manual R (or similar) based analysis.

在此,我们描述了探照灯,可自动的工具,可自动化批量RNA-SEQ分析的EVI阶段。探照灯旨在:GydF4y2Ba

  1. 1.GydF4y2Ba

    通过提供分析和可视化的更大的范围内,适合于与实验设计的较大部分使用,并且通过提供用于用户修改的曲线,它生成自动化散装RNA-SEQ EVI进一步比其他免费提供EVI工具。GydF4y2Ba

  2. 2.GydF4y2Ba

    提供散装RNA-SEQ EVI自动化的电平即大致上与商业工具,从而提供一个免费提供的替代品。GydF4y2Ba

  3. 3.GydF4y2Ba

    ,使用R脚本提供了生成的分析和可视化等配合谁通常使用R.生物信息学家的工作实践GydF4y2Ba

我们设想Searchlight可以帮助生物信息学家、RNA-seq服务提供商和实验室科学家以最小的努力快速推进大量RNA-seq研究项目,从而为进一步的深入分析或替代分析方法释放资源。GydF4y2Ba

执行GydF4y2Ba

探照灯概述GydF4y2Ba

从一开始就需要注意的是,Searchlight不是一个处理管道,因为它不执行对齐、计数读取或计算表达式和微分表达式值。这些阶段应该在使用探照灯之前完成。任何处理方法都是合适的。Searchlight接受典型的RNA-seq输入(图。GydF4y2Ba1.GydF4y2Baa) ,包括标签分隔的样本表、标准化表达值矩阵(EM文件)、基因组背景文件(如从Biomart下载的)[GydF4y2Ba9GydF4y2Ba)和任意数量的差异表达式表(DE文件)。它与使用任何方法生成的EM和DE文件兼容(例如DESeq2 [GydF4y2Ba10GydF4y2Ba],Edger [GydF4y2Ba11GydF4y2Ba]等)或格式(如FPKM、TPM、RLog等)。GydF4y2Ba

图。1GydF4y2Ba
图1GydF4y2Ba

探照灯轮廓和屏幕截图。GydF4y2Ba一种GydF4y2Ba探照灯管道示意图。指示分析流(箭头),文本文件输入和输出(蓝色框),情节输出(绿色方框),报告输出(红色框)并处理(灰框)。GydF4y2BaB.GydF4y2BaSearchlight报告的截图,显示情节,内容侧栏和情节描述,图例和R代码下拉菜单。GydF4y2BaCGydF4y2BaSearchlight Shiny应用程序的截图,显示了工作流和情节导航面板,情节修改面板和情节面板GydF4y2Ba

探照灯作为一个命令执行。首先,它验证输入文件(图。GydF4y2Ba1.GydF4y2Baa)并将它们结合成单个“主基因表”,下游分析是基于的。接下来,它遍历每个工作流程生成:中间文件;统计分析结果文件;每个情节和每个工作流程r脚本,绘图;HMTL中的报告(图。GydF4y2Ba1.GydF4y2Bab);和光泽的应用程序(图GydF4y2Ba1.GydF4y2BaC)。GydF4y2Ba

工作流程GydF4y2Ba

探照灯的核心是使用独立但重叠的工作流程,旨在提供与广泛实验设计的兼容性。有三个工作流:规范化表达式(NE)、差异表达式(DE)和多重差异表达式(MDE)。GydF4y2Ba

网元工作流探索和可视化表达式数据,并专注于QC和提供实验概述。包括:表达分布分析(图。GydF4y2Ba2.GydF4y2Ba一个);主成分分析(PCA)(图。GydF4y2Ba2.GydF4y2Bab, c);距离分析(图。GydF4y2Ba2.GydF4y2Bad);和高表达基因分析(图。GydF4y2Ba2.GydF4y2Bae, f).参见附加文件GydF4y2Ba1.GydF4y2Ba:表S1用于NE输出的完整列表。GydF4y2Ba

图2GydF4y2Ba
figure2GydF4y2Ba

使用演示数据集从标准化表达式工作流中选择默认输出。提出了三个样品基团 - 椎板普形(LP)(红色),肠系膜淋巴(ML)(绿色)和肠系膜淋巴结(MLN)(蓝色)。GydF4y2Ba一种GydF4y2Ba所有基因的表达值样本分布的密度图 - 跨所有基因。表达式在LOG10比例上给出。GydF4y2BaB.GydF4y2Ba主成分分析(PCA)方差比例图。y轴上给出了每个分量解释的变异百分比。GydF4y2BaCGydF4y2BaPC1与PC2散点图。轴标签上给出了每个组件解释的变化百分比。GydF4y2BaD.GydF4y2Ba样本间相关热图。使用所有基因和Spearman相关系数(SCC)确定相关性。颜色表示SCC,其中−1为最深蓝色,1为最深红色。GydF4y2BaE.GydF4y2BaMLN中表达最高的5个基因。值表示三个样本组中每个基因的平均表达量。GydF4y2BaFGydF4y2BaMLN中4个高表达基因的基因表达小提琴图,每一个都有抖动值。黑点表示单个样本。红点和胡须分别表示平均值和标准偏差GydF4y2Ba

DE工作流探索和可视化两个条件之间的单个差分表达式比较,但也可以处理使用复杂线性模型的比较。它包括:差异基因计数(图。GydF4y2Ba3.GydF4y2Ba一个);马情节(无花果。GydF4y2Ba3.GydF4y2Bab);火山地块(图。GydF4y2Ba3.GydF4y2Bac);显着的基因热量(图。GydF4y2Ba3.GydF4y2Bad)中,用统计分析(图表。GydF4y2Ba3.GydF4y2Bae)和小提琴图(图GydF4y2Ba3.GydF4y2Baf);空间分析(染色体差异基因表达);途径分析(图。GydF4y2Ba3.GydF4y2Bag–j)包括过度表征分析(ORA)(例如使用GO[GydF4y2Ba12GydF4y2Ba], KEGG [GydF4y2Ba13GydF4y2Ba), String [GydF4y2Ba14GydF4y2Ba]等)及上游调节器分析[GydF4y2Ba5.GydF4y2Ba](URA)(例如,使用Trrust [GydF4y2Ba15GydF4y2Ba])。对于每一个途径分析,它分别探索所有的上调和下调基因,并绘制最高点击(图。GydF4y2Ba3.GydF4y2Bag,h),顶部命中的基因表达的盒子盒(图。GydF4y2Ba3.GydF4y2Bai)和本体互动网络(图。GydF4y2Ba3.GydF4y2Bah).参见附加文件GydF4y2Ba1.GydF4y2Ba:表S2显示DE输出的完整列表。GydF4y2Ba

图3.GydF4y2Ba
图3GydF4y2Ba

使用演示数据集从差异表达式工作流中选择默认输出。椎相子(LP)对肠系膜淋巴(ML)的比较。对于差异基因显着性调整GydF4y2BaP.GydF4y2Ba< 0.01和绝对对数2倍变化> 1。上调基因在ML中较高。GydF4y2Ba一种GydF4y2Ba条形图和下调基因的数量。GydF4y2BaB.GydF4y2Ba马情节。有意义的基因是红色的,没有意义的是黑色的。GydF4y2BaCGydF4y2Ba火山的阴谋。有意义的基因是红色的,没有意义的是黑色的。GydF4y2BaD.GydF4y2Ba2342个显著差异基因的基因表达热图。颜色表示行缩放(Z-score)表达式值,深蓝为最低表达式,深红为最高表达式。y轴使用Spearman correlation、UPMG聚集和均值重新排序进行了层次聚类。GydF4y2BaE.GydF4y2Ba5个最具上调基因的表GydF4y2BaP.GydF4y2Ba价值。GydF4y2BaFGydF4y2Ba基因表达小提琴和抖动曲线为每个在ML的两个最显著上调的基因。黑点表示单个样本。红点和胡须分别表示平均值和标准偏差。GydF4y2BaGGydF4y2Ba五种最富集的基因集的条形图(GO生物过程)。x轴显示 - log10GydF4y2BaP.GydF4y2Ba值和数据标记了每个基因组中重要基因的数量。GydF4y2BaHGydF4y2Ba5个最受限制的上游监管机构(trust)的条形图。x轴显示激活z值,数据标记与每个激活因子相关的重要基因的数量。GydF4y2Ba一世GydF4y2Ba富集基因集适应性免疫应答中每个基因的基因表达盒谱。根据基因Z分数给出表达水平。盒子样本是红色的,ml是蓝色的。GydF4y2BajGydF4y2Ba显著富集(调整)的网络图GydF4y2BaP.GydF4y2Ba< 0.05)上游稳压器。节点表示调控因子,边缘连接节点,> 50%的调控基因是共享的。颜色强度表示显著性(−log10p),节点大小表示调控基因的数量GydF4y2Ba

MDE工作流探索并可视化两组或多组差异比较之间的关系。例如,它可以将健康和疾病之间的基因变化与疾病和疾病加治疗之间的基因变化进行比较。可以与此工作流同时进行比较的比较次数没有上限。它产生分析和图,如:显著基因计数(图。GydF4y2Ba4.GydF4y2Ba一个);从任何比较(图所有显著基因的热图。GydF4y2Ba4.GydF4y2Bab);重叠分析(维恩统计);对折分析(图。GydF4y2Ba4.GydF4y2Bac);和差分表达式签名分析(图。GydF4y2Ba4.GydF4y2BaD-H)。对于每个签名,它产生热图(图。GydF4y2Ba4.GydF4y2Bad),Meta-基因小提琴图(图。GydF4y2Ba4.GydF4y2Bae, g)和ORA top hits plot(图。GydF4y2Ba4.GydF4y2Baf, h)。参见附加文件GydF4y2Ba1.GydF4y2Ba:表S3获取MDE输出的完整列表。GydF4y2Ba

图4.GydF4y2Ba
装具GydF4y2Ba

一个选择从多个差异表达的工作流默认输出,使用演示数据集。使用三个样品组-固有层(LP)(红色),肠系膜淋巴结(ML)(绿色)和肠系膜淋巴结(MLN)(蓝色),以及两个差分比较ML与LP和MLN与ML。对于差异基因显着性调整GydF4y2BaP.GydF4y2Ba< 0.01和绝对对数2倍变化> 1。GydF4y2Ba一种GydF4y2Ba每个比较的上调和下调基因数的条形图。GydF4y2BaB.GydF4y2Ba两组比较中3220个显著基因的基因表达热图。颜色表示行缩放(Z-score)表达式值,深蓝为最低表达式,深红为最高表达式。y轴使用Spearman correlation、UPMG聚集和均值重新排序进行了层次聚类。GydF4y2BaCGydF4y2BaFold vs . Fold scatterplot比较MP vs . LP (y轴)和MLN vs . ML (x轴)在每个基因。每个点都是一个基因,黑点不显著,蓝色点在MLN和ML中显著,绿色点在ML和LP中显著,红色点在两者中都显著。斯皮尔曼相关系数(SCC)为−0.25。GydF4y2BaD.GydF4y2Ba确定的四个差异表达特征(1-4)的基因表达热图。有关详情如下:(GydF4y2BaCGydF4y2Ba).GydF4y2BaE.GydF4y2Ba差分表达式签名元基因小提琴图与抖动值为签名号1。签名中所有基因的平均表达(Z-score)在y轴上给出。黑点表示单个样本。红点和胡须分别表示平均值和标准偏差。GydF4y2BaFGydF4y2Ba用于签名编号的基因的五个最富集的基因集(GO生物过程)的条形图。X轴显示 - log10GydF4y2BaP.GydF4y2Ba值和数据标记了每个基因组中重要基因的数量。所有基因集都是显着的GydF4y2BaP.GydF4y2Ba < 0.05.GGydF4y2Ba(GydF4y2BaE.GydF4y2Ba),但对于第4号签名。GydF4y2BaHGydF4y2Ba(GydF4y2BaFGydF4y2Ba)但是对于4号签名GydF4y2Ba

每个工作流执行自己的一组统计分析,并生成中间文件、R代码、绘图和报告。重要的是,每个工作流可以在同一次运行中包含任意次数,并且可以在任意组合中包含不同的工作流。例如,在健康对照组(HC)、疾病组(D)和疾病治疗组(DT)的实验中,用户可以指定三种不同的DE工作流:HC对D、HC对DT和D对DT,从而为每次比较生成一组单独的结果(和报告)。用户还可以指定一个单一的MDE工作流程(HC vs.D)vs(D vs.DT),该工作流程将专门探索治疗逆转疾病影响的程度。通过这种方式,用户可以定制他们的分析,以适应实验设计和研究问题。GydF4y2Ba

举报GydF4y2Ba

Searchlight将每个工作流的结果整理成一个HTML报告,允许方便地解释结果(图。GydF4y2Ba1.GydF4y2Bab).每份报告包括所有图表,以及说明、解释指南、图表图例、方法和参考文献。该报告还包括一个超链接的内容侧栏和繁琐的文本部分隐藏在下拉菜单中,以帮助调查人员专注于结果解释。GydF4y2Ba

下游用户修改地块使用RGydF4y2Ba

Searchlight使用R包GGPLots2生成每个绘图,并为结果目录中的每个输出绘图保存中间数据和R脚本。因此,通过在R中更改和重新运行这些脚本,可以方便地修改和重新生成所有曲线,脚本具有一致而清晰的布局,可以使用常见的参数名称来方便地修改和重新生成。在每个脚本中都清楚地标记了许多可视参数(例如绘图大小,字体,轴标签,点颜色等),并且使用自定义GG主题。每个绘图类型生成一个脚本,以及并行组合脚本,可用于同时重新生成工作流的所有图。这允许例如通过仅修改一个参数,例如将所有图的轴字体一起修改一次。GydF4y2Ba

下游用户使用闪亮的应用程序修改绘图GydF4y2Ba

除了R脚本,Searchlight还生成一个Shiny应用程序,它被存储在结果文件夹中。这使得不熟悉R的用户可以通过直观的图形用户界面(GUI)来调整和修改每个工作流生成的图。GydF4y2Ba1.GydF4y2BaC)。那么图可以保存为JPEG,SVG或PNG格式的任何尺寸。GydF4y2Ba

自动生成的R脚本GydF4y2Ba

在运行时生成每个R脚本时,Searchlight会利用100个较小R代码“片段”的中央容器。每个代码段都包含一小段最终脚本的代码。例如,存在默认主题、绘图保存功能、默认热图颜色等的代码段。Searchlight有一个主配置文件,该文件针对每个工作流类型列出了每个分析步骤。对于每个分析步骤,主配置文件指向每个步骤的配置文件。每一步配置文件的示例包括ne_PCA_散点图和de_重要基因_热图。每个per-step配置文件都列出了执行该步骤所需的所有R代码片段,顺序是它们在最终R脚本中出现的顺序。在运行时,根据主配置文件和每步配置文件中的说明动态组合这些代码段。GydF4y2Ba

适当的代码段在脚本之间共享。例如,在每个脚本的生成过程中都会使用默认的主题片段,而默认的热图颜色片段只在那些涉及生成热图的脚本中使用。此外,一些代码片段包含标记,指示Searchlight应该在哪里解析某些信息(例如GydF4y2BaP.GydF4y2Ba值阈值或样本组名)写入最终的R脚本。GydF4y2Ba

修改探照灯的默认行为GydF4y2Ba

这个系统允许熟悉R的用户修改Searchlight情节的默认行为,通过识别适当的片段并进行相应的修改。通过这种方式,用户可以定制Searchlight,默认生成自己的视觉风格的情节。GydF4y2Ba

分析模块GydF4y2Ba

探照灯包含几种广泛使用和典型的统计分析模块:GydF4y2Ba

  1. 1.GydF4y2Ba

    代表比例分析模块GydF4y2Ba这确定使用具有的Benjamini-Hochberg的(BH)校正的超几何测试富集基因集。它与任何基因组数据库(如GO [兼容GydF4y2Ba12GydF4y2Ba], KEGG [GydF4y2Ba13GydF4y2Ba]和字符串[GydF4y2Ba14GydF4y2Ba),只要是GMT格式[GydF4y2Ba16GydF4y2Ba].数据库的选择附带的软件。GydF4y2Ba

  2. 2.GydF4y2Ba

    上游调节器分析模块GydF4y2Ba该模块使用IPA中概述的方法确定可能被激活或抑制的上游调节剂[GydF4y2Ba5.GydF4y2Ba].它可与任何上游监管机构的数据库兼容,只要该数据库属于信托基金[GydF4y2Ba15GydF4y2Ba)的格式。GydF4y2Ba

  3. 3.GydF4y2Ba

    空间富集分析模块GydF4y2Ba该模块通过三种不同的方式确定每个染色体上的表达或差异表达偏倚;偏向表达,偏向差异表达,偏向上调或下调。所有的比较都使用带有BH校正的fisher精确检验。GydF4y2Ba

  4. 4.GydF4y2Ba

    重叠分析模块GydF4y2Ba该模块使用超几何测试确定两个基因列表之间重叠的大小、富集度和统计显著性。GydF4y2Ba

  5. 5.GydF4y2Ba

    微分表达式签名模块GydF4y2Ba该模块基于UPMGA聚合生成差分表达式签名。最初,基因被归类于它们的差异表达谱(例如(A vs. B上),加(B vs. C上),或(A vs. B上)加(B vs. C下))。接下来,使用每个基因z-scores(每个配置文件)的每个样本中值,为每个配置文件生成一个元基因列表。然后,根据元基因之间的相关性进行迭代合并[斯皮尔曼秩相关系数(Spearman’s Rank correlation Coefficient, SCC)]。在每次迭代中,合并相关性最高的两个profile元基因,并重新计算元基因。这个过程一直持续到没有两个元基因在用户指定的SCC阈值以上相关为止。每个元基因的合成基因是不同的表达特征。GydF4y2Ba

方法GydF4y2Ba

RNA-seq处理管道GydF4y2Ba

要通过探照灯过程中使用之前的原始RNA-seq的数据集我们使用以下的管道。首先,FASTQ文件都使用FastQC [质量验证GydF4y2Ba17GydF4y2Ba[v0.11.7],然后利用STAR与参考基因组进行比对[GydF4y2Ba3.GydF4y2Ba[v2.6]使用-quantMode GeneCounts -outFilterMultimapNmax 1和-outFilterMatchNmin 35。对于每个数据集,我们使用一个星号索引,最大读取长度为-sjdbOverhang - 1。接下来,合并读计数文件,剔除平均每个样本读< 1的基因。最后,使用DESeq2生成表达值和差异表达值[GydF4y2Ba10GydF4y2Ba) (v1.24)。对于差异比较,我们使用A与B模型,没有额外的协变量,除了重新分析数据集2(配对),其中患者ID也包括在内。所有其他参数都保留默认值。对于演示数据(树突状细胞迁移),序列与基因组和转录组GRCm38(发布93)进行了比对。再分析数据集的序列与基因组和转录组GRCh38(发布版本91)进行了比对。GydF4y2Ba

演示数据集GydF4y2Ba

展示Searchlight的输出(参见“GydF4y2Ba工作流程GydF4y2Ba章节),我们使用了来自流式细胞术分类CD103的公开散装RNA-seq数据集(GEO ID: GSE160156)GydF4y2Ba+GydF4y2BaCD11bGydF4y2Ba−GydF4y2Ba树突状细胞(活的,单个,CD45GydF4y2Ba+GydF4y2Ba, CD64GydF4y2Ba−GydF4y2BaMHCIIGydF4y2Ba高GydF4y2BaCD11cGydF4y2Ba+GydF4y2Ba),在稳定状态下从C57BL/6小鼠(n = 3)固有层(LP)、肠系膜淋巴结(ML)和肠系膜淋巴结(MLN)获得,如前所述[GydF4y2Ba18GydF4y2Ba,GydF4y2Ba19GydF4y2Ba].如RNA-SEQ处理管道部分中所述处理原始数据。使用探照灯(v2.0)探索数据集,指定两个差异表达式工作流程(请参阅“GydF4y2Ba工作流程GydF4y2Ba章节)(LP vs. ML和ML vs. MLN)和一个多重差异表达工作流[(LP vs. ML) vs (ML vs. MLN)]。使用小鼠GO生物过程指定了过度代表性和上游调节剂分析[GydF4y2Ba12GydF4y2Ba]铁锈[GydF4y2Ba15GydF4y2Ba)数据库,分别。所有其他参数都保留默认值。GydF4y2Ba

重新分析高被引数据集GydF4y2Ba

提供了探照灯的实用性和时间节省特征的示例,我们重新分析了两个高度引用的(> 100引用)RNA-SEQ数据集[GydF4y2Ba20.GydF4y2Ba,GydF4y2Ba21GydF4y2Ba]定时条件下。该生物信息被赋予了把原始数据,他们有没有以前的知识,他们是不允许网络或杂志的访问,或讨论的数据集。他们分别获得了样品表列出的样品名称和样品条件,但没有进一步的信息。然后,将生物信息被要求的过程,探索,可视化和解释数据集,并创建一个单一的数字(多图),他们认为最好的描述生物学。要做到这一点,他们可以使用处理管线(见RNA-seq的处理管道),打击[GydF4y2Ba22GydF4y2Ba](适用于批处理校正)(v3.38.0)和探照灯。作为对一个数字限制的让步,调查者被允许修改地块大小和轴文本(使用R),在适当的地方种植和添加数据标签。从他们收到原始数据和样本表到图中所示的数字,对他们进行计时。GydF4y2Ba5.GydF4y2Ba和GydF4y2Ba6.GydF4y2Ba完成了。等待对齐软件运行的时间从最后一次扣除。最后,替代调查者然后将该图与原稿的图中进行了比较,以评估结果是否广泛复制。GydF4y2Ba

图5.GydF4y2Ba
figure5GydF4y2Ba

重新分析数据集1的结果[GydF4y2Ba20.GydF4y2Ba](地理标识:GSE97358)。使用探照灯对比对照组和TGFB1治疗的原发性心脏成纤维细胞。调整差异表达的显著性GydF4y2BaP.GydF4y2Ba< 0.05和绝对对数2倍> 1。TGFB1处理后上调的基因更高。GydF4y2Ba一种GydF4y2BaPCA散点图,显示PC1与PC2(上图)和PC3与PC4(下图)。百分比变化的轴标签上给出。GydF4y2BaB.GydF4y2Ba对控制的火山图与TGFB1。显着的基因标记和红色。GydF4y2BaCGydF4y2Ba四个最显著差异基因的基因表达小提琴图。意义在GydF4y2BaP.GydF4y2Ba< 0.05和绝对值log2倍> 1用星号表示。黑点表示单个样本。红点和胡须分别表示平均值和标准偏差。GydF4y2BaD.GydF4y2Ba网络图的丰富(调整GydF4y2BaP.GydF4y2Ba < 0.05) gene-sets (GO Biological Processes) for the 737 significant genes. Nodes denote gene-sets and edges join nodes where > 50% of the genes are shared. Node colour intensity represents enrichment (− log10P.GydF4y2Ba值),节点大小为基因集中重要基因的数量。给出了节点集群的代表性名称GydF4y2Ba

图6.GydF4y2Ba
figure6GydF4y2Ba

再分析数据集2的结果[GydF4y2Ba21GydF4y2Ba(ena id: prjeb9942)。对照、RITA、CPI和RITA + CPI (Combo)治疗慢性髓系白血病(CML)造血干细胞(HSCs)的比较。三种差异比较分别是RITA和Control, CPI和Control, Combo和Control。调整差异表达的意义GydF4y2BaP.GydF4y2Ba< 0.05和绝对对数2倍> 1。GydF4y2Ba一种GydF4y2BaPCA散点图显示PC1和PC2。给出了变化百分比。GydF4y2BaB.GydF4y2Ba基因表达热图结合了三组比较中所有2237个显著基因。颜色表示行缩放(Z-score)表达式值,深蓝为最低表达式,深红为最高表达式。y轴使用Spearman相关性分层聚类。GydF4y2BaCGydF4y2Ba(GydF4y2BaB.GydF4y2Ba)然而,但在差异表达签名4中显示329基因。GydF4y2BaD.GydF4y2Ba差异表达签名四个元基因小提琴与抖动值。签名中所有基因的平均表达(Z-score)在y轴上给出。黑点表示单个样本。红点和胡须分别表示平均值和标准偏差。GydF4y2BaE.GydF4y2Ba五个最丰富的条形图(调整GydF4y2BaP.GydF4y2Ba< 0.05)基因集(GO生物过程)的特征4。GydF4y2BaFGydF4y2Ba五个最丰富的条形图(调整GydF4y2BaP.GydF4y2Ba< 0.05) Combo和Control的上游调节器(trust)。GydF4y2BaGGydF4y2Ba显著富集(调整)的网络图GydF4y2BaP.GydF4y2Ba< 0.05) Combo和Control的上游调节器。节点表示调控因子,边缘连接节点,> 50%的调控基因是共享的。颜色强度表示显著性(−log10p),节点大小表示可能被调控的基因数量。GydF4y2BaHGydF4y2Ba对于Combo和Control,五个最活跃的上游调节器(trust)的条形图。显著激活的调控因子(激活Z-score > 2)为红色。GydF4y2Ba一世GydF4y2Ba富集的上游调节因子TP53中每个基因的基因表达箱线图。表达水平根据基因Z评分给出GydF4y2Ba

重新分析数据集1 [GydF4y2Ba20.GydF4y2Ba[GEO ID: GSE97358]探讨了TGFB1对原代心肌成纤维细胞的影响,并将其分为两组(对照组和TGFB1处理组)。起始点是原始计数表,研究者(J.J.C.)为一个DE工作流(TGFB1与对照)设置了探照灯,并指定了人类GO生物过程数据库和trust数据库分别用于过度表征和上游调节剂分析。所有其他参数都保留默认值。GydF4y2Ba

重新分析数据集2 [GydF4y2Ba21GydF4y2Ba[ENA ID: PRJEB9942]研究了联合使用RITA(结合p53并阻断其降解)和CPI-203 (CPI)(溴结构域和额外末端蛋白(BET)抑制剂)对慢性髓系白血病(CML)造血干细胞(HSC)生存的协同效应。它有四个样本组Control, RITA, CPI,和RITA + CPI (Combo)。研究者(J.J.C.)将探照灯设置为六个DE(每个可能的组合一个)和一个MDE工作流((组合与控制)、(CPI与控制)、(RITA与控制))。最初的分析显示了很强的供体批效应,因此研究者使用供体作为额外的协变量重新进行了DESeq2分析。此外,表达式矩阵修正了使用Combat的捐助者的影响。Searchlight执行了两次——最初使用订单和SCC的默认设置,然后对所有工作流使用订单Control + RITA + CPI + COMBO(为了可视化目的),并使用SCC的1来获得更高分辨率的差分表达式签名。分别使用human GO Biological Process数据库和trust数据库进行过度表征和上游调节剂分析。所有其他参数都保留默认值。GydF4y2Ba

与其他自动化EVI工具的比较GydF4y2Ba

探照灯进行比较,使用OMICtools [GydF4y2Ba23GydF4y2Ba]数据库作为指南,其他免费提供的自动化批量RNA seq EVI工具。因此,我们不包括仅专注于处理阶段的工具(例如HppRNA)[GydF4y2Ba24GydF4y2Ba]和普拉达[GydF4y2Ba25GydF4y2Ba]);对整个实验的探索和可视化的范围有限(例如QuickRNASeq [GydF4y2Ba26GydF4y2Ba],共识路径DB [GydF4y2Ba27GydF4y2Ba],trapline [GydF4y2Ba28GydF4y2Ba]);是允许一系列EVI应用,但不是天生自动的平台(例如PlotsOfData [GydF4y2Ba29GydF4y2Ba]及表达图[GydF4y2Ba30.GydF4y2Ba]);或曾是建设管道的平台,但其本身不一定是一个平台(例如Bioconductor [GydF4y2Ba31GydF4y2Ba]银河系[GydF4y2Ba32GydF4y2Ba])。在应用了这些标准之后,Biojupies [GydF4y2Ba7.GydF4y2Ba]和Viper [GydF4y2Ba8.GydF4y2Ba].GydF4y2Ba

我们比较了Viper、Biojupies和Searchlight的易用性、兼容实验的范围、输出的数量和范围(分析的深度)、分析的相关性、结果的展示和对下游修改图的支持。GydF4y2Ba

在确定每个软件的输出数量时,我们采用了以下标准:(1)只计算一次标绘参数不同的数据(如标记和未标记的火山图);(2)对同一数据在非聚类和聚类形式下或使用不同聚类算法时的热图各统计一次;(3)出于实际原因,无论默认情况下它们可能是或使用的不同数据库的数量,过度表示分析可视化都计算一次(即,我们比较的是方法和可视化,而不是理论上可用的数据库数量)。这三种工具的输出总结在附加文件中GydF4y2Ba1.GydF4y2Ba:表S4。GydF4y2Ba

结果GydF4y2Ba

重新分析高被引数据集GydF4y2Ba

为了提供探照灯实用性和省时功能的示例,我们重新分析了两个高度引用的(> 每个引用100篇)RNA序列数据集[GydF4y2Ba20.GydF4y2Ba,GydF4y2Ba21GydF4y2Ba,在时间条件下。看到“GydF4y2Ba方法GydF4y2Ba“有关详细信息,请参阅第节。GydF4y2Ba

重新分析数据集1 [GydF4y2Ba20.GydF4y2Ba[GEO ID: GSE97358]探讨了TGFB1对原代心脏成纤维细胞的影响,并将其分为两个样本组(对照组和TGFB1处理的细胞)。分析,解释和图生成(图GydF4y2Ba5.GydF4y2Ba),从原始计数开始,分娩时间为44分30秒。PCA(无花果。GydF4y2Ba5.GydF4y2Baa) 对照组和TGFB1处理组之间存在明显的分裂,火山图证实了这一点(图。GydF4y2Ba5.GydF4y2BaB),有737个差异表达基因(调整后p < 0.05,绝对值log2倍> 1)。差异最显著的基因是XYLT1、IL-11、PMEPA1和WNT11(图1)。GydF4y2Ba5.GydF4y2BaC)。富集的网络(调整GydF4y2BaP.GydF4y2Ba < 0.05)737个差异基因的基因集(GO生物学过程)显示炎症反应、血管和肌肉系统过程、激素代谢功能以及Erk 1和2信号转导的作用丰富(图。GydF4y2Ba5.GydF4y2Bad).这复制了原始手稿的发现,TGFB1对心脏成纤维细胞的表达有深刻的影响,IL-11及其相关通路是最高上调基因之一(见图2 Schafer等[GydF4y2Ba20.GydF4y2Ba].GydF4y2Ba

重新分析数据集2 [GydF4y2Ba21GydF4y2Ba](ENA ID:PRJEB9942)探讨利用RITA和CPI-203对CML HSC存活的组合的协同效应。它有四个样本组控制,RITA,CPI和组合。分析,解释和图生成(图GydF4y2Ba6.GydF4y2Ba)从原始序列数据的起点开始,使用2 h, 37 min, 11 s的分娩完成。PCA在所有四组之间显示出明显的分裂,PC1(28%)在CPI处理上区分样本,PC2(16%)在RITA处理上区分样本(图。GydF4y2Ba6.GydF4y2Ba一种)。所有2237的热线图显着差异基因(调整GydF4y2BaP.GydF4y2Ba< 0.05和绝对对数2倍> 1),表明CPI比RITA有更大的影响(图2)。GydF4y2Ba6.GydF4y2Bab) ,以及反映单个RITA和CPI转录差异总和的组合。组合分析得到的329个基因特征(图。GydF4y2Ba6.GydF4y2Bac-e),包括BBC3、FOS、FOSB、JUN、JUNB和MDM2,高度富集(调整后)GydF4y2BaP.GydF4y2Ba< 0.05)基因组凋亡信号通路、白细胞分化和对细菌来源分子的反应。此外,与Control相比,在Combo中,TP53是富集最多的上游调控因子(调整后)GydF4y2BaP.GydF4y2Ba < 0.05) and Jun the most activated (activation z-score > 2) (Fig.6.GydF4y2Baf–i)。TP53的激活与MYC的下调一致。这些观察重复并扩展了原稿的发现,即一部分基因表现出了极端的协同作用。大多数基因在与RITA或CPI-203相同方向的组合中表达差异。此外,该组合诱导TP53和MYC相关途径的富集(见Abraham等人[GydF4y2Ba21GydF4y2Ba图5和扩展数据图6和7)。GydF4y2Ba

总而言之,从原始数据出发,生物信息学家能够大致重现两个数据集的原始分析和结论(以前没有见过这些分析或结论),并在每一种情况下以3小时劳动时间以下的数字显示它们。GydF4y2Ba

与其他自动化EVI工具的比较GydF4y2Ba

我们将Searchlight与目前提供最大水平的EVI自动化的两种工具biojupies [GydF4y2Ba7.GydF4y2Ba]和VIPER [GydF4y2Ba8.GydF4y2Ba)(表GydF4y2Ba1.GydF4y2Ba,附加文件GydF4y2Ba1.GydF4y2Ba:表S4)。注意:这些也可以使处理步骤自动化。有关可供比较的选择标准的详细信息,请参阅方法部分。GydF4y2Ba

表1探照灯的特点及与VIPER和Biojupies的比较GydF4y2Ba

易用性GydF4y2Ba

我们发现作为一个网络工具,BioJupies最初是最友好的,然而,因为它只是部分自动化的VIPER和Searchlight,更友好的用户设置后。GydF4y2Ba

兼容实验范围GydF4y2Ba

由于仅与人类或小鼠数据集兼容,且仅与两组样本兼容,Biojupies的范围最小。探照灯和毒蛇都没有限制。GydF4y2Ba

深度的分析GydF4y2Ba

整体生物血管提供了最低的分析深度,其次是Viper,以及eSperianlight最伟大的(Biojupies = 12,Viper = 20,探照灯= 50个绘图类型)(附加文件GydF4y2Ba1.GydF4y2Ba:表S4)。Notably, Searchlight provided 3.7–6.6 times more plot types for differential expression analysis (VIPER = 5, BioJupies = 9, Searchlight = 33), at least 10 times more plot types for multiple differential expression (BioJupies = 0, VIPER = 1, Searchlight = 10), and 2.5–4.2 times more plot types overall. Searchlight was therefore more capable of exploring differential expression and complex experiments than BioJupies and VIPER.

分析的相关性GydF4y2Ba

总体BioJupies显示,至少相关分析(附加文件GydF4y2Ba1.GydF4y2Ba:表S4),仅包括主要的单细胞相关聚类图和彻底的小分子分析。但只有一种途径分析(ORA)。BioJupies进行了下一个最相关的分析,包括样本特征相关图、基因集富集分析(GSEA)(在某种程度上是对ORA的复制)、基因相互作用分析和相对专门的基因融合、HLA和病毒序列分析。探照灯显示出最大的相关性,唯一的相关性包括VIPER或BioJupies PCA贡献中的一个以上,PCA超出成分二,样本相关性,MA图,显著基因计数,最差异基因表和重叠分析。重要的是,这两种工具上的探照灯都具有独特的功能,包括高表达基因分析、差异表达基因的热图、差异最大基因的小提琴图和抖动图、空间分析、最丰富基因本体的箱线图和网络、上游调节器分析、,折叠对折叠分析和差异特征分析。此外,探照灯在显示标记和未标记的地块变体(如PCA、火山、MA等)、聚集和未聚集的热图以及所有分别上调和下调的基因方面更为全面。因此,探照灯显示出更大的分析相关性,尤其是在复杂多样本组的差异表达和比较中。GydF4y2Ba

介绍结果GydF4y2Ba

我们发现VIPER的结果呈现最不清晰,特别是在视觉上,它的图彼此不一致(即字体、网格、边框、缩放、点类型、配色方案等,在图之间存在差异)。“生物木星”和“探照灯”都有同样清晰一致的情节。Searchlight的报告略好一些,因为它包含了传说(不像VIPER),一个超链接的内容栏,并隐藏了繁琐的文本。GydF4y2Ba

对于情节的视觉效果下游修改支持GydF4y2Ba

VIPER不支持下游地块的修改。BioJupies提供了有限的支持,用户可以预先修改少量的情节设置功能(例如:GydF4y2BaP.GydF4y2Ba值截断,z-score转换,聚类方法等),但没有用于绘图视觉(如字体,轴文本,点大小,点类型,网格,边界,颜色等)。Searchlight通过Shiny应用程序为下游地块的修改提供了最大的支持,并为每个地块和工作流r代码提供独立的支持。两者都很全面。GydF4y2Ba

在所有标准中,探照灯以某种方式最全面地自动化了EVI。特别是适合探索的实验部分,它提供的分析深度,以及用户修改和调整图表的方法。GydF4y2Ba

讨论GydF4y2Ba

迄今为止,最自由的流水线,用于批量RNA-SEQ的自动化专注于处理步骤,更大程度地比下游EVI [GydF4y2Ba8.GydF4y2Ba,GydF4y2Ba23GydF4y2Ba,GydF4y2Ba24GydF4y2Ba,GydF4y2Ba25GydF4y2Ba,GydF4y2Ba26GydF4y2Ba,GydF4y2Ba27GydF4y2Ba,GydF4y2Ba28GydF4y2Ba,GydF4y2Ba32GydF4y2Ba].据我们所知,Searchlight是第一个免费提供的、完全自动化的管道,专门针对下游EVI步骤。尽管使用管道来实现处理步骤的自动化是很普遍的[GydF4y2Ba1.GydF4y2Ba,而EVI步骤则不那么普遍。例如,在基因表达Omnibus (GEO)上最近(2021年5月1日)的100个bulk RNA-seq数据集[GydF4y2Ba33GydF4y2Ba,其中只有8个引用了商业或免费的EVI管道。而70人引用R或R包。VIPER、BioJupies、Galaxy、Web Gestaldt和IPA等更全面的EVI管道虽然被引次数较多(分别为64、87、5048、1684和2463次),但仅能解释GEO上156493个RNA-seq数据集的很小一部分。GydF4y2Ba

更大应用自动化EVI方法的范围可能很大。GEO报告40,588批RNA-SEQ数据集在2020年存放。假设与最近的100个数据集相似的比率,至少部分地手动分析了大约28,412个这些数据集。虽然精确地衡量用于探索的时间,可视化和解释这些数据集的时间,但我们的经历通常是这个过程(达到稿件数字)需要2-4周。如果我们保守地假设生物信息研究人员每年缴付25,000美元,因此每年超过1092年的研究员达到1092岁及2700万美元的劳动力成本。因此,仍然EVI散装RNA-SEQ分析的主要瓶颈和自动化EVI管道在RNA-SEQ生物信息学的重大问题尚未解决的使用不足。GydF4y2Ba

任何自动化EVI批量RNA-seq管道的核心功能是,它应该让用户能够更快、更容易地进行分析。因此,理想情况下,它应该(1)提供足够的分析,用户无需执行广泛的额外分析,(2)与用户希望调查的大多数实验、生物体和设计兼容,(3)识别并允许用户彻底地向上或向下改变图像,(4)使用尽可能广泛的用户熟悉的文件和分析工具。因此,我们尝试在探照灯中实现所有这些功能。GydF4y2Ba

探照灯不是一个复杂的管道。它的优势在于:它具有广泛而强大的分析和可视化方法;它使用了三个独立的工作流程——覆盖表达式、差分表达式和签名分析,共同提供了与一系列实验设计的兼容性,同时也简化了分析;它使用R和R Shiny,作为一种有意的尝试,既使其易于修改可视化,又吸引大量使用R的生物信息学家。GydF4y2Ba

因此,我们已经表明,Searchlight提供了比现有的免费可用工具更大的EVI自动化水平。值得注意的是,与VIPER和Biojupies相比,Searchlight提供了2.5-4.2更大范围的分析和可视化,允许探索更大比例的实验设计,不像VIPER和Biojupies,支持全面向上和向下的用户修改情节。此外,我们还证明,通过使用Searchlight(与标准的Star2处理管道一起使用),用户能够重新排列、处理、探索、解释、可视化和校对手稿质量数据,这些数据广泛地重现了两个高引用数据集的原始分析[GydF4y2Ba20.GydF4y2Ba,GydF4y2Ba21GydF4y2Ba],每次使用不超过3小时。如果使用手工方法很难准确判断这个过程需要多长时间(这将取决于数据集、问题和研究者),则通常以天或周为单位进行度量。因此,我们的演示可以在几个小时内完成,这代表了一个合理的改进。从某种意义上说,这是显而易见的,因为有效的流水线显然比手工方法更节省时间和劳动。GydF4y2Ba

探照灯可以提供足够的分析来完成小型或简单的项目(R次较小的绘图调整),或者为更大的复杂项目进行全面的首次通行证分析。因此,它可以帮助进展研究项目迅速,努力最小,释放生物信息资源以进一步深入分析,或替代分析方法。探照灯适用于生物信息管理员,RNA-SEQ服务提供商和替补科学家。GydF4y2Ba

结论GydF4y2Ba

我们已经证明,探照灯比目前最好的免费工具(VIPER和Biojupies)更完全地自动化了批量RNA seq EVI。提供2.5–4.2更大范围的分析和可视化,允许探索更大比例的实验设计和生物,与蝰蛇和生物巨兽不同,支持用户全面修改地块。我们通过对两个被高度引用(> 100篇引文)公开可用的数据集,可以在不到3小时的劳动时间内盲目地重现原始观察结果。从原始fastQ文件到手稿质量数据。包括所有分析、解释和中间的情节调整。因此,探照灯提供了一种快速而全面的替代方法,可以替代基于手动R或当前免费提供的批量RNA序列探索、可视化和解释方法。因此,有助于释放生物信息资源,用于更深入的分析方法或其他omic项目。GydF4y2Ba

可用性和要求GydF4y2Ba

项目名称:探照灯。GydF4y2Ba

项目主页:欧宝直播官网appGydF4y2Bahttps://github.com/Searchlight2/Searchlight2GydF4y2Ba.GydF4y2Ba

操作系统(S):Ubuntu的,在Windows,Mac OS。GydF4y2Ba

编程语言:Python,R,HTML。GydF4y2Ba

其他要求:Python, R。GydF4y2Ba

许可证:麻省理工学院。GydF4y2Ba

非学术界使用的任何限制:无。GydF4y2Ba

可用性数据和材料GydF4y2Ba

作为本研究的一部分,没有生成新的数据集。示范数据集可在GEO(GSE160156)上获得。重新分析数据集1可在GEO上获得[GydF4y2Ba5.GydF4y2Ba](GSE97358)和数据集2上的ENA [GydF4y2Ba33GydF4y2Ba) (PRJEB9942)。GydF4y2Ba

缩写GydF4y2Ba

赌注:GydF4y2Ba

溴结构域和额外末端蛋白GydF4y2Ba

CML:GydF4y2Ba

慢性骨髓白血病GydF4y2Ba

组合:GydF4y2Ba

CPI-203与溴代胺和额外末端蛋白抑制剂的组合GydF4y2Ba

消费物价指数:GydF4y2Ba

cpi - 203GydF4y2Ba

德:GydF4y2Ba

差异表达GydF4y2Ba

以:GydF4y2Ba

探索,可视化和解释GydF4y2Ba

地理:GydF4y2Ba

基因表达综合GydF4y2Ba

GSEA:GydF4y2Ba

基因设定浓缩分析GydF4y2Ba

HSC:GydF4y2Ba

Haemopoietic干细胞GydF4y2Ba

异丙醇:GydF4y2Ba

创新途径分析GydF4y2Ba

LP:GydF4y2Ba

固有层GydF4y2Ba

MDE:GydF4y2Ba

多种差异表达GydF4y2Ba

ML:GydF4y2Ba

肠系膜淋巴GydF4y2Ba

MLN:GydF4y2Ba

肠系膜淋巴结GydF4y2Ba

不:GydF4y2Ba

规范化表达式GydF4y2Ba

主成分分析:GydF4y2Ba

主成分分析GydF4y2Ba

奥拉:GydF4y2Ba

过度表征分析GydF4y2Ba

QC:GydF4y2Ba

质量控制GydF4y2Ba

鳞状细胞癌:GydF4y2Ba

斯皮尔曼相关系数GydF4y2Ba

URA:GydF4y2Ba

上游监管机构分析GydF4y2Ba

参考文献GydF4y2Ba

  1. 1.GydF4y2Ba

    康瑞娜等。RNA-seq数据分析的最佳实践调查。基因组医学杂志。2016;17:1-19。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  2. 2.GydF4y2Ba

    Chen S, Zhou Y, Chen Y, Gu J. Fastp:一种超快一体机FASTQ预处理器。生物信息学。2018;34:i884 - 90。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  3. 3.GydF4y2Ba

    Dobin A,等人。STAR:超快通用RNA-seq的对准。生物信息学。2013; 29:15-21。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  4. 4.GydF4y2Ba

    Bray NL, Pimentel H, Melsted P, Pachter L.近最优概率RNA-seq定量。生物科技Nat》。2016;34:525-7。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  5. 5.GydF4y2Ba

    创新路径分析中的因果分析方法[J]。生物信息学。2014;30:523-30。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  6. 6.GydF4y2Ba

    Partek Inc .)Partek流;2020.GydF4y2Bahttps://www.partek.com/partek-flow/GydF4y2Ba.于2021年1月30日生效。GydF4y2Ba

  7. 7.GydF4y2Ba

    托瑞d,拉赫曼A,Ma'ayan A. BioJupies:自动生成交互式笔记本在云RNA测序数据分析。细胞SYST。2018; 7:556-561.e3。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  8. 8.GydF4y2Ba

    等。VIPER: RNA-seq可视化管道,一个高效和完整的RNA-seq分析的snakmake工作流。BMC Bioinform。2018;19:1-14。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  9. 9。GydF4y2Ba

    Zerbino Dr等人。Ensembl 2018.核酸RES。2018; 46:D754-61。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  10. 10。GydF4y2Ba

    利用DESeq2对RNA-seq数据的折叠变化和离散度进行调节估计。基因组医学杂志。2014;15:1-21。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  11. 11GydF4y2Ba

    罗宾逊MD,麦卡锡DJ,SMYTH GK。编辑:用于数字基因表达数据的差异表达分析的生物导体包。生物信息学。2009; 26:139-40。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  12. 12GydF4y2Ba

    基因本体论:生物学统一的工具。纳特·吉内特。2000;25:25–9.GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  13. 13.GydF4y2Ba

    Kanehisa男,转到S. KEGG:基因和基因组京都百科全书。核酸RES。2000; 28:27-30。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  14. 14.GydF4y2Ba

    Szklarczyk D,等。字符串v11:覆盖率增加的蛋白质-蛋白质关联网络,支持全基因组实验数据集中的功能发现。《核酸研究》2019;47:D607-13。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  15. 15.GydF4y2Ba

    韩华,等。人类转录调节相互作用的参考数据库。Sci众议员2015;5:1-11。GydF4y2Ba

    中科院GydF4y2Ba谷歌学者GydF4y2Ba

  16. 16.GydF4y2Ba

    Subramanian A等人。基因设定富集分析:一种基于知识的解释基因组表达谱的方法。Proc Natl Acad Sci U S A. 2005; 102:15545-50。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  17. 17.GydF4y2Ba

    FastQC。GydF4y2Bahttps://www.bioinformatics.babraham.ac.uk/projects/fastqc/GydF4y2Ba.2020年1月1日生效。GydF4y2Ba

  18. 18.GydF4y2Ba

    等。肠CD103-树突状细胞在淋巴和主效应T细胞中迁移。粘膜Immunol。2013;6:104-13。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  19. 19.GydF4y2Ba

    链接本文:Kästele V, Mayer J, Lee ES等。肠源性ILCs在淋巴中迁移增加IFNγ的产生GydF4y2Ba鼠伤寒沙门氏菌GydF4y2Ba感染。粘膜Immunol。2021;14:717-27。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  20. 20。GydF4y2Ba

    等。IL-11是心血管纤维化的重要决定因素。大自然。2017;552:110-5。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  21. 21。GydF4y2Ba

    Abraham SA等。p53和c-MYC的双重靶向选择性地消除白血病干细胞。自然。2016;534:341–6.GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  22. 22。GydF4y2Ba

    Leek JT, Johnson WE, Parker HS, Fertig EJ, Jaffe AE, Zhang Y, Storey JD, Torres LC。sva:代理变量分析。R包版本3.38.0。GydF4y2Ba

  23. 23GydF4y2Ba

    OMICtools:一个多组数据分析的信息性目录。数据库(牛津大学)。2014; 2014:1-5。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  24. 24GydF4y2Ba

    Wang D. hppRNA-a based snake make handy parameter free pipeline for RNA-Seq analysis of众多样本。短暂的Bioinform。2018;19:622-6。GydF4y2Ba

    中科院GydF4y2BaPubMedGydF4y2Ba谷歌学者GydF4y2Ba

  25. 25.GydF4y2Ba

    等。普拉达:RNA测序数据分析的管道。生物信息学。2014;30:2224-6。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  26. 26.GydF4y2Ba

    赵胜,等。QuickRNASeq将大规模RNA-seq数据分析提升到自动化和交互式可视化的下一个级别。BMC染色体组。2016;17:1-15。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  27. 27.GydF4y2Ba

    关键词:人类功能交互网络,consensuspathdb,神经网络核酸Res. 2009; 37:623-8。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  28. 28.GydF4y2Ba

    等。TRAPLINE:用于RNA测序数据分析、评估和注释的标准化和自动化流水线。BMC Bioinform。2016;17:1-11。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  29. 29.GydF4y2Ba

    波斯特马男,Goedhart J. Plotsofdata-一个用于与他们的摘要可视化数据一起网络应用程序。Plos Biol。2019; 17:1-8。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  30. 30.GydF4y2Ba

    ExpressionPlot:一个基于网络的RNA-Seq和微阵列基因表达数据分析框架。基因组医学杂志。2011;12:69。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  31. 31.GydF4y2Ba

    RC先生等。Bioconductor:计算生物学和生物信息学的开放软件开发。基因组医学杂志。2004;5:80。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

  32. 32。GydF4y2Ba

    Afgan E等。可访问、可复制和协同生物医学分析的Galaxy平台:2018年更新。核酸Res. 2018;46: W537-44。GydF4y2Ba

    中科院GydF4y2Ba文章GydF4y2Ba谷歌学者GydF4y2Ba

  33. 33。GydF4y2Ba

    巴雷特T,等人。NCBI GEO:功能基因组学数据集的更新档案。核酸RES。2013; 41:991-5。GydF4y2Ba

    文章GydF4y2Ba谷歌学者GydF4y2Ba

下载参考GydF4y2Ba

确认GydF4y2Ba

不适用。GydF4y2Ba

基金GydF4y2Ba

该项目由GLAZgo探索中心资助。资助机构在研究的设计、数据的收集、分析和解释或手稿的撰写中没有发挥作用。GydF4y2Ba

作者信息GydF4y2Ba

隶属关系GydF4y2Ba

作者GydF4y2Ba

贡献GydF4y2Ba

JJC和NAR构思了软件;JJC、BAF、DM和RS编写并测试了软件;JJC、CSG、RAM和NAR用所有作者的贡献撰写了手稿。所有作者都阅读并批准了最终手稿。GydF4y2Ba

相应的作者GydF4y2Ba

对应到GydF4y2Ba约翰J. COLE.GydF4y2Ba或者GydF4y2Ba卡尔S。固特异GydF4y2Ba.GydF4y2Ba

道德声明GydF4y2Ba

伦理批准和同意参与GydF4y2Ba

不适用。GydF4y2Ba

同意出版物GydF4y2Ba

不适用。GydF4y2Ba

竞争利益GydF4y2Ba

两位作者宣称他们没有相互竞争的利益。GydF4y2Ba

额外的信息GydF4y2Ba

出版商的注意GydF4y2Ba

欧宝体育黑玩家Springer Nature在公布的地图和机构附属机构的管辖权主张方面保持中立。GydF4y2Ba

补充信息GydF4y2Ba

额外的文件1。GydF4y2Ba

表S1GydF4y2Ba,归一化表达式工作流输出的摘要列表;GydF4y2Ba表S2GydF4y2Ba中,差异表达工作流输出的摘要列表;GydF4y2Ba表S3GydF4y2Ba,多个差分表达式工作流输出的摘要列表;GydF4y2Ba表S4GydF4y2Ba,由Searchlight, Viper和BioJupies提供的绘图和可视化类型的比较表。GydF4y2Ba

权利和权限GydF4y2Ba

开放获取GydF4y2Ba本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问GydF4y2Bahttp://creativecommons.org/licenses/by/4.0/GydF4y2Ba. 知识共享公共领域奉献豁免(GydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/GydF4y2Ba)适用于本文提供的数据,除非在数据的信贷额度中另有说明。GydF4y2Ba

重印和权限GydF4y2Ba

关于这篇文章GydF4y2Ba

通过Crossmark验证货币和真实性GydF4y2Ba

引用这篇文章GydF4y2Ba

科尔,j.j.,法达奇,b.a.,麦吉尼斯,D。GydF4y2Ba等等。GydF4y2Ba探照灯:使用动态生成的R脚本进行自动批量RNA序列探索和可视化。GydF4y2Ba欧宝娱乐合法吗22,GydF4y2Ba411 (2021). https://doi.org/10.1186/s12859-021-04321-2GydF4y2Ba

下载引用GydF4y2Ba

关键词GydF4y2Ba

  • 散装GydF4y2Ba
  • RNA-seqGydF4y2Ba
  • 管道GydF4y2Ba
  • 自动化GydF4y2Ba
  • 可视化GydF4y2Ba
  • 探索GydF4y2Ba
  • 数据GydF4y2Ba
  • 矿业GydF4y2Ba
  • 转录组GydF4y2Ba
  • 签收GydF4y2Ba