跳到主要内容

Alvis:一种用于挫伤和阅读对齐可视化和嵌合体检测的工具

抽象的

背景

对长读取或组装或目标捕获数据的评估分析通常需要对参考基因组或基因集进行运行对准。对准器输出通常由脚本自动解析,但许多类型的分析可以从人体检查个人对准的理解中受益。另外,图是将装配结果传送给他人的有用手段。

结果

我们开发了Alvis,这是一个简单的命令行工具,可以为许多常见的对齐分析任务生成可视化结果。Alvis是一个快速和便携的工具,可以接受各种对齐格式的输入,并将输出现成的矢量图像。此外,Alvis还将强调潜在的嵌合读或拼接,这是错误组装的常见来源。

结论

ALVIS图便于改进对组装质量的理解,使得能够可视化和识别潜在错误的读取覆盖范围。另外,我们发现使用Alvis提供的输出分割嵌合读取可以改善组件的邻接,同时保持正确性。

背景

发现两组序列之间的对齐是生物信息学中的基本任务。特别地,对长读取的分析,组装结果评估或对目标捕获方案的评估通常需要对准参考基因组或基因套。存在许多不同的工具来计算对齐,这些工具会产生一系列不同的输出格式。大多数常用格式包括大型标签分离列表,该列表设计用于轻松计算机解析,而不是传达直观的人类理解。然而,多种分析可以从对准的视觉描绘中受益 - 例如,检查穿过染色体的角裂的布局,理解组件在染色体或基因上分解或描绘读取覆盖深度的情况。这种分析还可以暴露通过基因组的断开部件的人工连接形成的嵌合体的存在。

现有的可视化工具

有许多现有工具包含某种形式的对齐数据的可视化。一个选项是使用基因组浏览器,例如Ensembl [1.],阿耳特弥斯[2.或诅咒。基因组浏览器通常被设计为仅执行远程的序列对准可视化,允许用户对齐,浏览,搜索和分析沿基因组轨道排列的基因组序列和注释数据。这些工具(例如Artemis)中的一些也产生针对参考基因组的读数和覆盖图。基因组浏览器向用户提供交互式图形界面,许多人通过Web浏览器在线提供,这可能对那些不熟悉命令行的人有所帮助。然而,基因组浏览器中可能的广泛任务需要在用户界面中具有一些复杂性,并且它们产生的图像通常不设计用于出版物。此外,许多基因组浏览器旨在突出基因组特征,并且最适合理解装配完整性或结构问题。

两种流行的工具可视化全基因组对齐,特别是结构重排,是紫红色[3.],以及伊卡洛斯[4.](QUAST的一部分)[5.]包装)。这两种工具都采用了各自的对齐算法,这些算法设计用于特定情况;Mauve执行多重基因组比对以突出大型重排事件,而QUAST使用nucmer[6.对参考基因组评估组件的对准。这使得它们不适合可视化其他常见任务的对齐,例如对准读取对参考。

Circos软件[7.]是一种用于生成高质量图像以供发布的流行工具,特别是用于显示与基因组位置相关的属性(参见[8.]),以及基因组之间的结构变异。然而,尽管这些图表看起来很吸引人,但它们可能很快变得繁忙,并且不适合以有意义的方式显示单个路线。

Mummerplot程序,包含在MUMmer套件中[6.],可以在两组序列之间创建对齐点图。这些图简单、清晰且易于阅读,程序本身有一个简单的命令行界面,易于使用。然而,它们确实需要用户使用MUMmer软件包中包含的比对程序,如果存在许多查询或目标序列,则可能很难读取,因此最适合全基因组比对,而不是读取到基因组比对。

图。1
图1

示例ALVIS输出:一个对准图,显示CONTIG对参考基因组的映射。bContig对齐图,指示其中一个读取的潜在嵌合体。c显示阅读覆盖范围的基因组覆盖图拟南芥蒂利亚纳染色体。d覆盖图显示了一组引用的读覆盖。图由Alvis v1.1生成

使单个读取对齐参考,一个选项是使用BLAST的Web界面[9]。这允许用户输入序列,这是使用BLAST针对NCBI数据库查询的序列。在图中显示最佳点击的对齐(类似于图4中的最佳点。1.a) 。这是一种常用的数据库比对方法,但不适用于分析大量序列、比较基因组规模比对或同时比较多个比对。

纳米孔读书

纳米孔测序技术的出现使用户可以序列读取比先前可能的更长时间,使能测序数据的实时分析,并引入了现场排序的可能性[10]。特别是纳米孔的长度尤其证明是有吸引力的,允许研究人员解决重复区域并填补组件中的空白。与早期技术相比,纳米孔序列数据具有更高的错误率,并且误差的性质也不同,插入和删除具有更高的普遍性。错误配置文件中的这种差异需要开发新工具,专门为纳米孔读取进行分析。最受欢迎的新工具之一是对齐Minimap2 [11],它有自己的对齐格式PAF(成对对齐格式)。所描述的可视化工具都不能接受这种格式。

评估纳米孔读数的关键任务是检测嵌合体。嵌合阅读可以通过在文库制备过程中连接两个不同的分子形成,也可以形成生物信息学通过基本呼叫软件,当两个分子在短连续的同一孔中测序时。最近的一项研究发现,至少1.7%的纳米孔读数含有扩增后嵌合元件[12]. 有几种工具可用于检测嵌合纳米孔读数,如MiniCrub[13]和yacrd [14]。MiniScrub执行“读取擦洗”,去除读取的低质量段的过程,这些过程通常包括嵌合体,目的是提高下游分析的准确性。Yacrd是一种独立的工具,用于检测纳米孔读取的嵌合体,并将这些报告给用户。这两个工具都使用ade-novo.方法是要求读取之间重叠的对齐文件。这样做的优点是不需要参考序列,但实际上需要非常高的覆盖率才能有效,因此不适合于许多应用,例如宏基因组学。

嵌合读数的问题不是纳米孔技术的独特,并且存在许多用于检测生态学研究中的嵌合16s和ITU序列的工具,在那里必须避免推断嵌合读数作为新种。流行的例子包括Uchime [15]和chimeraslayer [16]。这些工具需要高质量的16S或ITU序列的策序数据库,或依赖于相对丰富的执行de-novo.检测。在原则上,原则上,可以使这些方法适应纳米孔读数,已经完成了很少的作用,目前还不清楚这些方法在比较嘈杂的纳米孔读数上的表现如何。

在这里,我们介绍了Alvis,一种用于可视化长读取和程序集对齐的工具,它可以从广泛的不同输入文件类型生成四种不同类型的出版物质量图。值得注意的是,Alvis支持minimap2中的PAF格式。Alvis允许用户灵活过滤校准,并将自动突出显示潜在的嵌合体读数或重叠。此外,用户可选择仅查看潜在嵌合体序列并获得包含所有这些序列的列表和近似连接位置的文本文件。我们表明,将此选项应用于长读取序列数据可以改善程序集的连续性。虽然校准图专门设计用于显示长读取的校准,但组件相对于参考的可视化不限于任何读取类型,覆盖率图可用于显示任何读取类型的读取覆盖率。实际上,唯一的限制是对齐的格式,而不是用于生成对齐的数据。

桌子1.概述Alvis与其他校准可视化软件相比的功能。

表1可视化对齐的工具概述

执行

alvis是用Java编写的,可以在任何具有Java运行时环境的平台上运行。Linux,MacOS和Windows。它有一个简单的命令行界面,用于操作并迅速运行。ALVIS以以下格式接受输入:BWA的BLAST表格,SAM文件[17[其他对齐器,来自Minimap2的PAF文件[11, MUMmer的。cocord和。tiling文件[6.]和来自blat的psl文件[18]。此外,该软件旨在允许扩展到其他格式。图表可以以SVG或TEX格式输出。在后一种情况下,需要一个乳胶编译器来生成PDF文件。

用户可以选择过滤对齐以去除噪声。这是通过丢弃在默认情况下小于查询长度1%的对齐来实现的(该值可以由用户更改)。可以使用发行版中提供的Jar文件从命令行运行Alvis。例如,要从minimap2文件创建覆盖图:

Java -Jar Alvis.jar -Inputfmt PAF -OutputFMT Tex -Type CockageMap -CoverageType Long -in alumentments.paf -outdir输出--out OutPrefix

艾尔维图

对齐图

校准图(图。1.a)由其目标序列进行对齐,由图表顶部的红色杆表示。每个对齐都显示为杆下方的矩形,符合目标上的对准位置。对于给定的目标序列,每个对齐由查询ID排序,并且对于产生多个对齐的查询,通过对准对准的开始位置。每个查询序列的长度以及查询序列上的对准的位置由与目标杆平行的线和通过对准矩形指示。示例用例是可视化与给定染色体对齐的一组组装的contigs或长读取。

重叠对准图

CONTIG对齐图(图。1.b) 按查询序列对所有路线进行分组,对于每个查询,在表示查询序列的矩形内显示十条最长的路线。这些路线按目标序列进行颜色编码,并用阴影表示位置和方向。通过该图,可以查看组装的重叠或长读,以了解它如何不连续地映射到目标序列,以及它是否是嵌合的。嵌合体查询序列在表示它们的矩形旁边用“C”表示。如果-chimeras.选项已指定,此图仅显示仅嵌入的查询序列,并且在这种情况下,不显示“C”。

覆盖图

覆盖图图(图。1.C)建立一组目标序列的覆盖表示,将每个目标序列划分为位置bins,并为每个与该bin对齐的查询序列增加bin count。对于具有重叠对齐的查询序列,将选择最大对齐,并丢弃重叠对齐。对于每个目标序列,生成一个热图图像,每个箱子用像素宽度表示。这个图像可以选择为一个环绕的正方形,也可以选择一个长的条形图。1.c).由于每个目标序列可能有不同的长度,所以调整像素大小,使热图大小不变。一种早期版本的Alvis被用于生成[19]。

基因组覆盖图

基因组覆盖图(图。1.d)以与覆盖图图相同的方式构建覆盖表示。然而,不是产生单独的目标热手,而是产生单个热图,其示出了恒定像素尺寸的每个目标序列的覆盖率。这允许例如制造单个覆盖图,其显示通过组件覆盖物种的所有染色体。

嵌合体检测

如上所述,CONDIG对齐图将自动突出显示可能嵌合的查询序列。通过检查每个查询序列来选择嵌合序列。要突出显示为嵌合的查询序列的标准是查询序列必须与不同的目标序列或相同目标序列的不同部分具有恰好两个非重叠对齐。此外,这两个对准必须一起覆盖90%的查询序列,并且每个对准的长度必须是查询序列长度的至少10%(参见图4。3.(对于一些示例)。用户可以调整这些默认值。

图2
图2.

嵌合体的重叠排列图A.拟南芥读。注意,读取错误2173373.14390具有两个对准,一个到叶绿体参考序列的每一端。由于叶绿体DNA通常是圆形的,因此可以是使用线性序列来表示圆形DNA的遗传,而不是真正的嵌合体。图由Alvis v1.1生成

图3.
图3.

校准的例子。阅读1被归类为嵌合。读2不被分类为嵌合,因为对齐重叠。这种情况是模糊的——如果重叠很小,或者Reference 1和Reference 2之间有共享的序列,那么这个读取可能是嵌合的。读3不被归类为嵌合,因为对齐的覆盖面太小。读4不被归类为嵌合,因为对参考1的对齐太小。图由Alvis v1.2生成

当。。。的时候-Printchimeras.选择选项,Alvis将输出包含潜在嵌合读取或contig的ID的单独纯文本文件,以及连接的近似位置。此文件的每一行代表了嵌合查询序列,其中第一列是查询序列名称,第二列是连接的近似位置(两个对齐之间的中途),第三列和第四列是名称每个对准的目标序列。

软件架构

该软件以模块化方式设计,便于将来扩展。抽象地说,有三个不同的组成部分;对齐、抽屉和图表。

比对

每个对齐格式由实现对齐或详细信息接口的类表示,具体取决于该格式可用的数据。ShoreAlignment类扩展了对齐类。代表对齐文件的另一个类解析文件并创建一个对齐数组或详细的对象;此类必须实现对齐文件界面或SenderAlignmentFile接口(扩展对齐文件界面)。因此,新的对齐格式的实现只需要建立两个短类。

抽屉

同样,通过抽屉界面摘要输出格式的概念。目前两个类实现了抽屉界面;一个用于TEX输出,它使用TIKZ包,一个用于SVG输出。可以通过编写实现抽屉界面的类来实现进一步的输出格式。此接口包含基本绘图操作的功能,例如在两个点之间绘制一行和绘图文本。

图表

Alvis能够绘制四张图,如上一节所述。每个图都接受一个实现AlignmentFile或DetailedAlignmentFile接口的对象,并创建一个Drawer实例来输出图。Alignment和Contig Alignment图需要一个实现DetailedAlignmentFile接口的对象,而Coverage Map和Genome Coverage图需要一个实现AlignmentFile接口的对象,由于继承,该接口还包括实现DetailedAlignmentFile接口的对象。

结果

为了证明ALVIS'嵌合体检测功能的功效,我们下载并组装了两组纳米孔读数,并将嵌合检测与YACRD进行了比较。这些集合中的第一个被测序拟南芥蒂利亚纳加入kbs - mac - 74 (20]第二个是Rel3纳米孔人数据集,取自[21]。对于每个读取的组,我们映射到相应的参考基因组(Tair10 [22] 为了A.拟南芥,及GRCh38.p13[23]对于人类)使用minimap2,创建两个大型PAF文件供Alvis使用。对于YACRD,我们使用minimap2将每个读取集与自身对齐,以创建两个重叠的PAF文件。

使用带有默认参数的YACRD,我们发现人类数据集只有一个嵌合体,而人类数据集没有A.拟南芥数据集。

使用ALVIS具有默认参数,我们解析了读取引用对齐文件,突出显示它被认为是嵌合的那些读取。数字2.图中显示了从动物身上取下的一些嵌合性挫伤的挫伤图A.拟南芥阅读设置。在这个数据集中,我们发现300,071个reads中有2817个符合Alvis的嵌合要求。其中264个reads与相同的循环参考序列(线粒体或叶绿体)一致,因此被忽略,留下2553个潜在的嵌合reads。

表2 Flye组件的Contig统计A.拟南芥使用ALVIS'Chimera检测之前和嵌合体分裂前后阅读
表3使用ALVIS'Chimera检测前后人类读取的Flye组件的Contig统计

然后,我们通过复制所有原始读取,并在Alvis给出的连接位置拆分2553个潜在的嵌合读取中的每个读取集。-Printchimeras.文件。可以在Alvis发行版中使用python脚本自动完成此操作。新读集和原始读集均使用Flye [24]. 从拆分读取中可以看出,部件的连续性有了显著改善,如表所示2.

对于人类数据集,我们在658,224个嵌合序列中发现了1750个,其中90个与参考基因组中的线粒体序列一致,因此这些被忽略了。这总共留下了1660个嵌合阅读。和以前一样,使用Flye执行了两个程序集;一个来自原始读集,一个来自嵌合体被分割的读集。这些程序集的连续统计信息见表3.

为了评估分裂嵌合体读取导致的装配正确性的任何变化,我们运行了dnadiff[6.]在每个A.拟南芥针对TAIR10参考组件的组件。分裂前,96.84%的碱基与参考基因组对齐,7205个碱基1对1对齐,平均一致性为97.31%。分裂后,96.98%的碱基与参考基因组对齐,7182个1对1对齐,平均一致性为97.32%。拆分前的装配有33764条M-to-M路线,平均一致性为95.84%,而拆分后的装配有33381条M-to-M路线,平均一致性为95.88%。总体而言,dnadiff结果没有显著变化。

结论

Alvis提供了快速、简单地可视化挫伤和读取四种图表类型的对齐的能力。支持多种流行的文件格式,并为将来的扩展提供了一个简单的API。图表可以作为矢量图像输出,提供高质量的出版物就绪图形。输出到SVG的能力允许将来与web应用程序集成。关键的是,Alvis还可以用来突出潜在的嵌合阅读和重叠。在前一种情况下,拆分嵌合体读取可以导致更多具有更高N50的连续程序集,而不会丢失任何正确性。

可用性和要求

项目名:阿尔维斯

项目主页:欧宝直播官网apphttps://github.com/SR-Martin/alvis

操作系统:平台独立

编程语言:Java

其他要求:Java运行时环境

执照:GNU GPL v3

非学者使用的任何限制:

数据和材料的可用性

用于在图2中生成图的数据1.可以在https://github.com/SR-Martin/alvis的Alvis存储库中找到。有关创建这些图表的详细教程可以在https://alvis.readthedocs.io/en/latest/usage/example.html上找到。

缩写

PAF:

成对映射格式,由工具minimap2输出的文件格式2

山姆:

序列对齐/地图,由工具BWA和其他文件输出的文件格式

SVG:

可缩放矢量图形,矢量图像文件格式

参考文献

  1. 1.

    Zerbino Dr,Achuthan P等人。Ensembl 2018.核酸RES。2018; 46:754-61。

    文章谷歌学术

  2. 2.

    Carver T,Harris SR,Berriman M,等。Artemis:高通量序列实验数据可视化和分析的集成平台。生物信息学。2011;28(4):464–9.https://doi.org/10.1093/bioinformatics/btr703.

    CAS.文章PubMedpmed中央谷歌学术

  3. 3.

    Darling Ace,Mau B,Blattner Fr,等。紫红色:重排的保守基因组序列的多次对准。Genome Res。2004; 14:1394-403。https://doi.org/10.1101/gr.2289704

    CAS.文章PubMedpmed中央谷歌学术

  4. 4.

    Mikheenko A,Valin G,Prjibelski A,等。伊卡洛斯:从头组装评估的可视化工具。生物信息学。2016;32(21):3321–3.https://doi.org/10.1093/bioinformatics/btw379.

    CAS.文章PubMed谷歌学术

  5. 5.

    Gurevich A,Saveliev V,Vyahhi N等人。QUAST:基因组组件的质量评估工具。生物信息学。2013; 29(8):1072-5。https://doi.org/10.1093/bioinformatics/btt086

    CAS.文章PubMedpmed中央谷歌学术

  6. 6.

    Kurtz S,Phillippy A,Delcher等。用于比较大型基因组的通用开放软件。基因组生物学。2004;5(2):12.

    文章谷歌学术

  7. 7.

    等。Circos:比较基因组学的信息美学。基因组研究》2009;19:1639-45。

    CAS.文章谷歌学术

  8. 8。

    Schnable ps等人。B73玉米基因组:复杂性,多样性和动态。科学。2009; 326:1112-5。

    CAS.文章谷歌学术

  9. 9。

    Boratyn GM,Camacho C,Cooper PS,et al.Blast:一份更有效的可用性改进报告。《核酸研究》,2013年;41:29–33.

    文章谷歌学术

  10. 10。

    Leggett RM,Clark MD。纳米opore测序的机会世界。J Exp Bot。2017; 68(20):5419-29。https://doi.org/10.1093/JXB/ERX289

    CAS.文章PubMed谷歌学术

  11. 11

    Li H. Minimap2:核苷酸序列的成对比对。生物信息学。2018; 34(18):3094-100。

    CAS.文章谷歌学术

  12. 12

    白色w,pellefigues c,ronchese f,. 使用仆从研究嵌合读数。f10006631;2017https://doi.org/10.12688/f1000research.11547.2

  13. 13

    Lapierre n,egan r,wang w等人。De Novo Nanopore使用深度学习阅读质量改进。BMC生物素。2019; 20:552。https://doi.org/10.1186/s12859-019-3103-z.

    文章谷歌学术

  14. 14.

    Marijon P,Chikhi R,VarréJS。Yacrd和FPA:长读基因组组件的上游工具。生物信息学。2020; 36(12):3894-6。https://doi.org/10.1093/bioinformatics/btaa262

    文章PubMed谷歌学术

  15. 15

    Edgar RC, Haas BJ, Clemente JC等。Uchime提高了嵌合体检测的灵敏度和速度。生物信息学。2011;27(16):2194 - 200。https://doi.org/10.1093/bioinformatics/btr381

    CAS.文章PubMedpmed中央谷歌学术

  16. 16

    Haas Bj,Gevers D,Ashlee Me,等。嵌合16S rRNA序列形成和检测在Sanger和454-焦素静脉的PCR扩增子中。Genome Res。2011; 21:494-504。https://doi.org/10.1101/gr.112730.110

    CAS.文章PubMedpmed中央谷歌学术

  17. 17

    李H,Durbin R.快速准确的短读对齐与挖洞轮转变换。生物信息学。2009; 25:1754-6。

    CAS.文章谷歌学术

  18. 18

    肯特JW。Blat-爆炸式对齐工具。基因组决议,2002年;12(4):656–66.

    CAS.文章谷歌学术

  19. 19。

    等。抗性基因富集测序(renseq)可以重新注释已测序植物基因组中的nb-lrr基因家族,并在分离群体中快速定位抗性位点。植物j . 2013; 76(3): 530 - 44。

    CAS.文章谷歌学术

  20. 20。

    Michael TP,Jupe F,Bemm F等人。高连续性拟南芥蒂利亚纳基因组组装与单个纳米孔流动细胞。NAT Communce。2018年。https://doi.org/10.1038/s41467-018-03016-2

    文章PubMedpmed中央谷歌学术

  21. 21。

    Jain M,Koren S,等。具有超长阅读的人类基因组的纳米孔测序和组装。纳特生物技术公司。2018;36:338–45.https://doi.org/10.1093/bioinformatics/btr703.0.

    CAS.文章PubMedpmed中央谷歌学术

  22. 22。

    Lamesch P,Berardini TZ,Donghui L,Swarbreck D,等。拟南芥信息资源(tair):改进的基因注释和新工具。核酸研究,2012年;40:1202–10.

    文章谷歌学术

  23. 23

    弗吉尼亚州施耐德、格雷夫斯·林赛T、豪K、,.评价grch38和新单倍体基因组装配证明了参考装配的持久质量。2016.https://doi.org/10.1101/gr213611.116.

  24. 24

    柯尔莫戈罗夫M,袁J,林Y,佩夫兹纳P。使用重复图组装易于出错的长读取。纳特生物技术公司。2019;37:540–6.https://doi.org/10.1038/s41587-019-0072-8

    CAS.文章PubMedpmed中央谷歌学术

下载参考

致谢

不适用。

基金

所描述的项目由BBSRC核心战略计划赠款(BB / CSP17270 / 1)资助授予伊默米研究所,其中覆盖了RML和SM的时间。资金机构在研究和收集,分析和对数据的诠释的设计中没有作用,也没有作用或写作稿件。

作者信息

隶属关系

作者

贡献

RML构思了这个软件。SM和RML编写了软件。SM进行分析。SM和RML写了手稿。所有作者都已阅读并批准了最终手稿。

通讯作者

对应于理查德·m·莱格

道德宣言

道德认可和参与同意

不适用。

同意出版

不适用。

竞争利益

作者声明他们没有相互竞争的利益。

附加信息

出版说明

欧宝体育黑玩家Springer Nature在公布的地图和机构附属机构的管辖权主张方面保持中立。

权利和权限

开放存取本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Martin,S.,Leggett,R.M.Alvis:一种用于挫伤和阅读对齐可视化和嵌合体检测的工具。欧宝娱乐合法吗22,124(2021)。https://doi.org/10.1186/s12859-021-04056-0

下载引用

关键词

  • 序列比对
  • 基因组学
  • 可视化
  • 嵌合体检测