跳过主要内容

slr -superscaffold:一个从头到尾的框架工具,用于合成长读取

摘要

背景

具有远程共和线信息的合成长读(SLR)现在广泛应用于基因组学研究。虽然已经为每个特定的单反技术开发了几种工具,但有一个具有高效率的坚固的独立脚手架用于混合基因组组件。

结果

在这项工作中,我们开发了一个独立的脚手架工具,slr -superscaffold,使用共条形码和对端读取信息将草稿组件连接在一起。该方案首先基于Jaccard Similarity构建支架全局图,确定contigs的顺序和方向,然后利用对端信息对支架进行局部改进。我们还开发了一种筛选算法,以减少错误组装的contigs在输入组装中的负面影响。我们将slr -superscaffold应用于一个人单管长片段读取测序数据集,并将其相应draft assembly的scaffold NG50提高了1349倍。此外,对不同输入contigs的基准测试表明,这种方法总体上优于现有的SLR支架,提供了更长的连接和更少的错误组装,特别是对下一代测序数据组装的短contigs。slr -superscaffold的开源代码可以在https://github.com/BGI-Qingdao/SLR-superscaffolder

结论

SLR-superscaffolder可以装配通过集成混合组装策略极大地提高草案的连续性。

背景

合成长读(SLR)技术[123.4.],包括单管长片段读取(stLFR)测序5.],最近的发展使下一代测序(NGS)从相同的长DNA片段的短片段进行共条形码。类似于之前的BAC全基因组猎枪测序策略[6.]或F粘粒文库[7.],SLR文库可以保留远程基因组信息,但更具成本效益。由于相邻序列之间的关系是可恢复的,基于从相同DNA片段读取的共享条形码,SLR数据可以应用于单倍型分析[13.4.8.9.]结构变异检测[10.11.12.和重新组装基因组[13.14.15.16.17.18.19.].

受当前SLR测序技术的限制,每个DNA片段都不能直接重建,因为Truspades与TruseQ数据集进行了[20.].这是因为单个DNA片段的共配条码读取覆盖率太低,不能满足最小装配要求。为每个特定的SLR库类型设计了几种基因组装配工具。对于维护转换序列测序(CPT-SEQ)读取,Adey和同事在基于Co-Bardoding信息的脚手架图上使用最小生成树(MST)算法进行脚手架来进行脚手架。13.].Their results for the human genome show a greater improvement for input assemblies of high contiguity (NG50 ~ 100 kb). Kuleshov et al从Illumina的[使用SLR测序技术2],通过结合协同条形码和对端信息构建脚手架图,并使用Architect启发式地去除伪边[14.].对于基因组较小的生物体,Architect的改进也明显依赖于输入组装的邻近性。弧(16.]和方舟[17.]由Warren等人开发使用基因组10X铬数据(10XG联读取)4.].方舟加速了脚手架程序,并显着增加了高质量输入组件的NG50(NG50〜4.7或14.7 MB)。Weisenfeld等人还开发了一个名为超新星的组装程序,用于原始10xg链接的读取[15.].最近,Tolstoganov等人在分析组装图的基础上,开发了一种通用的汇编程序CloudSPAdes [19.].但是,Supernova和CloudSpades都不为脚手架提供独立的模块,因此它们不能方便地与其他测序数据组合。对于独立的脚手架,通常需要具有长邻接的输入组件来获得具有足够的完整性和准确性的共配音信息,以有效地构造支架。因此,开发一种稳健的脚手架仍然是一个挑战,该脚手架对输入质量不敏感以有效地改善不同的组件。

在这里,我们提出了一个独立的支架(slr -superscaffold)用于stLFR读取。SLR-superscaffold只需要一个装配草案(contigs或scaffold)加上一个SLR数据集作为输入。该工具利用了一个从上到下的整体方案,如Sect。2.3,层次式地利用单反信息,降低输入组件的邻接要求。此外,在排序步骤中引入了筛选算法,以减少非理想种子contigs对脚手架的负面影响。

我们将SLR Superscapfolder应用于人类细胞系NA12878(HG001)的stLFR数据集,并与fragScaff、Architect和ARKS进行基准测试和比较。结果表明,与其他基于NGS的拔模装配工具相比,SLR Supersaffolder生成的支架具有更长的连续性和更高的精度。由于其算法独立于共条形码测序平台,因此SLR SuperCaffolder具有直接应用于各种SLR数据集的巨大潜力。高鲁棒性和高精度将使SLR Supersaffolder成为混合装配策略中的有用工具。

实施

采用共和条码信息的脚手架模型

Scaffolding是根据不同的链接信息源提供的相关性来确定序列顺序和方向的过程[21.].如果空间关系是可量化的,则可以估计两个序列之间的距离。SLR数据包含两种类型的链接信息:对端和协同条形码。基于对端信息的脚手架已被深入讨论[22.23.24.并不是目前工作的重点。在SLR数据集中,co-barcode信息来源于共享的条形码(即co-barcode reads来自于相同的DNA片段)。如图1所示。1一个,相邻的重叠群之间的关系可以从映射来确定具有相同条码读取如果这些重叠群具有相同的DNA片段重叠。其中的DNA片段与两个重叠群重叠所述连接区域的长度等于DNA片段长度和间隙尺寸之间的差。典型地,DNA片段的测序深度低,并且因此并不是所有的重叠可以通过相应的条形码检测。然而,在假定的DNA片段的两端产生并且从每个DNA片段读取的捕获是无偏和随机的,所述连接区域的长度可以通过在统计相关性的强度,其随着间隙尺寸减小估计。这是基本的,以在下面的步骤顺序和定向的重叠群(图1b,c)。数字1b示出了三个相邻的contig的排序过程。Contig1和Contig3之间的差距是最大的,表明它们的相关强度是最弱的。因此,可以通过删除图中最弱的相关性来确定三个contig的顺序。由于链接未经向,因此不能简单地确定Contig的取向。该问题可以被转换为三个子轮廓的排序过程,如图4所示。1c,其中Contig2被分成两个部分:头部和尾部。

图1
图1

两个连续体之间的共条形码相关性的脚手架模型(一种),排序三个折叠(B.),以及使用相邻的带有协同条形码信息的contig进行定位(C

量化关联强度

相关强度可用序列间共享条形码的函数来描述。在本作品中,基于Sect.章节的讨论,选择了Jaccard Similarity (JS)。3.1.为了避免连片长度变化的影响,在连片之间使用JSm和重叠群N被定义为与固定大小配对仓之间的最大JS:

$ $ JS \离开({叠连群}_ {m},{叠连群}_ {n} \右)= \ mathrm{马克斯}\离开(JS \左({本}_{我}^ {m},{本}_ {j} ^ {n} \) \右)为\ \,一对(i, j) $ $

在哪里\({bin} _ {i} ^ {m} \)一世TH.本在重叠群m.从Contig的两端切碎箱,并且在相邻箱之间没有间隙或重叠。来自不同Contiegs的箱之间的JS可以计算

$ $ JS({本}_{我}^ {m},{本}_ {j} ^ {n}) = \压裂{|条形码({本}_{我}^ {m}) \帽条形码({本}_ {j} ^ {n}) |}{|条形码({本}_{我}^ {m}) \杯条形码({本}_ {j} ^ {n}) |} $ $

在哪里条形码\({bin} _ {i} ^ {m} \))是一组条形码,其相应读数被映射到\({bin} _ {i} ^ {m} \)

算法概述及数据准备

SLR-superscaffolder的设计采用模块化程度高。总体而言,五个模块被整合:数据准备,订货,定向,局部脚手架,并且间隙大小的估计,如在其他文件中所示1:图S1。支架中使用了stLFR reads的配对端和共条形码信息。为了有效利用不同相关长度尺度的信息,我们采用了自顶向下的方案,即先使用全局信息再使用局部信息。具体来说,全局脚手架(包括使用协同条形码信息进行排序和定向)发生在基于对端的本地脚手架之前。在基于协同条形码的脚手架中,全局排序发生在局部定向之前。

SLR-superscaffolder需要单反的数据集加上作为输入组件的草案。草案组件可以是一组重叠群或支架的由各种类型的数据集的预组装(在下文中,我们指的重叠群)。脚手架之前,我们计算重叠群之间的相互关系来构建的支架图形和选择种子重叠群以减少由重复的图形的复杂性。BWA(版本0.7.17)25.用于将STLFR读取的STLFR读取为CONDIG,并且仅使用唯一对准的读取来基于它们的CONDIGS上的对齐位置提供条形码信息。理想的种子聚变在基因组中是长而不重复的,没有任何误导性。他们的映射读取深度应该是平均值的。结果,根据长度阈值和以平均深度为中心的间隔选择种子折叠。然而,种子中可能包含几种重复或误解的体面。因此,有必要降低这些非理想种子串对脚手架的负效应。

订购

在我们的计划中,全球范围内的Contigs令首先通过共同条形码信息确定。我们在任何两个Contig之间使用JS构建了一个无向加权的脚手架图。节点代表种子contig。当CONTIG之间的JS高于给定阈值时,在两个CONDIG之间创建加权边缘;在这种情况下,边缘的权重等于相应的Contig之间的JS的值。结是具有多于两个的节点,并且尖端节点具有等于1的程度。分支是从尖端节点到最近结的线性路径。具有少于三个节点的分支被定义为尖端分支,否则它被定义为长分支。具有两个以上长分支的连接器被定义为长结,否则它被定义为尖端分支。如算法1中所述,使用PRIM的算法获得共条标准支架图的MST,然后修剪MST的尖端分支,最后使用修剪的MST的分支来达到种子变性。 However, there are still too many junctions in a pruned MST to render the above process inefficient for ordering. We analyzed the property of contigs around junctions and found that long junctions strongly correlated with the non-ideal seed contigs, as discussed in Sect.3.2.因此,算法2的设计以除去非理想的种子的重叠群。迭代的数目和筛选毗连群的比例分别设定为避免在共条形编码支架图形的可能的减少显著连通性。

雕像
图B

定向

因为共条形码信息是无向,它不能被直接用于定向。因此,每个重叠群被首先分成两个部分被定向,如图所示。1C。在这项工作中,重叠群的头指的是部分由5'末端到中间点和所述残基是的尾部。不同于以往的工具,它同时确定的顺序和方向,我们利用有序支架邻国重叠群,以方便在算法3所示。在这一战略的共识策略的每个重叠群的方向之间的关系,每个相邻重叠群可以提供支持TH.e contig’s orientation, as shown in Fig.1C。重叠群的取向具有两种状态:可用状态相对于所述有序支架的同一方向的意思,和一个向下状态意味着相反的方向。所支持的状态由JS头部和相邻的重叠群(JS_Head)之间以及尾部和邻居(JS_Tail)之间确定。为了提高计算效率,所有相邻重叠群均匀地分成两个部分。

figurec

当地的脚手架

在上述步骤中,大多数种子变性已经订购并由共同条形码信息定向。未加工的折叠包括在数据制备中标记的非种子折叠,MST中的尖端分支,以及在订购步骤中筛选的那些。这些Contig可以通过STLFR读取的局部配对信息进一步掌握。在该步骤中,我们根据算法4插入前两种类型的成簇进入面向脚手架的间隙4.以避免由全球范围内的重复序列引起的复杂结构,只有与配对的Contig的强大共配标相关性的未加工的Contig。将间隙作为局部脚手架的候选人聚集在一起。在本地定向配对端脚手架图中,节点是指间隙的候选轮廓,并且指向边缘是指通过读对验证的连接超过阈值。使用深度第一搜索策略确定成对的CONTIG之间的最短连接路径被确定为局部脚手架。

算

缺口尺寸估计

我们估计在有序和取向支架相邻重叠群之间的间隙尺寸,类似于方舟[方法17.].具体地,间隙大小由距离和JS之间的经验关系来确定由共编码信息构建的间隙(附加文件1:图S1E)。虽然两者之间的精确距离用相同的条形码是未知的读取,我们观察到JS和在人染色体19(Chr19)两个序列的距离(附加文件之间有很强的关系1:图S2)。然后,我们使用最小二乘法施加线性拟合来获得间隙尺寸估计步骤的相关函数。由于分辨率有限而均匀地设定为由配对端信息构成的间隙的11bp。

评估

夸斯特(版本5.0.2)的标准指标[26.]用于评估组装结果的效率和准确性,其中Minimap2 [27.用于获取有效的对齐。QUAST定义了一个重大装配错误,如果比对差异大于1 kb相对于参考。它们又进一步分为迁移、倒置和易位。倒转表明部分毗连基因相对于参考基因组的倒转。重定位是指染色体中相邻染色体的部分重新排列。易位表明染色体间的连体的一部分发生重排。重定位和易位用于测量排序性能,而倒置用于定向。QUAST计算使用默认参数运行,但较低的contig长度阈值(- m 1000)。

在排序算法中,通过筛选节点来改变MST的拓扑性质。为了分析筛选算法对MST的影响,根据图中节点的拓扑结构对节点进行评估,详见章节。2.4并通过连接的contigs相对于参考点的对齐来评估边缘。边缘被分为四类:一阶、二阶、高阶和误差边缘。如果参考基因组中配对的contigs之间不存在contigs,则将配对的contigs之间的相关性定义为一阶边。如果存在,则相关性定义为2阶。更多的中间重叠使相关成为高阶边。如果配对的contigs是错误组装,那么相关性被定义为一个错误边缘。

程序集和数据集草稿

在这项工作中,HG001的三个草案组件作为输入,包括由MaSuRCA组装的contigs(版本3.3.5)[28.]70岁 × stLFR只读(MaSuRCA contigs),用肥皂组装的脚手架denovo2(r241版)[29.使用相同的stLFR读取和额外的20 × PE无pcr NGS数据集(SOAP从头和Canu组装的contigs(版本1.9)[30.] with 30 × Oxford Nanopore technology (ONT) reads (ONT contigs) downloaded from Jain et al. work [31.].这些输入程序集的评估,这些测序数据集的访问信息,以及stLFR和PCR-free NGS reads的基本测序统计信息被列在附加文件中1:表S1-S3分别。使用Mgieasy STLFR库预备试剂盒构建STLFR库,并在BGISEQ-500仪器上测序。具有〜390bp的对Ngs读数读数〜390bp插入尺寸从由Mgieasy Fs的无PCR-FreeDNA文库准备v1.0(Mgi,Cat。No.1000013455)构建的PCR免疫库中随机提取,并由Mgiseq测序-2000 PE150仪器。对于参数扫描和数据分析,根据对参考基因组的读取对准提取来自人CH19的STLFR读数。

结果和讨论

stLFR读取属性

对于SLR数据集,每个条形码的DNA片段数量是下游分析的一个重要属性[32.],理想情况下是一个。为了评估该特性,我们分析了与来自相同的DNA片段的相同条形码的相邻读数的距离分布,以及来自不同DNA片段的那些,如图2所示。2. 根据参考文献中的基因组坐标对对齐读取进行排序后,计算距离。有三个典型的峰,其中第三个峰在插图中展开(图。2a).第一个峰对应于同一短端片段的配对reads之间的间隙,其位置为251 bp。第二个对应于同一DNA片段相邻reads之间的间隙,其位置约为2512 bp。第三个对应于不同DNA片段相邻reads之间的间隙,其位置为50 Mb。与CPT-seq reads相比[13.],第三峰值与第二对stLFR的高度比读取是显著降低,表明DNA片段的每条形码的平均数量较少。这是对条码与其他单反库的比较典型的stLFR库(50元磁珠)的大量一致的。stLFR的插入片段大小分布是读取非高斯(图2b)中,从标准NGS库不同。统计数据表明,stLFR的独特性能读需要一个更强大的脚手架算法,有效地利用末端配对和共同条形编码信息。

图2
figure2

距离的相邻之间的分布具有相同的条形码读取(一种)对于STLFR读取的读对的插入大小分布(B.

的重叠群之间的共条形编码信息的相关性,应选择根据脚手架模型来构建所述支架图形。在fragScaff和方舟被使用的两个重叠群之间共享条形码(NB)的数目。长的DNA片段。然而,这些工具忽略测序深度波动单反文库中随机断裂。取而代之的是,我们用JS来减少波动的影响。为了说明相对于NB JS的优点,所有对在人Chr19参考5-kb的区间进行分析以bin距离的函数。数字3.A,B表明,JS和NB单调减少两者作为仓距离增加。然而,JS的monotonical减少未用于随机条形码读取(附加文件观察1:图S2)。这些表明,JS和NB都有效,以确定Contigs的顺序和方向。如图1所示。3.C,D,随着距离JS和NB的距离增加,两个归一化密度分布之间的重叠降低。然而,Nb的重叠大于JS的NB。在不同箱尺寸的分布中也观察到相同的结果,如附加文件所示1:图S3和S4。由于重叠与脚手架中的错误概率有关,这些结果表明JS比NB更有效。

图3
图3

对于5000 bp大小的料仓,不同距离处NB和JS的平均值和分布

仅使用stLFR读取程序集结果

MaSuRCA contigs是通过在未知碱基(即' N ')上破坏预先组装的支架获得的。附加文件中列出了MaSuRCA contigs的评估和运行参数1:表S1和S4。为了评估SLR-superscaffolder的效率(0.9版)中,我们得到的基准支架和与那些通过其它SLR搭棚,包括fragScaff(版本140324.1),建筑师(版本0.1)组装比较它们,并方舟(版本1.0.3)。对于每一个工具,运行参数扫描是基于人类Chr19数据集完成,并且获得最佳结果的其他文件中列出了1:表S5。

对于MaSuRCA contigs,由slr -superscaffold组装的支架具有最长的连续性和最高的准确性(表2)1)。所述支架NG50了约1349倍(从13.1 kb至17.6 MB)提高,同时NGA50用约29倍的改善(从13.0 kb至380.5 KB)。在其他工具,fragScaff产生最优质的支架;NG50和NGA50分别达到400.9 kb和17.5 kb的。值得注意的是,由fragScaff,建筑师,和方舟的改善较先前报告的要低[17.].One possible reason is that the NG50 of MaSuRCA contigs is significantly shorter (~ 13 kb).

表1使用MaSuRCA contigs作为HG001输入组件的组件评估总结

在我们的方案中,引入了一种筛选算法,以减少在订购步骤中的非理想种子变化的负效应。为了评估其性能,在筛选之前和之后分析MST的性质,基于划分中定义的节点和边缘的分类。2.8. 根据QUAST评估,在最初的MST中,182046个重叠群中有3083个非理想种子重叠群。经筛选,共删除2327个重叠群,其中858个为非理想种子重叠群。这表明,筛选算法可以有效地识别MST(表1)中的非理想种子重叠2)。

表2筛选前后MST中的节点和边的统计数据

初始MST包含179204个边缘总共,和96%的1次。它表明MST算法的功率,以确定1次边缘。但是,也有在初始MST,这减少了连接354个长结。因此,树枝太短,难以有效地订购重叠群。在筛选后,错误和高阶边缘的数目由2524和181分别显著降低,但大部分的1阶和2阶边缘的维持。同时,所有的长路口被拆除。所述筛选算法降低了复杂性MST不削弱检测1次边缘的能力。附加文件1:表S8和S9也显示结和非理想的种子重叠群的强相关性。长结的70.3%是不理想的种子的重叠群,并围绕长结当地图的88.4%包含至少一个非理想的种子重叠群。

种子折叠长度阈值的影响

对于参数优化,我们将SLR Superscapfolder应用于人类Chr19 stLFR读取。与MaSuRCA组装的输入contig相比,支架NG50和NGA50值分别提高了约316倍(从27.5 kb到8.7 Mb)和33倍(从26.3 kb到873.7 kb),优化参数和种子长度阈值为7000 bp(附加文件1:表S6)。在具有模拟的STLFR数据集的其他测试中,为具有相同参数的其他模型生物获得了类似的改进(附加文件1:表S7)。仿真和装配的方法在附加文件中进行了描述1:补充说明1。

SLR-SupersCaffolder的参数可以分为两组:那些依赖于STLFR阅读分析的人,以及依赖于输入Contig的轮廓和准确性的那些。STLFR分析由实验过程决定,而DE Novo集装件的输入CONTIG的准确性是未知的。因此,仅通过改变人类CHR19数据集的种子变性的长度阈值来评估输入折叠的邻接的效果。如图1所示。4.,随着长度阈值,所述支架NG50单调下降,而达到NGA50 5和10 kb的之间的饱和度的峰。在主要misassemblies方面,反转和重定位误差的数量单调随着长度的增加阈值降低。这表明,短期种子重叠群可以增强脚手架结果的连续性,但引入更多misassemblies。因此,有必要通过调节短重叠群的数量,以平衡共条形编码的支架图形的连通性和复杂性。虽然不是由长度阈值仅确定的差额,支架NGA50饱和峰值意味着我们的工具可以达到相对最佳平衡。

图4
装具

由SLR-Superscaffolder组装的支架质量,具有不同的种子凸起长度阈值

使用相同数据集进行了测试通过配对末端信息的本地脚手架的影响(附加文件1:表S6)。与那些没有局部脚手架的那些相比,局部脚手架在输入的凸起之间构建了27个较多的连杆,并产生具有6个较少的逆转和8个迁移的支架。本地脚手架是使用配对结束和共编码信息之间的互补性的有效方法。

通过将STLFR与其他测序相结合读取的结果

作为一个独立的脚手架工具,slr -superscaffold可以很容易地在混合装配策略中实现,其中stLFR和其他类型的测序数据集可以一起使用。在这项工作中,我们也测试了stLFR和无pcr的NGS组合,以及stLFR和ONT组合的混合装配。在第一种情况下,输入程序集(SOAP从头脚手架)由肥皂组装的脚手架组成从头2既stLFR和PCR-自由NGS读取。在第二种情况下,输入(ONT重叠群)由通过Canu酒店组装ONT读取重叠群。不同的单反架子工的基准测试结果如表所列3.

表3使用SOAP的组件的评估摘要从头脚手架和ONT连接件作为HG001的输入

肥皂从头支架,单反超支架也获得了最长的连续性和最高的准确性。支架NG50提高了227倍(从40.1kb提高到9.1mb),NGA50提高了44倍(34.3kb提高到1.5mb)。对于ONT-contigs,所有架子工都显著改善了接触性,但没有提高准确性。SLR Superscapfolder将NG50从6.6MB增加到21.8MB(即3.3倍),略低于ARKS(约六倍)和fragScaff(约四倍)。NGA50的最大改进是使用fragScaff,SLR Superscapfolder具有可比值。其中一个问题是,尽管ONT-contig的NG50很大,但其平均错误装配数高达3.2。这些有大量错误装配的重叠群更有可能被筛选,因此共条形码支架图的连通性显著降低。上述结果表明,输入组件的准确性对于使用共条形码信息进行支架非常重要。

整体性能

我们评估了各棚架的运行时间为相同的计算平台上的三个输入(的Intel Xeon CPU E7-4890 v2的2.80千兆赫,60芯,120线,和3 TB RAM),如图所示。5..所有计算都限制在20个线程内。结果表明,ARKS的综合性能最好,因为它采用了aK.基于-mer映射策略,避免费时成对对齐。SLR-superscaffolder分别跑大约1.5倍和4.3倍的速度比fragScaff和建筑师,。正如在其他文件中列出1:表S10,数据准备步骤,包括STLFR读取映射和共形条形码信息分配,是最耗时的(平均总量的58.3%)。JS计算是另一个耗时的过程,可以通过使用minhash算法的条形码进行随机采样来减少[33.)(附加文件1:表S11)。请注意,我们没有比较峰值存储器消耗,因为最大用途依赖于对齐器而不是脚手架本身。

图5
figure5

四个脚手架(slr -superscaffold, fragScaff, Architect, ARKS)用于三个输入组件(MaSuRCA contigs, SOAP)的时间消耗直方图从头支架,Canu重叠群)

结论

STLFR测序数据是具有不规则插入大小配对端片段的普通SLR数据集,每个条形码少数DNA片段。在这项工作中,我们开发了SLR-SupersCoffolder,以高效率在De Novo基因组组装中使用STLFR共和条码信息。在我们的方案中,在在局部脚手架中使用配对结束信息之前,在全球脚手架中使用具有长相关长度的共和条码信息;在本地定向步骤之前处理全局排序步骤(具有较低的输入CONTIG长度要求)。在我们对人类基因组的测试中,SLR-SupersCoffolder在NGS读取的输入组件中实现了几种100倍的脚手架NG50改进,高精度。这些结果表明,STLFR文库的共配条码信息可用于显着提高De Novo集会中的基因组的质量。

SLR-superscaffold是第一个提供系统筛选错误组装的contigs,以减少这些contigs在输入组装中的负面影响的SLR scaffold。在我们的筛选策略中,我们采用了支架图MST中错误组装的contigs和长连接之间的强相关性来检测这些contigs。与其他单反支架相比,单反超级支架可以为不同的输入组件提供更长的连接和更高的精度。

slr -superscaffold作为一个独立的scaffold,提高了由其他类型库生成的组装的质量,如标准NGS和单分子库。考虑到算法的一般性质,其他SLR库中的协同条形码信息也可以通过适当的格式转换加以利用。此外,由于我们的方法是高度模块化的,slr -superscaffold中的每一步都可以单独与其他类型的测序数据集(如单分子或配对文库)结合,以设计新的杂交策略。

可用性和要求

项目名称:SLR-SupersCaffolder。

项目主页欧宝直播官网apphttps://github.com/BGI-Qingdao/SLR-superscaffolder

操作系统:Linux。

编程语言:C ++

其他需求:GCC(V4.8.3或更高),BWA(V0.7.17),ZLIB。

许可证:通用公共许可证V3.0

非学者使用的任何限制:没有。

可用性数据和材料

源代码和SLR-superscaffolder的指令是免费提供在GitHub(https://github.com/BGI-Qingdao/SLR-superscaffolder,根据GNU通用公共许可证V3.0许可)。HG001的stLFR数据集可在CNGBdb的CNSA上获得(访问ID CNP0000066)。HG001的无pcr NGS数据集可在CNGBdb的CNSA (Access ID CNP0000602)上获取。HG001的ONT Canu组件可在以下地点购买:https://ftp.ncbi.nlm.nih.gov/genomes/All/GCA/900/232/925/GCA_900232925.2_NA127878-RER5_GCA_900232925.2_NA127878-REL5_GANOMIC.FNA.gz.

缩写

SLR:

合成的长读

stLFR:

单管长片段读取

门店:

下一代测序

CPT-seq:

保持邻接的换位排序

MST:

最小生成树

10xg链接读取:

10倍基因组铬技术

HG001:

人NA12878细胞系全基因组

JS:

Jaccard相似之处

注:

共享条形码数

Chr19:

19号染色体

参考

  1. 1。

    Peters Ba,Kermani BG,Sparks AB,艾弗罗夫O,Hong P,Alexeev A,Jiang Y,Dahl F,Tang Yt,Haas J.精确的全基因组测序和从10至20个人细胞的单倍分型。自然。2012; 487(7406):190。

    CAS.文章谷歌学者

  2. 2。

    Kaper楼斯瓦米S,Klotzle B,Munchel S,科特雷尔Ĵ,Bibikova男,闯H-Y,Kruglyak S,Ronaghi男,Eberle的MA。通过稀释,扩增和测序的全基因组单倍型。PROC NATL ACAD SCI。2013; 110(14):5552-7。

    CAS.文章谷歌学者

  3. 3.

    Amini S, Pushkarev D, Christiansen L, Kostem E, Royce T, Turk C, Pignatelli N, Adey A, Kitzman JO, Vijayan K.单倍型全基因组测序。Nat麝猫。2014;46(12):1343。

    CAS.文章谷歌学者

  4. 4。

    郑GX,Lau Bt,Schnall-Levin M,Jarosz M,Bell Jm,Hindson Cm,Kyriazopoulou-Panagiotopoulou S,Masquelier Da,Merrill L,Terry JM。单倍型种系和癌症基因组,具有高通量连接读取测序。NAT BIOTECHNOL。2016; 34(3):303。

    CAS.文章谷歌学者

  5. 5。

    Wang O,Chin R,Cheng X,Wu Micky,Mao Q,Tang J,Sun Y,Anderson E,Lam HK,Chen D.从Long DNA分子开始高效,独特的第二代测序读取读取,从而实现成本效益和准确测序,单倍型和de novo集装箱。Genome Res。2019; 29(5):798-808。

    CAS.文章谷歌学者

  6. 6.

    Gnerre S, MacCallum I, Przybylski D, Ribeiro FJ, Burton JN, Walker BJ, Sharpe T, Hall G, Shea TP, Sykes S.从大规模平行序列数据中获得高质量的哺乳动物基因组草图。中国科学院院刊。2011;108(4):1513-8。

    CAS.文章谷歌学者

  7. 7.

    张国栋,方旭,郭旭,李丽,罗荣华,徐飞,杨鹏,张磊,王旭东,齐辉。牡蛎基因组揭示壳形成的复杂性和应激适应性。大自然。2012;490(7418):49。

    CAS.文章谷歌学者

  8. 8.

    谢东,陈瑞敏,马志刚,陈瑞敏。基于长读和统计方法的全基因组单倍分型研究。生物科技Nat》。2014;32(3):261。

    CAS.文章谷歌学者

  9. 9.

    周X,Batzoglou S,SIDOW A,Zhang L. Hapenovo:一种基于单倍型的过滤和逐步逐步逐步突破的方法。BMC基因组。2018; 19(1):467。

    文章谷歌学者

  10. 10。

    比沙拉A,刘Y,翁Z,Kashef-Haghighi d,Newburger DE,西R,Sidow A,Batzoglou S.阅读云揭开人类基因组的复杂区域的变化。Genome Res。2015; 25(10):1570至1580年。

    CAS.文章谷歌学者

  11. 11.

    Elyanow R,吴H-T,圣拉斐尔BJ。确定使用链接阅读测序数据的结构变异。生物信息学。2017; 34(2):353-60。

    文章谷歌学者

  12. 12.

    Marks P, Garcia S, Barrio AM, Belhocine K, Bernate J, Bharadwaj R, Bjornson K, Catalanotti C, Delaney J, Fehr A.使用链读分析人类基因组变异的全谱。基因组研究》2019;29(4):635 - 45。

    CAS.文章谷歌学者

  13. 13。

    阿迪A,Kitzman JO,伯顿JN,达扎R,库马尔A,Christiansen的L,Ronaghi男,阿米尼S,Gunderson的KL,Steemers FJ。在用于从头基因组通过转座邻接装配体外,远程序列信息。Genome Res。2014; 24(12):2041-9。

    CAS.文章谷歌学者

  14. 14。

    库列绍夫V,斯奈德MP,Batzoglou S.基因组组件由合成长的读云。生物信息学。2016; 32(12):i216-24。

    CAS.文章谷歌学者

  15. 15。

    Weisenfeld NI, Kumar V, Shah P, Church DM, Jaffe DB。二倍体基因组序列的直接测定。基因组研究》2017;27(5):757 - 67。

    CAS.文章谷歌学者

  16. 16。

    杨荣文,库姆贝,沃伦RL,朱J, Birol I. ARCS:脚手架基因组草图与链接读取。生物信息学。2017;34(5):725 - 31所示。

    文章谷歌学者

  17. 17.

    Coombe L,张j,vandervalk bp,楚j,jackman sd,birol i,warren rl。方舟:带有联系的人类基因组草稿的染色体鳞片脚手架,具有联系的读物。BMC生物素。2018; 19(1):234。

    文章谷歌学者

  18. 18.

    Bishara A,Moss El,Kolmogorov M,Parada AE,Weng Z,Sidow A,Dekas Ae,Batzoglou S,Bhatt。读云组装通过综合性微生物的高质量基因组序列。NAT BIOTECHNOL。2018; 36(11):1067-75。

    CAS.文章谷歌学者

  19. 19.

    Tolstoganov I,Bankevich A,Chen Z,Pevzner Pa。CloudSpades:使用De Bruijn图表组装合成长读数。生物信息学。2019; 35(14):I61-70。

    CAS.文章谷歌学者

  20. 20.

    帕夫兹纳PA。TruSPAdes: TruSeq合成长读的条形码组装。Nat方法。2016;13(3):248。

    CAS.文章谷歌学者

  21. 21.

    GhuryeĴ,流行M.现代技术和脚手架组装基因组的算法。公共科学图书馆·生物学比较。2019; 15(6):1-20。

    文章谷歌学者

  22. 22。

    Sahlin K、Chikhi R、Arvestad L。带有PE污染配对库的装配脚手架。生物信息学。2016;32(13):1925–32.

    文章谷歌学者

  23. 23。

    流行男,Kosack DS,Salzberg SL。分层脚手架与Bambus。Genome Res。2003; 14(1):149-59。

    文章谷歌学者

  24. 24。

    Boetzer M, Henkel CV, Jansen HJ, Butler D, Pirovano W.脚手架预装组件使用SSPACE。生物信息学。2011;27(4):578 - 9。

    CAS.文章谷歌学者

  25. 25。

    李H,德宾R.快速与巴路士惠勒精确的短读对齐变换。生物信息学。2009; 25(14):1754至1760年。

    CAS.文章谷歌学者

  26. 26。

    古列维奇A,萨韦列夫V,Vyahhi N,特斯勒G.夸斯特:基因组组件质量评估工具。生物信息学。2013; 29(8):1072-5。

    CAS.文章谷歌学者

  27. 27。

    极小ap2:核苷酸序列的成对比对。生物信息学。2018;34(18):3094 - 100。

    CAS.文章谷歌学者

  28. 28。

    Zimin AV, Marçais G, Puiu D, Roberts M, Salzberg SL, Yorke JA。MaSuRCA基因组汇编器。生物信息学)。2013;29(21):2669 - 77。

    CAS.文章谷歌学者

  29. 29.

    罗R,刘b,谢y,李z,黄w,元j,他g,chen y,pan q,刘y. soapdenovo2:一个经验改进的记忆高效的短读De novo汇编。傻瓜。2012; 1(1):18。

    文章谷歌学者

  30. 30.

    科伦S、瓦伦兹BP、柏林K、小米勒、伯格曼NH、菲利普AM。Canu:通过自适应k-mer加权和重复分离,可扩展且精确的长读取组装。基因组研究2017;27(5):722–36.

    CAS.文章谷歌学者

  31. 31。

    耆那教男,科伦S,米加KH,快速Ĵ,兰德交流,Sasani TA,泰森JR,贝格斯AD,狄尔泰AT,Fiddes IT。用纳米孔测序和组装人类基因组的超长时间阅读。NAT BIOTECHNOL。2018; 36(4):338。

    CAS.文章谷歌学者

  32. 32.

    丹科DC,Meleshko d,Bezdan d,梅森C,Hajirasouliha I.米勒娃:对准和无参考的方法来用于去卷积宏基因组学链接读取。Genome Res。2019; 29(1):116-24。

    CAS.文章谷歌学者

  33. 33.

    关于文件的相似性和包容性。见:Proceedings of SEQUENCES 1997 (Cat No . 97TB100171)。IEEE;1997.21-9页。

  34. 34.

    郭X,陈女,高女,李力,刘K,你L,华C,阳楼,刘W,彭C. CNSA:用于存档组学数据的数据仓库。数据库2020;2020。

  35. 35。

    陈福兹,你lj,杨f,王ln,guo xq,gao f,hua c,tan c,fang l,山rq。CNGBDB:中国国家Genebank数据库。易川。2020; 42(8):799-809。

    PubMed.谷歌学者

下载参考

致谢

感谢朱红梅、谢银龙和其他深圳华大基因的员工在slr -superscaffold的开发过程中所进行的富有成果的讨论。支持这项研究结果的数据保存在CNGB核苷酸序列档案(CNSA) [34.]中国国家基因库数据库(CNGBdb)35.](登录号CNP0000066)。

资金

这项研究是由中国的国家重点研究发展计划(批准号:2018YFD0900301-05)和青岛市应用基础研究项目(批准号:19-6-2-33-CG)的支持。该资助者在研究和收集,分析和解释数据的设计,并以书面的稿子没有作用。

作者信息

从属关系

作者

贡献

LD、GF、XX对软件设计做出了贡献。LD、LG和MX为软件实现和数据分析做出了贡献。WW、SG、XZ、FC和OW对数据管理和收集做出了贡献。XL、LD和MX对基准设计做出了贡献。所有作者都对手稿的撰写做出了贡献。LG, MX, LD, IS对手稿进行了大幅度的修改。LD和XL监督了该项目。所有作者阅读并批准了最终的手稿。

相应的作者

对应于丽登刘欣

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者,不同的是,是BGI集团的员工。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1。

表S1.这项工作中的输入组件摘要。表S2.人类基因组数据集来源。表S3.总结了在这项工作中使用的人类stLFR和NGS数据集。表S4.用于不同输入组件的不同支架中的控制参数。表S5. 通过参数扫描后的最佳参数,由不同的架子工对基于MaSuRCA contigs的人类Chr19组件进行评估。表S6.对人体Chr19组件进行不同试验的评估。表S7.使用模拟的stLFR数据评估slr -superscaffold对其他模型生物的支架结果。表S8. 在进行筛选算法之前和之后的尖端和长连接统计。表S9.统计筛选算法前后尖端和长连接的局部性质。表S10.SLR-SupersCoffolder的运行时统计信息一步一步。表S11. 评估不同生物基因组的不同采样率的MinHash策略。图S1.SLR-superscaffolder的总体方案。图S2.读取为stLFR基准条形码和距离的Jaccard相似之间的关系对于两个序列和随机条形码读取。图S3.Nb和Js的平均值和分布在不同距离的距离为1,200bp的距离。图S4. 对于20000 bp大小的料仓,不同距离处NB和JS的平均值和分布。补充说明1.四种模式生物的详细测试信息。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和许可

关于这篇文章

通过交叉标记验证货币和真实性

引用这篇文章

郭磊,徐敏,王伟。等等。SLR-SupersCaffolder:使用顶部到底部方案的合成长读取的DE Novo脚手架工具。欧宝娱乐合法吗22,158 (2021)。https://doi.org/10.1186/s12859-021-04081-z

下载引文

关键词

  • 基因组组装
  • 合成的长读
  • 新一代测序
  • 脚手架
\