跳到主要内容

ContigExtender:一种改进病毒宏基因组数据从头测序组装的新方法

抽象的

背景

Metagenomics是通过下一代测序(NGS)的人类临床,动物和环境样品中病原体检测和发现的微生物基因组的研究。Metagenome de Novo序列组件是一种重要的分析步骤,其中较长的凸起,理想情况下整个染色体/基因组,由较短的NGS读数形成。然而,从De Novo组件产生的葡萄节通常非常碎片化,并且很少长于几千克碱基对(KB)。因此,在DE Novo组装的Contig上常规执行耗时的扩展过程。

结果

为了促进这一过程,我们提出了在德诺夫集约组件之后的梅萨群岛Contig扩展的新工具。ContIgextender采用新型递归扩展策略,探讨了多个延伸路径,以实现高度准确的较长折叠。我们证明ContiGexter始终以合成,动物和人体媒体组织数据集中的现有工具优于现有的。

结论

已经开发出一种新颖的软件工具Contigexter,以协助和提高Metagenome De Novo集会的表现。ContIgexter有效地延伸来自各种来源的Contigs,并且可以在大多数病毒肉体分析管道中掺入,用于各种应用,包括病原体检测和病毒发现。

背景

Metagenomic下一代测序(MNGs)被出现为临床感染剂检测和新的病原体发现的一个无偏的高通量工具[123.4.5.6.]。分析Metagenome管道目前正在进行积极发展[7.8.9.10.11.]。为了鉴定微生物序列,将数百万的NGS读取与公开的参考序列数据库进行比较。在该分析中,通过Novo Metagenome组件实现从短重叠读取的较长折叠的创建。高质量序列组件产生的较长的折叠具有超过短读的两个主要优点:改善了新型病原体的检测敏感性,而没有强烈的序列同源性与已知病原体;通过聚合酶链反应减少手动基因组延伸的需求[12.]。

De Novo集会是最近在Metagenomics病毒发现中的研究中的重要工具[13.14.15.16.17.18.19.20.21.22.]。由于这一领域非常活跃的发展,最近出现了专门的宏基因组组装器。Ayling等人在最近的一篇综述中总结了几种宏基因组组装器。23.]并在我们以前的研究中进行过测试[12.]。最近,流行的汇编黑桃及其变体,专为偏见应用而设计的Metaspades,已经出现成为梅塔群组装的首选工具[24.25.]。MetasPades算法基于De Bruijn图表(DBG),并在梅塔群组件中解决了许多挑战,例如不均匀的覆盖率和多种菌株混合物的存在。由于许多实验室都采用了Metaspades,因此我们将使用它作为我们的基准工具来生成要扩展的初始种子Contig。其他基于DBG的METAGENOME汇编程序包括IDBA-UD [26.],据大量[27.],Metavelvet-SL [28.],热卖[29.], MegaGTA [30.[ray meta [31.], 价格 [32.]和Xander [33.]。另一种类型的汇编器采用称为重叠布局 - 共识(OLC)的策略,该策略基于连接重叠以形成新的Contigs。该组包括野蛮人[34.],雪球[35.],Genovo [36.],bbap [37.],IVA [38.]和vicuna [39.]。

根据以前的数据[8.12.[De Novo汇编程序在应用于真正的雌噬菌体样本时,不太可能产生比几kb长的花冠。不均匀的覆盖,测序误差,图书馆结构和扩增伪影是导致过早装配终止的因素之一。另一个挑战是在甲虫样品中存在多种病毒,细菌和动物/宿主DNA片段。然而,在实践中,通常可以找到与DE Novo组装的CONDIG的边缘重叠的读取,因此迭代扩展可以显着增加COLIG长度。我们受到该观察的动机,并提出了一种新颖的算法和软件工具ContiGextender,以自动化De Novo集装件后的Contig扩展步骤。

基本ContiGextender算法是一种基于重叠搜索的贪婪算法,以下步骤:(1)查找相对于输入CONTIG的两端的重叠读取;(2)根据这些重叠读数计算候选扩展路径;(3)延长现有的Contig;(4)重复该过程,直到不再延长。为了确保在充满挑战的情况下正常工作,ContiGextender有几个重要的独特功能。首先,当存在表示多个株的多个延长路径时,允许扩展路径分支。这是使用深度第一搜索(DFS)来实现的,以递归递归多个可能的扩展路径。此功能的好处是避免延伸陷入本地Optima,这可能导致预先终止。其次,算法侧重于重叠质量而不是深度。避免了硬度深度截止以允许超低覆盖(1×)中的CONTIG扩展,但否则高质量的重叠区域。 Last, instead of using a consensus sequence derived from all covering reads at the overlap, we separate the region into genotypes, since the overlapping reads may contain multiple strains. Overlapping reads are categorized according to their genotypes and the genotypes are ranked based on read concentration and quality. The main benefit of using genotypes instead of a single consensus is that it allows for branching for each strain. In addition, untrimmed adapters and sequencing errors are not likely to contribute to significant genotypes since these contaminations appear at random positions.

从头汇编器生成的contigs是种子contig输入到ContiGextender。ContiGextender的输出是最终环节。基于的最终折叠严格评估获得了长度Contig准确性,使用核苷酸爆炸通过与NCBI病毒参考核苷酸序列的相似性测量[40]。我们的研究结果表明,与其他方法相比,ContiGextender在延长种子Contigs时有效,同时保持高水平的Contip精度。

执行

数据集

使用四组数据集,命名为“硅合成”,“NIBSC病毒标准”,“动物”和“人类”,用于评估ContiGextender算法。为了评估性能(Contig尺寸和准确性),将输出与目标病原体的参考基因组进行比较。

开发了一个概念“在硅合成”数据集的证据,以测试ContiGextender以不同读取长度(100bp,250bp),误差率(1%和5%),深度(10x,20x和50x)的效果,和不均匀的覆盖范围。三个靶病毒基因组包括Bas-congo病毒(Basv),一种与中非中非的出血热病例相关的新型rhabdovirus [41.];BK病毒(BKV),人聚瘤病毒;和人免疫缺陷病毒1型(HIV-1)。BKV是一个未经生育的双链DNA病毒,圆形基因组约为5kbp。BasV Genome是一种负面意义的单链RNA病毒,HIV-1是阳性义​​单链RNA病毒。

为了模拟盖度的不均匀性,每隔1 kb在50×盖度的250 bp范围内添加一个峰值。每个基因组位置都有相等的概率被覆盖,模拟理想的猎枪测序过程。然而,这一过程的随机性并不会导致全基因组的完全甚至覆盖,而是二项覆盖分布,特别是在低覆盖情况下。例如,我们观察到,有些位置的覆盖范围可能低至1倍,而平均覆盖范围是10倍。

此外,我们使用PIRS Version111模拟了逼真的100 BP配对端Illumina [42.]为上述三种参考病毒。该软件不允许长时间读取,但它考虑GC内容,从真正的Illumina基础调用配置文件派生。

NIBSC,动物和人类样本汇总在表中1。NIBSC数据集[43.](NIBSC样品26)由临床标本和培养病毒组装。靶病毒基因组的长度范围为约6至〜234kb。Illumina MiSeq测序创建了大约900万个成对读数长度250bp的数据集。蚊子数据集[21.](Pool20和Pool27)此处分析起源于加利福尼亚州的蚊子控制区。如前所述生成所得库[43.44.],并用Hiseq 4000 Illumina平台测序,使用2×150周期Hiseq。人体肉桂瘤数据集表征鼻拭子或粪便中的病毒核酸,从明显的健康幼儿,没有历史症状,如我们以前的研究中所述,在多个小型和远程亚马逊村庄中没有记录症状[13.45.]。使用MiSeq生成原始250bp配对端读数并以序列读取档案(SRA)沉积。SRA项目登录号是Prjna391715和Prjna530270,用于蚊子样本和亚马逊鼻拭子样本。亚马逊粪便样本位于SRR6287056到SRR6287135中。我们还包括来自人粪便(47,210-粪便)和人类血液的额外的Metagenome样品,用于治疗的艾滋病毒阳性样品(12-110034-VeqrPCR),狗腹泻粪便(狗池)和鱼肿瘤组织(Fish1-Pool)。

表1用于评估ContigExtender性能的元基因组数据集

预处理

从Illumina测序中获得的原始reads在组装前进行预处理,如[12.]。通过使用Bowtie2用人参考基因组HG19映射读取来减去人宿主读取[46.]。此外,PRINSEQ版本0.20.4用于过滤使用默认参数的低复杂度读取[47.]。

De Novo组装

我们使用Spades 3.13.0与“-meta”选项,以启用Metaspades模式。k-mer大小设置为21,33,55和77,而所有其他参数设置为默认值。Metaspades首先使用Swades构建所有读取的所有读取的De Bruijn图,使用各种图形简化程序将其转换为组装图,并在组装图中重建路径,所述组装图表对应于Metagenome内的个体基因组的长片段[24.25.]。响应微观大学挑战,Metaspades侧重于重建应变混合物的共有骨架,因此有时忽略一些菌株特征(通常对应于罕见菌株)以改善组件的邻缘。

算法

算法的概要如图所示。12。扩展的有效性来自于对每个个体contig的单独优化,而不是从头组装所使用的同时过程。扩展过程是迭代的。在每次迭代中,读取集和输入contig两端之间的对齐使用外部工具(如Bowtie 2)进行计算。在对这些对齐进行质量和长度过滤后,它们被聚合并记录高度不一致的区域。然后,每个潜在的解决方案都被评分,并成为多个可能的共识之一。然后每个都成为即将到来的扩展迭代的输入contig。重复这些步骤,直到检测到一个周期或没有足够的对齐可以进一步扩展队列。该算法的最终输出由一组潜在的contigs组成。

图。1
图1

ContIgExtender集装算法的示意图。(一种)迭代地招募与输入contigs的边缘重叠的读取,然后从重叠部分生成一致序列,用于形式扩展的contigs。(B.)多种菌株可以形成替代的共识折叠。在检测到变体读取时,会创建分支机构。(C)一个更详细的重叠-共识-分支算法的演示,显示了由深度优先搜索(DFS)形成的两个分支。两个对齐的读取有一个三碱基不一致区域,所以两个不同的路径形成替代扩展。(D.)包含未修剪的适配器或其他排序错误的读取将不能与contig和其他读取很好地对齐。(E.)圆形基因组检测和延伸终止

图2
图2.

ContiGextender算法的伪代码

结盟

该算法利用现有的对齐工具来发现读取和contig之间的重叠部分。为了只保留部分重叠的读,而不保留完全位于contig内的读,只考虑长度等于最长读长度的contig的前缀和后缀。选择bowtie2参数是为了在运行端到端对齐时不惩罚不明确的字符。对于成对的数据,我们提供了一个选项来限制每个读对的方向和距离。当约束被启用时,读取伙伴的对齐不一致将被丢弃。

计算共识

对于每一个重叠的k,一个质量分数\(Q_ {k} \)被计算,等于读取和contig的基础数量符合达成协议。在原始Contig之外的读数的部分不考虑在这种质量分数中。每个读取必须具有高于某种用户定义阈值的质量分数,以便在共识中考虑,有效地忽略了很少的基础的短对准。

\({\ text {r}} _ {{\ text {k}}} \ left [{\ text {i}} \ offer] \)是读k的核苷酸,这将在新的共识中处于置位。在扩展Contig中的每个位置,定义\({\ text {q}} \ left [{\ text {i}} \ leftle] \ left [j \ light] = \ sum \ nolimits _ {{r_ {k} \ left [i \ light] = jr_ {k} \左[i \ recten] = j}} {q_ {k} ^ {2}}}。创建新的共识C,设置\({\ text {c}} _ {{\ text {i}}}}} \)成为基地\(j \)最大化(Q\left[i \right]\left[j \right]\)如果该值大于阈值。这个阈值可以从以下表达式计算:

$$阈值= 10 ^ { - t} l ^ {2} c,$$

其中T是一种无量纲公差值,表示扩展所需的可接受的证据,L是读取的长度,C是覆盖范围的估计。

如果未达到此阈值,则将此职位留在共识未定义。此过程计算主要共识,这些共识由最具证据支持。

替代共识

找到每个位置的第二个得分基础,并且如果其分数大于某个阈值,并且足够多的读取对此同意,则将I标记为模糊的基础。对于每个读取,通过读取读取的子集来创建一个字符串,使得所选位置对应于模糊的基础。这些字符串将每个读取的解决方案代表到模糊位置。这些字符串的频率被排序,并且符合匹配读取的某个阈值的频率被保留为替代共识。

为了防止与CONDIG的长度指数呈指数增长的交替的交替的数量,除了调整指定为模糊所需的阈值之外,还可以对每个迭代考虑的交替的交替的数量。

当扩展contig的足够大的前缀或后缀与扩展过程中较早出现的前缀或后缀相同时,算法终止,因为这将创建一个发生在两者之间的精确对齐和共识的无限循环。它还处理圆形染色体,否则会经历相同的行为。此外,还可以设置扩展contig长度的上限,以便在选择与参考不同的共识时节省处理时间。

结果

软件参数

ContiGextender对模拟和实时数据集的性能与现有的Contip延长工具价格进行了基准测试[32.],Koller [48.]和GenSeed-HMM [49.]。价格V 1.2使用推荐的参数执行:30个周期,500 BP插入尺寸和90%的初始Contig的标识。Koller用推荐的对准阈值,组件K-MER大小32和重叠K-MER大小执行执行。我们用深渊汇编器,30bp延伸种子和90%对准阈值运行Genseed-HMM。ContIgextender以默认公差为2.5运行。

模拟数据

表中展示了Contigextender在Silico合成Basv数据集上的性能2。从随机选择的1 kB种子contigs,除了两个具有挑战性的情况外,ContIgextender能够重建所有三种病毒基因组的所有三种病毒基因组:(1)低测序深度10×耦合短读取(100bp)和(2)低深度10×耦合高误差率(0.05)。BKV和HIV1数据集的结果显示了类似的趋势(附加文件1:表S1)。虽然测序深度是ContiGexter的主要因素,但是较长读取的250bp与低误差速率(0.01)可以补偿低测序深度。ContIgexter可以检测BKV基因组的圆形性质,避免过度扩展。

表2从BASV病毒的硅片读取产生的contigs比较

由于前者是De Novo汇编程序,因此离心者与ContiGexter直接相当,而后者是播种机组件。然而,Metaspades结果提供了一种衡量每个数据集的难度的基准。与Contigexter一样,Metaspades对10倍的低深度敏感,但是,离子腺样耐受抑制误差和病毒混合物的存在。

ContIgexter通常比低深度(10×)和高误差率数据集的价格更好(表2和附加文件1:表S1)。当给定更高深度测序数据时,两者都是几乎整个参考基因组。Genseed-HMM和KollectO在低误差率读取的参考基因组的重建部分,但通常没有在高误差率数据集中完成任何扩展。

我们还对由pIRS(附加文件)生成的实际成对端模拟数据集进行了测试1:表S2)。结果表明,ContiGexter在低覆盖范围内优于价格(10×)。此外,在某些情况下,Genseed-HMM和Koller没有产生输出,ContiGexter在所有试验中产生的延伸。此外,我们在忽略配对端扩展的插入尺寸约束时观察到了一个明显的优势。这允许算法克服一些困难的区域。

NIBSC数据

在58个比较方案中,长度至少为1.5 kB的种子病毒葡萄项,并且至少95%与参考病毒基因组中的一种,延长了26个葡萄片,至少200bp(表3.)。扩展contig的质量由最终长度、获得长度(ContigExtender输出的最终长度减去metaSPAdes种子contig的长度)和与目标病毒基因组对齐的输出contig的百分比来衡量。每个contig的深度从7×到267×不等,最终的contig长度从1.7 kb到10 kb不等,最大延伸面积为5.8 kb。

表3 ContIgextender在NIBSC数据集上使用Metaspades装配输出作为种子折叠

最终环节的准确性通过这些CONTIG的对准质量对它们各自的参考病毒基因组来测量。除了26个最终环节中,除了两个与单段对齐的参考基因组几乎完美的对齐几乎完美的比赛。另外2个折叠,CONTIG 10(89%)和CONTIG 14(78%)没有覆盖整个CONTIG的单一对准,表明在CONTIG延伸过程中可能的嵌合CONDIG形成。请注意,使用ContiGextender的默认评分参数实现了此处的性能,可以调整为更具侵略性或更保守的参数。积极的延伸产生较长的折叠,但风险更高的嵌合体Contig形成的机会,而保守延伸导致较短但可能更准确的Contigs。

价格,Genseed-HMM和Kollector没有产生大部分所测试的种子Contig的延伸(表3.)。

数字3.显示NIBSC数据集的前6个最长最终CONTIG的WIggle图。Contig2和Contig3蠕虫图非常相似;它们是与人Mastadenovirus C的同一区域相同的体变形的变体。覆盖范围在每个Contig的区域内和不同的contigs的区域非常不均匀。毫不奇怪,低覆盖范围是大会过早终止的主要原因之一。覆盖范围的突然倾向可能会结束Contig组装或扩展。

图3.
图3.

ContIgexter输出与采用种子CONTIG和测序深度一起显示。映射到最终Contig所示的蠕虫图(蓝色),由离心腺素(深褐色线)产生的种子Contig,以及与参考病毒基因组(黑线)对齐的最终Centig区。Y轴是日志刻度中的深度,x轴是COLIG长度。该图是从使用Python 3脚本绘制的天然可伸缩矢量图形(SVG)图像生成,基于读取映射到具有BLASTN的病毒参考基因组

人类和动物数据

在“动物”数据集中,在病毒种子上,10个Contigs从比1.5 kb长的病毒种子折叠达到大于0.2kb的显着延伸。Contig 5是唯一具有〜3 kB的显着嵌合延伸的contig,但它仍然获得了〜4 kb的正确扩展(表4.)。就“人类”数据集而言,13个序列得到了显著扩展,并成功地与各种参考病毒进行了比对。唯一可能有嵌合扩展的contig是contig 1 (Table5.)增长了〜2.4 kB的延伸,不与诺沃克病毒参考基因组对齐。所有其他Contigs都是成功的扩展,并且一些显着的长度,多达6 kB,例如亚马逊-17d的样本中的Contig 3。

表4使用MetaSPAdes作为种子contigs的动物数据集上的ContigExtender结果
表5使用MetaSPAdes作为种子contigs的人类元基因组数据集上的ContigExtender结果

对于来自三个人类和动物数据集的49个组合,45个是高质量的,没有嵌合扩展。对于这45个contigs, MetaSPAdes生成的平均种子contigs长度是2.8 kb。ContigExtender平均将这些长度增加了约2 kb,最终的平均长度为4.8 kb。获得长度的中位数约为1.5 kb,种子长度的中位数为2.4 kb,输出长度的中位数为3.9 kb。这些结果,如表所示3.4.,5.,展示在各种数据集中的De Novo集装箱中的显着改进。相比之下,价格和Koller成功地延伸了每个Contig,而Genseed-HMM扩展零点。

讨论

基因组大小的噬菌体和病毒的范围从几kb到几百kb。最先进的de novo汇编者只能实现几千宝的Contigs;通过迭代映射读取到Contig结束,通常可以进一步扩展这些Contig,这是当前是耗时的手动过程。所提出的方法有效地将序列组装过程转换为两步处理:De Novo组件,然后是Contig扩展。我们的结果表明,CONTIG扩展可以是改善偏见序列分析的有效步骤。兼容任何De Novo汇编程序,ContIgexter可以内置于大多数病毒肉头组合分析管道中。广泛的偏见型应用如病原体检测,微生物监测和病毒发现,可以受益于Contip延伸,这显着降低了手动Contig扩展所需的时间和精力。

打击显微大学挑战的功能是ContiGextender提出的新的分支特征。所提出的DFS分支机制允许多种分支路径,由代表多种菌株的不同基因型定义。评估每个重叠区域以读取对齐的均匀性。当观察到代表多种基因型(菌株)的足够的异质性时,在重叠区域产生电位分支点。基因组和基因组帧间的重复也可以在该分支期间进行基因分型并解决,这允许探索多个延长路径以获得最大延伸。

导致过早装配终止的两个主要因素突然覆盖覆盖和过度排序误差和污染。在图2中观察到前者。3.,这表明许多Contigs在覆盖范围内失败了。后者在表中观察到2其中过度测序误差(5%)导致差的De Novo Contig在许多硅合成数据集上形成。ContIgexter通过利用优先级的重叠深度的新推广评分函数来解决这些挑战。它侧重于重叠质量,而不是在低覆盖区域上使用硬度深度截止。为避免尽可能避免嵌合CONTIG扩展,我们的得分函数需要增加低覆盖区域的重叠长度。通过使用对齐而不是大多数De Novo汇编程序使用的符号搜索,ContiGextender对准确性的速度交易,允许在高音序列错误区域中进行更好的性能。

这些特征可以解释ContIgexter相对于其他Contip扩展工具的有利性能。价格迭代地组装近端读取并使用配对结束关系填充Contig之间的间隙。Koller recrewors使用渐进式绘制过滤器而不是对齐读取。Genseed-HMM在与ContiGextender类似的过程中,迭代地发现类似的读取并通过装配软件扩展CONDIG。这些工具具有共同的元素,因为它们都利用de bruijn汇编程序生成共识序列。当输入CONTIG是DE Novo装配工具的最终输出,例如METASPADES,基于DE BRUIJN图形的进一步组装不太可能成功,因为导致采用比例终止扩展的因素仍保留在数据中。因此,使用ContiGextender所采用的评分函数计算共识序列更有可能克服这些挑战性地区。

病毒参考基因组数据库绝不是评估contig的金标准,因为仍然存在许多未知的病毒物种和数据库中的菌株。因此,一些延长的折叠不能对它们的始发基因组或远处基因组进行对齐,因此在我们的分析中被指定为假嵌合体。然而,可以更准确地评估NIBSC数据,因为样品仅包括已知的病毒标准。

如表中所示3.4.,5.,存在多个延伸的延伸部分是过组装或误流的结果,如小于100%对准的参考基因组的对准。我们还观察到覆盖相同基因组区域的多个组件,由于偏离误差或偏射菌样品中的多种菌株的混合物。MIS组件通常可以在初始DE-Novo组件中发生,用于生成种子CONDIGS,并且在CONTIG延伸中更有可能通过接受更高的错误风险来推动CONTIG长度的极限。我们的算法的评分系统有利于最可能的延伸,延伸长度与MIS组件的概率之间的平衡是可调的。在实践中,当我们在结果中显示时,可以在对准已知的病毒基因组时鉴定CONTIG延伸误报或嵌合体重发素(图。3.和桌子3.4.5.)。对于新的病毒,可以计算识别嵌合体Contigs,但可以通过PCR延伸来实现。我们测试中的所有MIS组件(表3.4.5.)来自同一基因组的区段。在仔细检查这些误解基因组的误诊后,我们发现这些MIS组件是由延伸的折叠末端引起的,从相同基因组的不同区域延伸不正确。

目前的软件仅在病毒偏心组织上进行了优化和测试,而不是用于细菌或真核基因组。我们推测,我们目前的版本可能无法适用于其他基因组的两个原因:1)病毒基因组含有比其他基因组更少的重复;2)非病毒基因组的测序数据集大小通常相当大,因此运行时间可能需要进一步优化。

结论

我们提出了一种提升De Novo Metagenomics汇编业绩的新方法。所提出的DFS分支算法允许由代表多种菌株的不同基因型定义的多个分支路径。我们的策略自动化从De Novo组件生产的片段手动构建病毒基因组的劳动密集型过程。利用模拟和现实世界的动物和人体偏心组织数据集,ContiGextender被证明是有效地改善De Novo组装,并且De Novo组装与其他延长工具相结合。对于可伸展的Contigs,ContiGexter可以准确地将葡萄饼长提高几kB,这对于病毒基因组很重要。该软件还可以掺入病毒偏心神经分析管道中,具有各种应用,例如病原体检测,病毒发现,临床微生物学和环境代理学。因此,我们认为,我们的软件利用对研究人员,流行病学家,临床医生和环境生物学家具有广泛的兴趣。

可用性和需求

  • 项目名称:ContiGextender

  • 项目主页:欧宝直播官网apphttps://github.com/dengzac/contig-extender.

  • 操作系统:Linux,Windows

  • 编程语言:Python 3.6或更高版本

  • 其他要求:Bowtie2 2.3.5或更高,Perl 5或更高

  • 许可证:GNU GPLV3

  • 对非学者使用的任何限制:没有

数据和材料的可用性

在当前研究期间分析的数据集可在序列读取归档存储库中使用https://www.ncbi.nlm.nih.gov/sra.。加入号码是Prjna391715和Prjna530270,用于蚊子样本和亚马逊鼻拭子样本。亚马逊粪便样本位于SRR6287056到SRR6287135中。

缩写

西班牙芒果:

Metagenomic Next-Gen测序

DFS:

深度首先搜索

参考

  1. 1。

    Delwart E.对人类生物的路线图。PLOS POAROG。2013; 9:E1003146。

    CASPubMed.pmed中央文章谷歌学术

  2. 2。

    Chiu Cy。病病原体发现。Currin微生物。2013; 16:468-78。

    CASPubMed.pmed中央文章谷歌学术

  3. 3.

    Houldcroft CJ,Beale Ma,Breuer J.病毒基因组测序的临床和生物见解。NAT Rev Microbiol。2017; 15:183-92。

    CASPubMed.pmed中央文章谷歌学术

  4. 4.

    Paez-Espino D,Ele-Fadrosh Ea,Pavlopoulos Ga,Thomas Ad,Huntemann M,Mikhailova N等人。揭开了地球的病毒。自然。2016; 536:425-30。

    CASPubMed.文章pmed中央谷歌学术

  5. 5。

    Carroll D,Daszak P,Wolfe Nd,Gao Gf,Morel Cm,Morzaria S等人。全球病毒项目。科学。2018; 359:872-4。

    CASPubMed.文章pmed中央谷歌学术

  6. 6。

    赵淑英,米勒公司临床宏基因组。Nat Rev Genet. 2019; 20:341-55。

    CASPubMed.pmed中央文章谷歌学术

  7. 7。

    Huson DH,Mitra S.环境序列分析的介绍:梅根术治疗。方法Mol Biol Clifton NJ。2012; 856:415-29。

    CAS文章谷歌学术

  8. 8。

    等。关键词:聚类,聚类,聚类,聚类一种云兼容的生物信息学管道,用于从临床样本的下一代测序超快速病原体鉴定。基因组研究》2014;24:1180 - 92。

    CASPubMed.pmed中央文章谷歌学术

  9. 9。

    Meyer F,Paarmann D,D'Souza M,Olson R,Glass Em,Kubal M等。Metagenomics Rast Server - 一种公共资源,用于自动系统发育和Metagenomes的功能分析。BMC生物素。2008; 9:386。

    CAS文章谷歌学术

  10. 10。

    Clarke El,Taylor LJ,Zhao C,Connell A,Lee J-J,Fett B等人。Sunbeam:一种可伸展的管道,用于分析Metagenomic测序实验。微生物组。2019; 7:46。

    PubMed.pmed中央文章谷歌学术

  11. 11.

    Tamames J,Puente-SánchezF.Crueezem,一个完全自动的Metagenomic分析管道从读物到垃圾箱。Biorxiv:347559(2018)。

  12. 12.

    邓X,naccache sn,ng t,federman s,li l,chiu cy,等。一项显着改善了从偏见的下一代测序数据中显着改善了微生物基因组的De Novo组装。核酸RES。2015; 43:E46。

    PubMed.pmed中央文章CAS谷歌学术

  13. 13。

    Altan E,Dib Jc,Gulloso Ar,Juandigua de,Deng x,Bruhn r等人。地理分离对土着儿童鼻病毒的影响。J Virol 2019; 93:E00681-19。

  14. 14。

    Altan E, K SV, ubiski, Burchell J, Bicknese E, Deng X, Delwart E.被发现的第一个爬虫类圆环病毒感染了黑头蟒的肠道和肝脏组织。兽医杂志2019;50:35。

    PubMed.pmed中央文章谷歌学术

  15. 15.

    Altan E, Kubiski SV, Boros Á, Reuter G, Sadeghi M, Deng X,等。一种高度分化的小核糖核酸病毒感染斑马鱼的肠道上皮(Danio Rerio.)在全球研究机构中。斑马鱼。2019; 16:291-9。

    PubMed.文章pmed中央谷歌学术

  16. 16。

    Brito F,Cordey S,Delwart E,Deng X,Tirefort D,Lemoine-Chaduc C,等。从瑞士血小板岸口的300种浓缩物的Metagenomics分析。vox sang。2018; 113:601-4。

  17. 17。

    关键词:恒河猴,肠道病毒,急性和特发性慢性腹泻,病例对照J微生物学报。2017;91:e00952-17。

    PubMed.pmed中央文章谷歌学术

  18. 18。

    Kapusinszky B, Mulvaney U, Jasinska AJ, Deng X, Freimer N, Delwart E.宿主种群瓶颈后的局部病毒灭绝。J微生物学报。2015;89:8152 - 61。

    CASPubMed.pmed中央文章谷歌学术

  19. 19。

    NG TFF,Chen L-F,周Y,Shapiro B,Interer M,Heintzman Pd等。700-Y老北美驯鹿粪便中的病毒基因组的保存。Proc Natl Acad Sci USA。2014; 111:16842-7。

    PubMed.文章CASpmed中央谷歌学术

  20. 20.

    Phan TG,Dreno B,Da Costa Ac,Li L,Orlandi P,Deng X等。一种新的粪便样品和皮肤T细胞淋巴瘤(肌霉菌筋)的新的Protoparvovirus。病毒学。2016; 496:299-305。

    CASPubMed.文章谷歌学术

  21. 21.

    Sadeghi M,Altan E,Deng X,Barker Cm,Fang Y,Coffey Ll等。来自加利福尼亚州的12000个Culex蚊子的病毒鼠。病毒学。2018; 523:74-88。

    CASPubMed.文章谷歌学术

  22. 22。

    Phan TG,Da Costa Ac,张W,Pothier P,Ambert-Balay K,Deng X等。人类粪便中的一个新的戈尔病毒。病毒基因。2015; 51:132-5。

    CASPubMed.pmed中央文章谷歌学术

  23. 23。

    锯割m,clark md,leggettrm。短期读取的Metagenome集会的新方法。简短生物形式。2020。https://doi.org/10.1093/bib/bbz020

    文章PubMed.pmed中央谷歌学术

  24. 24。

    Bankevich A,Nurk S,Antipov D,Gurevich AA,Dvorkin M,Kulikov As等。黑桃:一种新的基因组装配算法及其在单细胞排序的应用。J计算BIOL J计算MOL CELL BIOL。2012; 19:455-77。

    CAS文章谷歌学术

  25. 25。

    Nurk S,Meleshko D,Korobeynikov A,Pevzner Pa。离婚士:一个新的多功能偏心组件汇编。Genome Res。2017; 27:824-34。

    CASPubMed.pmed中央文章谷歌学术

  26. 26。

    彭y,梁立克,耀米,下巴菲利。IDBA-UD:用于单细胞和Metagenomic测序数据的DE Novo汇编程序,深度高度不均匀。Bioinform Oxf Engl。2012; 28:1420-8。

    CAS文章谷歌学术

  27. 27。

    Namiki T,Hachiya T,Tanaka H,Sakakibara Y. Metavelvet:从短序列读取的Velvet汇编程序到De Novo Metagenome集装箱的延伸。核酸RES。2012; 40:E155。

    CASPubMed.pmed中央文章谷歌学术

  28. 28。

    AFIAHAYATI,SATO K,Sakakibara Y. METAVELVET-SL:利用监督学习的DE Novo Metagenomic汇编程序的延伸。DNA Res int J Rapid Puppt Rep基因基因组。2015; 22:69-77。

    CAS谷歌学术

  29. 29。

    Li D,Luo R,Liu C-M,Leung C-M,Ting H-F,Sadakane K,等。Megahit v1.0:由高级方法和社区实践驱动的快速且可扩展的梅达哥数汇编程序。方法圣地亚哥加利福尼亚州。2016; 102:3-11。

    CAS文章谷歌学术

  30. 30.

    Li D,Huang Y,Leung C-M,Luo R,Ting H-F,Lam T-W。MEGAGTA:使用迭代DE BRUIJN图形的一种敏感和准确的雌噬菌素基因靶向瓶子。BMC生物素。2017; 18(4):408。

    文章CAS谷歌学术

  31. 31.

    Boisvert S,Raymond F,Godzaridis E,Laviolette F,Corbeil J. Ray Meta:可扩展的De Novo MetageNode装配和仿形。基因组Biol。2012; 13:R122。

    PubMed.pmed中央文章CAS谷歌学术

  32. 32.

    Ruby JG,Bellare P,Derisi JL。价格:(META)基因组序列数据组件的目标组装软件。G3 Bethesda MD。2013; 3:865-80。

    文章谷歌学术

  33. 33.

    王q,鱼ja,gilman m,sun y,棕色ct,tiedje jm,等。Xander:采用一种用于有效基因靶向偏心组件的新方法。微生物组。2015; 3:32。

    CASPubMed.pmed中央文章谷歌学术

  34. 34。

    Baaijens Ja,Aabidine Aze,rivals e,Schönhutha。使用重叠图的病毒Quasispecies的De Novo组装。Genome Res。2017; 27:835-48。

    CASPubMed.pmed中央文章谷歌学术

  35. 35。

    雪球:菌株感知的宏基因组基因组装。生物信息学,2016;32:i649-57。

    CAS文章谷歌学术

  36. 36。

    AFIAHAYATI,SATO K,Sakakibara Y.通过合并成对终端信息,延伸的Genovo Metagenomic汇编器。peerj。2013; 1:E196。

    CASPubMed.文章pmed中央谷歌学术

  37. 37。

    林莹莹,谢长华,陈建华,陆翔,高建华,陈培军,等。利用原位生成的参考序列和基于blast的新型组装管道,从头组装高度多态的宏基因组数据。BMC Bioinform。2017;18:223。

    文章CAS谷歌学术

  38. 38。

    狩猎m,gall a,ong sh,brener j,ferns b,goulder p等。IVA:准确的RNA病毒基因组组合。Bioinform Oxf Engl。2015; 31:2374-6。

    CAS文章谷歌学术

  39. 39。

    杨晓明,张建平,张建平,等。高度多样化病毒群的从头组装。BMC基因组学。2012;13:475。

    CASPubMed.pmed中央文章谷歌学术

  40. 40。

    McGinnis S,Madden TL。BLAST:在强大而多样化的序列分析工具集中。核酸RES。2004; 32(Web服务器问题):W20-25。

    CASPubMed.pmed中央文章谷歌学术

  41. 41.

    Grard G, Fair JN, Lee D, Slikas E, Steffen I, Muyembe J-J,等。中非与急性出血热相关的一种新型弹状病毒公共科学图书馆Pathog》2012。https://doi.org/10.1371/journal.ppat.1002924

    文章PubMed.pmed中央谷歌学术

  42. 42.

    胡X,元J,Shi Y,Lu J,Liu B,Li Z等。PIRS:基于个人资料的Illumina对末端读取模拟器。生物信息学。2012; 28:1533-5。

    PubMed.文章CAS谷歌学术

  43. 43.

    acta photonica sinica, 2011, 38(5): 689 - 693 .李磊,邓晓明,Mee ET, Collot-Teixeira S, Anderson R, Schepelmann S,等。比较病毒宏基因组学方法使用高度多路复合的人类病毒病原体试剂。中国病原生物学杂志。2015;

    CASPubMed.文章谷歌学术

  44. 44.

    Sadeghi M,Kapusinszky B,Yugo DM,Phan TG,Deng X,Kanevsky I等。美国牛犊血清的生物动物。Biol J int Assoc Biol Stack。2017; 46:64-7。

    谷歌学术

  45. 45.

    Siqueira JD,Dominguez-Bello Mg,Contreras M,Lander O,Caballero-Arias H,Xutao D等人。在粪便的复杂的生物动物从amerindian孩子在被隔绝的亚马逊村庄。NAT Communce。2018; 9:1-11。

    文章CAS谷歌学术

  46. 46。

    Langmead B,Salzberg SL。与Bowtie 2. NAT方法的快速喷射读取对齐。2012; 9:357-9。

    CASPubMed.pmed中央文章谷歌学术

  47. 47。

    宏基因组数据集的质量控制与预处理。生物信息学,2011,27:863 - 4。

    CAS文章谷歌学术

  48. 48。

    Kucuk E,Chu J,Vandervalk BP,Hammond SA,Warren RL,Birol I. Koller:记录信息,目标是Gene Loci的Novo集会。Bioinform Oxf Engl。2017; 33:1782-8。

    CAS文章谷歌学术

  49. 49。

    Alves JMP,De Oliveira Al,Sandberg Tom,Moreno-Gallego JL,De Toledo MAF,De Moura Emm,等。Genseed-HMM:使用简介HMMS作为种子的渐进组件的工具及其在甲氧哌妥的病毒发现中的种子。前微生物。2016; 7:269。

    PubMed.pmed中央谷歌学术

下载参考

致谢

作者要感谢Eda Altan和Elizabeth Fahsbender,用于贡献排序数据。

资金

该项目部分由国家心脏,肺和血液研究所(NHLBI)的国家健康机构授予R01-HL-105770支持。资金机构没有参与对数据的研究,收集,分析和解释的设计,或写作稿件。

作者信息

从属关系

作者

贡献

编辑该研究并参与了软件和稿件的发展。ZD开发了软件,进行了分析并参加了手稿写作。所有作者阅读并认可的终稿。

相应的作者

对应于Zachary Deng.或者Eric Delwart

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

补充文件1:补充表S1

。显示了由ContigExtender、PRICE、Kollector、GenSeed和metaSPAdes从BKV和HIV病毒的二氧化氯读取中产生的contigs的比较。补充表S2显示来自PIRS的模拟成对端的ContiGextender产生的Contig长度(读取长度100,错误率0.05)。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

DENG,Z.,DELWART,E.COLIGEXTENDER:一种改善DE Novo序列组件进行病毒性偏心眼组数据的新方法。欧宝娱乐合法吗22,119(2021)。https://doi.org/10.1186/S12859-021-04038-2

下载引用

关键字

  • 宏基因组
  • De Novo组装
  • 下一序列
  • 病毒发现
  • 病原体检测
\