跳到主要内容

病毒连续序列识别工具的仿真研究与比较评价

摘要

背景

病毒,包括噬菌体,是环境和人类相关微生物群落的重要组成部分。病毒可以作为细菌基因的细胞外宿主,可以介导微生物组动力学,并可以影响临床病原体的毒性。各种靶向宏基因组分析技术检测病毒序列,但这些方法往往排除大型和基因组整合病毒。在本研究中,我们评估和比较了9种最先进的生物信息学工具的能力,包括Vibrant、VirSorter、VirSorter2、VirFinder、DeepVirFinder、MetaPhinder、Kraken 2、Phybrid、以及BLAST搜索,使用来自地球病毒管道(Earth Virome Pipeline)的已识别蛋白,在具有不同读取分布、分类组成和复杂性的模拟宏基因组中识别病毒连续序列(contigs)。

结果

在这项研究中测试的工具中,Virsorter获得了最好的F1分数,而活跃的速度是预测综合预测的最高平均F1分数。虽然在其精确和召回的精确度和召回方面不太平衡,但克兰克伦2通过大幅保证金具有最高的平均精度。我们介绍了机器学习工具,植物学习工具,展示了平均F1分数的改进,例如离立方法。该工具利用机器学习,具有基因含量和核苷酸特征。与单独的基因含量特征相比,核苷酸特征的添加改善了精度和召回。所有工具的鉴定都不会受到潜在的读分布的影响,而是用CONTIG长度改善。工具性能与分类复杂性与分类复杂性相反,并且由噬菌体宿主变化。例如,根瘤菌肠球菌工具一致地识别噬菌体;然而,奈梅里亚本研究常遗漏原噬菌体序列。

结论

本研究基准测试九种最先进的生物信息工具的性能,以识别不同仿真条件的病毒葡萄节。本研究探讨了工具识别传统上排除在目标测序方法之外的集成的预知元件的能力。我们对病毒识别工具进行综合分析,以评估各种情况下的性能为观察群岛病毒元素从公开可用的梅毒数据提供了有价值的见解。

同行评审报告

背景

病毒是地球上最丰富的生物实体[1].然而,与真核病毒和细菌的大量遗传信息相比,环境病毒序列(包括噬菌体)的集体知识仍然不足。噬菌体是感染细菌的病毒,通常被称为噬菌体。噬菌体是专性寄生虫,在其细菌宿主的基因组组成和进化中发挥重要作用。噬菌体通过充当细菌中毒性基因的遗传库直接促进了人类的细菌感染,如大肠杆菌沙门氏菌血清假单胞菌铜绿假单胞菌霍乱弧菌白喉杆菌,链球菌Pyogenes[23.].

此外,一些噬菌体利用Ig样结构域加入人体中的粘膜层,以等待细菌猎物。这种噬菌体粘附到粘液(BAM)模型表明噬菌体可以作为非宿主衍生的先天免疫系统来调节细菌微生物[4.].对人体病毒的纵向研究显示了模仿健康细菌微生物瘤的稳定性的组成保护[5.6.].在疾病状态下观察到病毒中的消化不良,例如炎症性肠病(IBD),Crohn疾病和哮喘[7.8.9.].

传统上,病毒的研究依赖于从培养的宿主中培养病毒颗粒的能力;然而,许多细菌不能在实验室环境中培养[10].可培养宿主的数量有限,加上病毒分离的额外复杂性,限制了病毒的研究。下一代测序技术的进步为用培养独立的方法研究病毒创造了机会。然而,由于病毒不像细菌的小亚单位RNA那样具有共同的通用标记基因,因此宏基因组学等测序技术是必要的[11].宏基因组学是一种非靶向测序方法,用于阐明一个样本中遗传物质的全部,无论是DNA还是RNA。然而,部分由于基因组较小,从阅读丰度的角度来看,病毒传统上在宏基因组研究中代表性不足。通常情况下,病毒读片包含不到5%的宏基因组序列[12].富集雌噬菌素研究中的病毒读数的方法是过滤或直接选择病毒等颗粒(VLP)。然而,在测序之前,这些技术倾向于去除整合到称为血管的细菌基因组中的大病毒和病毒。因此,能够直接从雌噬菌素测序研究识别病毒元素对理解病毒体的组成也很重要。致力于鉴定Metagenomics中病毒序列的计算工具的出现提高了我们识别已知,新颖和综合病毒的能力。

Metaphinder是一种方法,其使用Blastn和平均核苷酸同一性阈值对雌噬菌体中的病毒葡萄球菌进行分类[13].使用序列相似性的方法在更小的contig长度时性能更差。域识别被更多的工具用来对抗传统序列同源方法中重叠序列长度的限制,但这些工具通常依赖于特定的病毒结构域,如pVOGs(原核病毒同源组)[14].与原噬菌体识别方法使用病毒结构域富集或存在/缺失来计算分数不同,一种名为Vibrant的新方法使用神经网络框架中的结构域丰度来对含有4个以上蛋白质的contig进行分类[15].virsorter2在基于树的机器学习框架中使用域百分比,基因含量特征和关键同源基因进行类似的方法,以对病毒读数进行分类[16].

病毒蛋白质结构域的同源性仅限于已知病毒,这被认为只代表庞大的病毒暗物质的一小块[17].另一种同源性方法是通过对现有病毒蛋白家族的半监督扩展来扩展已知的病毒隐藏马尔科夫模型(HMMs)。Paez-Espino等人(Earth Virome Pipeline)从NCBI服务器和已知病毒宏基因组contigs中收集了病毒编码区域;然后将这些多肽聚集成蛋白质家族,创造新的病毒HMMs [18].该初始集合用作诱饵,以识别成千上万的均衡数据集中的潜在病毒葡萄节。将来自这些捕获的病毒葡萄病毒的预测蛋白加入到原始的肽组中,并重新聚集以产生成千上万的新病毒蛋白质和HMM。即使在扩大病毒家庭的扩张,virsorter和使用地球病毒蛋白集的BLASTP搜索也至少部分依赖于域同源性。使用机器学习开发了一种可参考的病毒识别工具来解决同源性搜索的局限性。Virfinder是一种使用核苷酸序列8-MERS作为特征的逻辑回归分类[19].VirFinder的作者利用DeepVirFinder扩展了使用k-mers作为特征来识别病毒连续序列的概念,DeepVirFinder是一个卷积神经网络,以原始序列作为输入,并学习对病毒连续序列预测有用的特征[20.].Virfinder完全依赖于基于序列的特征,类似于另一种K-MER方法,克拉克2。克朗恩2使用歧视35-MERS唯一地识别物种甚至亚种级别的序列[21].为了在病毒识别环境中使用Kraken2,我们创建了VirKraken工具,它解析Kraken2分类输出,在宏基因组读取中分配病毒contigs。VirKraken可在PyPI和以下网站上购买https://github.com/Strong-Lab/VirKraken.VirKraken引用Kraken2分配的分类识别号,以对一个编辑的NCBI分类数据库分配王国,并在请求时过滤序列[22].

另一种鉴定偏心组虫病毒元素的方法涉及否定已知的细菌Centigs。脉络米使用同源性搜索对细菌蛋白质数据库;如果细菌基因的命中数超过COLIG的未知命中的数量,因此留下病毒折叠[23].所有前面描述的工具都是从组装的序列中识别病毒元素。MARVEL是一种机器学习方法,它使用具有三个特征(基因密度、链转移和病毒蛋白数据库的同源性分数)的随机森林方法将被装箱的contigs分类为病毒簇[24].

VirFinder的作者呼吁创建一种混合工具,利用k-mer特征和基因内容特征来抵消两种方法的缺点[19].为了回答这个问题,我们开发了一个名为Phybrid的机器学习模型,该模型使用了基因内容特征,如基因密度和链移频率,以及基于序列的特征,使用加性增强模型对病毒contigs进行分类。假设添加基因内容特征是为了抵消基于序列的机器学习模型与较长contigs上的同源方法相比的性能下降[19].

存在许多方法以鉴定偏心神经中的病毒元素。但是,尚未执行许多工具之间的系统评估。本研究旨在向研究人员提供关于何时使用特定的病毒识别工具进一步研究病毒元素或将它们移除下游分析的研究人员提供信息和指导。公共领域中更多病毒元素的表征可能导致新型病毒的发现[25],并深入了解细胞外遗传库中的功能潜能[2].

方法

杂交,一种用于病毒分类的杂交基因含量和核苷酸特征集

为了构建Phybrid,从RefSeq(2020年1月8日访问)中编译了1849个完整噬菌体基因组和2327个完整的古细菌/细菌基因组。利用VirSorter鉴定了古菌和细菌基因组中的原噬菌体元件[22].选择4类预知,并将预测的核苷酸序列加入到完全的病毒基因组中。自定义脚本用于从主机基因组识别和删除预测的预知序列。预测的预测总量是339个细菌基因组(14.57%的基因组,含有至少1个血管的基因组),以每种基因比的平均血管为0.314。

在去除集成的预血管后,使用N步知识分析方法将完整的基因组分离成4个尺寸的K-MERS。N步骤方法去除CONDIG末端 - 重叠并确保最大K-MERS数是在长度k上的基本序列的长度。将完整的基因组分离成1kb,3kb,5kb和10kb序列的尺寸。由于细菌和古物基因组的尺寸相对于噬菌体基因组,来自非噬菌体取样的片段被取样以均匀地分布类。使用四个不同的片段长度来培训四个单独的模型。

使用C语言编写的k-mer计数程序对n步片段进行大小为8的滑动窗口kmerization [26].滑动窗口管理窗口划分的k-mer丰富具有显着重叠,并且最大k-mers的最大数量是基本序列的长度减去1。该程序将所有8-mer值(65,536可能的8-mers)存储在哈希表中。在现实世界的偏心组织中,序列片段的方向性可能是模糊的。因此,类似于Virfinder [19[我们开发了自定义脚本以总和补充,反向和反向补码序列,从而将其特征空间从65,536个可能的K-MERS减少到16,384个可能的K-MERS。核苷酸特征空间进一步减少到888 k-mers,使用GINI重要性或节点杂质的总减少,其高于0.001,这是达到在随机森林中所有树木上平均的特征的加权概率[27].

基因内容特征集创建

基因内容特征的使用内置于诸如Marvel和Virsorter之类的工具中[2428].MARVEL和VirSorter都利用基因密度作为病毒成分的标记。在本研究中,将4个与病毒基因组相关的基因内容特征作为Phybrid特征集的一部分;基因密度,操纵子长度,平均肽长度和重叠肽的百分比。由于某些病毒衣壳的物理限制,病毒基因组通常排列紧密,翻译的蛋白质比细菌基因组短[29].在本研究的背景下的操纵子长度是同一股线上连续基因组的长度。病毒倾向于长长的基因位于同一股线上[30.].此外,不同生命周期的病毒基因组往往有重叠的基因[30.].自定义脚本用于计算来自Propeal基因预测软件的输出的四种蛋白质特征[31].数字1显示了10 KB模型训练数据中观察到的蛋白质特征分布。

图1
图1

基因内容特征表现。4个基因内容特征在10 KB训练数据集中的性能。一种基因密度由每1kb的基因数表示。B.中位式操纵子长度是斯特兰斯开关频率的代表性衡量标准。操纵子被定义为同一股线上的一组紧密相关的基因。C重叠肽在所有预测基因中的百分比。具有溶源期的病毒是已知的不同生命周期重叠基因。D.作为病毒肽的氨基酸的中位长度通常比细菌肽短

模型和超参数选择

结合互补核苷酸特征和基因含量特征后,植物的总特征空间是892个特征。在培训期间,使用5倍交叉验证进行比较随机森林,多层感知和添加剂升压模型的性能[32].在每个碎片尺寸下,添加剂增压模型表现最好。我们选择XGBoost(版本0.81)并执行RandomSearchCV(版本0.20.1)分析来确定超参数[3233].预先训练的模型被添加到工具库中,用于分类宏基因组fasta序列。Phybrid生成输出文件为包含病毒元素头部序列的头文件和包含预测病毒元素核苷酸序列的fasta文件。

建筑模拟illumina metagenomes

为了构建模拟测试集,我们从NCBI RefSeq下载了所有完整的基因组(于12/15/2020访问)。选择自2020年5月1日以来保存的基因组来测试病毒群识别工具,因为许多工具都经过培训或依赖于此日期之前最新更新的数据库。使用来自Virus-Host DB的数据集收集噬菌体细菌宿主[34](于2020年12月17日访问)。噬菌体通过宿主生物分配细菌属值。利用来自地球微生物项目(EMP)和Qiita的信息,最近提交的基因组进一步通过土壤(37属)和临床样品(26属)中常见的53属,在两者中的临床样本(26属)中过滤[3536].这导致297个独特的细菌基因组被用于模拟,其中82个基因组在临床取样(160个基因组)和土壤取样(219个基因组)中发现。依赖最近提交的基因组来生产测试集,没有产生临床和土壤微生物群系中常见的传统细菌分布。例如,当属伯曲面通常存在于临床微生物样本中,本研究的数量并不像其他临床微生物组研究中看到的那样代表社区的很大一部分[37].本研究将细菌属的分布作为病毒分类的混杂因素。本研究的目的是观察在基因相似的细菌存在时噬菌体的识别性能。

噬菌体基因组也被其宿主细菌属过滤,并随机取样,以匹配模拟中的细菌基因组数量。而噬菌体的数量被认为是环境中细菌的十倍[38],由于完整数据集的可用噬菌体基因组数量的限制,我们匹配噬菌体和细菌的复杂性。为了测试分类法复杂性对病毒鉴定工具性能的影响,我们将噬菌体和细菌基因分解为中等(50个细菌基因组和50噬菌体基因组)和低(10种细菌基因组和10噬菌体基因组)复杂性亚群。额外的文件2:表S1(临床)和附加文件2:表S2(土壤)详细介绍了The Takononomic复杂性水平测试中的前6个属和噬菌体主机属的分类丰富。虽然两个较低的复杂性从基因组的完全分布中抽出,但在中等和低分类水平之间的所选基因组中没有重叠。这是通过在子采样过程中设置随机种子并使用SET操作来确认不重叠基因组的过程来实现。

使用Insilicoseq(1.2.0版)产生模拟的梅毒群。insilicoseq和另一个受欢迎的Metagenomic模拟器,CamiSim默认使用Lognormal读取分布,但是,提供了四个额外的读分布作为Insilicoseq软件套件的一部分:均匀,指数,零充气的Lognormal和Halfnormal [3940].由于自然发生的社区的巨大多样性,阅读分布概况可能会波动。为了理解读分布和分类复杂性对病毒识别性能的影响,我们创建了30个MiSeq模拟,包含1200万个2x300读。30个模拟由两种环境条件(临床和土壤微生物)组成,在三个分类学水平(全、中、低)上有五种阅读分布。每次模拟中细菌reads占总组成的93.75%,噬菌体占6.25%。先前的研究表明,噬菌体通常占宏基因组测序reads的不到5% [12因为基因组比原核生物基因组小几个数量级。我们之所以决定在宏基因组学中超过5%的病毒阅读量,是因为需要从分类多样化的测试集中确定一组扩大的噬菌体。长度小于1KB的contig经过组装和过滤后,噬菌体占总contig丰度的平均1.54%。

经过模拟后,这些reads被完美地与序列起源进行了分类,从而限制了嵌合contigs的产生。嵌合contigs是组装错误,当不同生物体的读本被组装在一起时,导致较短的片段组装或下游分类错误。在组装前装箱的决定是为了允许有属标记的contigs,以便分别探索细菌和噬菌体的假阳性和召回率。使用metaSpades (version 3.11.1)组装完美bins,只保留长度为1KB或更大的contigs [41.].模拟中细菌属的相对丰度如图所示。2

图2
图2.

模拟中属的相对丰度。这些数字突出显示了大于1 KB的contigs的相对丰度。细菌contigs占98.46%,噬菌体与原噬菌体结合占1.54%。一种15土壤模拟中的CONTIG分布。B.15个临床模拟的contig分布

综合预言识别

在读取模拟之前,使用VirSorter在完整的细菌基因组中识别了整合的原噬菌体元件[28].如果将整合的原噬菌体划分为第4类,即VirSorter中原噬菌体置信度最高的类别,则选择其进行下游加工[28].用鉴定的原噬菌体元件创建一个核苷酸BLAST数据库。在读取模拟和组装后,使用BLASTn对原噬菌体数据库进行搜索,确定细菌contigs为原噬菌体,比特分数大于1000,百分率大于95%。额外的文件2:图S1显示了通过读分布和采样站点分隔的所识别的预知元件的Genera分布。

用于模拟研究的工具

表1在病毒识别基准测试中使用的工具

研究中使用的工具如表所示1在模拟中测试了它们从组装的contigs中识别病毒元素的性能。本研究中用于识别病毒contigs的工具有:Vibrant (Version 1.2.0)、VirSorter、VirSorter2、VirFinder、DeepVirFinder、MetaPhinder、Kraken 2、Phybrid,以及使用从地球病毒rome Pipeline中鉴定的蛋白质进行BLAST搜索[15161928].

任何VirSorter预测被分类为最低置信度类别都被工具开发人员通过证据删除[28].virfinder和Deepvirfinder分配概率值,并且将值小于0.01的任何Contig被归类为病毒性。使用来自地球病毒管道的病毒蛋白创建了钻石爆炸数据库[1842.].使用仿真成果中的蛋白质使用潮汐预测,并使用金刚石BLASTP从地球生物管道中搜索病毒同源性,其中匹配具有大于100的比特评分大于100,e-value小于1e-05 [31].点击次数超过一次的作品被归类为病毒式传播。MetaPhinder, Phybrid, Phybrid Proteins,和Vibrant使用默认参数运行[1315].选择双链DNA噬菌体和单链DNA病毒,其中virsorter2的组参数选择,如作者所述,[16].Kraken 2从2020年3月开始使用minikraken数据库使用默认参数运行[21].使用virkraken(0.0.5版)对此产生的克拉肯2报告解析了病毒读数。

工具性能评分

每个contig的模拟结构允许拥有真正的原点标签。这些标签用于识别工具的性能以识别模拟中的病毒元素。性能是通过精确,召回和F1分数来衡量的。在本研究中被认为是病毒性的,并进行了对先知识别的刀具性能的额外分析。在模拟性能排名系统中使用性能度量来确定跨不同方案的最佳性能工具。每个工具的性能在每个条件内排名,其中1表示最佳性能的工具。排名最高的值(最糟糕的执行工具)更改,因为某些工具无法正确计算分数。当工具未在模拟中预测任何病毒元素时发生这种情况。

除整体性能外,刀具性能还以四个离散的折叠长度评估:1 KB-2.5 KB,2.5 kB-5 KB,5 KB-10 KB,10 KB +。使用Genera鉴定识别病毒元素的工具来确定任何系统偏差或针对特定病毒组。使用Matplotlib(版本2.2.3)和海运(版本0.9.0)绘图软件的组合在Python中进行了评分度量的可视化[43.44.].kruskal-wallace非参数测试是为了确定评分值是否从相同的分布中出现。

结果

工具的整体性能

不同读模拟条件下的F1性能没有显著差异(H = 4.02,P.= 0.404,克鲁斯卡尔-沃利斯)。F1的表现因分类复杂性而显著不同,在较低复杂性模拟中,相对于中等和完全复杂性模拟,工具性能更好(H = 47.65,P.e = 4.50−11,克鲁斯卡尔-沃利斯)。较长的contig,特别是10 KB+ bin的F1性能、精度和召回率都高于其他contig长度bins (H = 275.7,P.e = 1.82−59岁的克鲁斯卡尔-沃利斯)。表格2包含工具的平均性能和30模拟的平均排名。通过分类复杂性离散化的模拟中工具的F1性能如图4所示。3.

表2噬菌体识别工具的平均性能和模拟排名
图3
图3.

F1通过分类条件分类的工具。通过平均F1性能排列的分类组成闪烁盒闪烁,并使用X轴右侧的最佳执行工具

克朗2领导了平均精度和精度等级。在本研究中,BLASTP搜索来自地球生物管道的蛋白质在召回和召回等级中最为畅销。平均F1分数最高和最佳F1等级的工具是Virsorter。virsorter也是用于执行预知识别的工具。这可以为Virsorter提供优于先知识别的其他工具的优势。

前噬菌体的识别性能

由于在所有10个模拟中仅存在单个Prophage Contig,因此删除了低复杂性模拟的预兆性能。在表中显示了在20中等和高复杂性模拟中识别出版物的工具的F1性能3.

表3工具鉴定原噬菌体的平均性能和模拟排名

工具性能由线段长度决定

随着Contig的长度增加,工具的性能得到了改善。模拟的平均曲线长度受本研究中的分类学复杂性的影响,如额外文件所示2:图S2。数字4.展示了在定义的Contig长度箱内的每个工具的F1性能。如果工具的F1得分为0,则将记录移除,因为一些较低的复杂性模拟缺少较短的连续序列。

图4
图4.

在所有模拟中,F1的工具跨越contig长度bins得分。所有工具的F1平均性能随着表示连续长度的bin的增加而增加。所有30个模拟都包括在这个数字的一部分,然而在一些模拟中,预测的特定长度的病毒contigs是不存在的。这可能会导致一些工具比其他工具拥有更多的数据点

宿主属的病毒召回

在30个宿主属的培养基和完整分布中计算了病毒元素的召回分数。为了防止噬菌体宿主属在生态位上的缺失,只有大于0的噬菌体才保留召回。数字5.显示所有工具的宿主属的病毒contigs的召回。召回率最高的病毒宿主属为Xanthomonas.但是,噬菌体有Xanthomonas.作为一个宿主,在数据集中没有很好地表示。已知能感染的噬菌体肠球菌所有工具的平均召回率超过0.83。DeepVirFinder在识别已知感染噬菌体方面表现最好肠球菌平均召回率为0.97。奈梅里亚Prophage序列在所有工具(0.23)上具有最低的平均召回性能(0.23),只有7个工具正确预测至少一个奈梅里亚Prophage Contig。虽然多个contig只派生单一奈梅里亚原噬菌体被包括在本研究中,这可能会影响工具的性能。使用来自地球病毒管道的蛋白质的BLASTp搜索在识别这种难以识别的原噬菌体方面表现最好(0.68),其次是MetaPhinder工具,召回率为0.24。

图5
图5.

在中等和完全复杂的模拟中,宿主属的病毒召回。噬菌体的30个宿主属按平均召回率沿x轴排列。图中的虚线划分为0.5个召回率

假阳性属

除了按宿主属计算病毒成分的召回率外,在中等和完全复杂模拟中,计算每个工具与细菌假阳性相关的属的百分比。在模拟中,代表超过三分之一的工具误报的细菌属被保留。十一个属用链霉菌属呈现在10种工具中的9种。此外,枸橼酸杆菌属假单胞菌在5种以上的工具中均为主要的假阳性属。额外的文件2图S3显示了由工具得出的超过33%的误报类别。

讨论

本研究对9种病毒分类工具在猎枪宏基因组学中识别病毒和原噬菌体元素的能力进行了基准和评估。该研究包括30个Illumina MiSeq模拟,跨越两个社区,五个阅读丰度分布和三个分类水平。工具的性能跨读分布是一致的(H = 4.02,P.= 0.404, Kruskal-Wallis),然而,随着分类复杂性的降低,平均表现增加(H = 47.65,P.= 4.50e-11,kruskal-wallis)。降低分类分类复杂性与组件中的较长折叠长度相关联(附加文件2:图S2)和较长的contigs与改善的整体性能相关。

性能分数之间的差异表明,选择工具可能取决于所需的应用。Virsorter评分最高平均F1分数,并在所有模拟中获得最佳F1排名。当最小化误报的数量时,克朗肯2可能是理想的工具。使用地球病毒蛋白的BLASTP搜索具有最佳召回;然而,由于大的误率,该工具的应用并不意味着传统病毒识别。在这项研究中,由于运行时间问题,执行了使用地球病毒蛋白集的BLASTP同源性搜索的应用而不是广泛的域同源性搜索。来自迭代病毒蛋白质域搜索的地球病毒蛋白组衍生,并且可以包括许多可能无法真正来自病毒源的未知蛋白质[18].甚至与来自Refseq的已知病毒蛋白相对于已知的病毒蛋白相对于来自Refseq的膨胀蛋白质,广泛的同源性搜索空间仍未能捕获所有病毒衍生的Contigs,证明了在Metagenomes内的病毒鉴定难度。

本研究的局限性是模拟中没有真核序列。真核序列的存在可以进一步降低工具的精度以识别病毒。Ponsero和Hurwitz描述了基于K-MER模型的高误阳性率在水生术中的真核序列[45.].这种高假阳性率可能是工具训练数据中缺乏真核序列的结果[19].没有真核序列的机器学习工具在训练集中可能产生额外的误报。任何机器学习工具都有训练数据中的eUKAROYTIC或新型病毒序列的空隙可能会产生真正的偏见数据的病毒分类中的误差。

在雌噬菌体中的预知鉴定是一种难题,因为许多综合病毒元素在细菌宿主中降解以驱动进化[46.].因此,脉冲颗粒的残余物散射在细菌基因组上,并且病毒基因可以被错误地归因于原产地。由于破裂的碎裂,许多用于识别全基因组实验中的血管术的工具未能拓展到传统病毒富集测量的碎裂。在模拟之前使用Virsoreter选择最高置信基力预测的决定可能已经提供了virsorter,具有增加的性能提升。充满活力的F1分数最高的F1分数和最佳F1在识别所有20模拟中识别出版物。克朗2的平均精度最高,Virsorter具有最好的精度排名。地球病毒蛋白在召回时脱颖而出;但是,下一个最佳工具是Virfinder和DeepVirfinder。virfinder和deepvirfinder喜欢许多与Prophage Remall良好的其他工具具有高误率。

所有工具的性能都将随着去除已知细菌contigs的额外步骤而提高。一种方法是寻找细菌和古生菌特有的基因,16S rRNA。RFAM的16S rRNA谱可以应用于RNA结构域搜索工具Infernal,以去除已知细菌基因的contigs [47.48.].如果病毒整合位点位于16S rRNA附近,这种方法可能会影响原噬菌体contigs的恢复。

病毒识别工具在识别已知感染属的噬菌体方面表现良好肠球菌(0.83),分枝杆菌(0.77)沙门氏菌(0.81)。工具的性能识别感染属的噬菌体如奈梅里亚(0.23),枯草芽孢(0.30)Mesorhizobium(0.33)大幅下降。检测存在奈梅里亚噬菌体和原噬菌体可能对侵袭性脑膜炎球菌病的诊断很重要,因为原噬菌体样成分在整个脑膜炎球菌病中普遍存在奈梅里亚属(49.].工具在单个属上的结果旨在证明工具在不同属噬菌体上的性能的可变性。本研究中噬菌体属按寄主范围确定。噬菌体宿主的范围尚不清楚,存在对噬菌体影响更深入研究的细菌病原体的取样偏倚。本研究的结果似乎暗示了公共数据库中噬菌体属的抽样偏倚可能会影响许多整体工具的性能。分枝杆菌噬菌体和肠球菌噬菌体是公共数据库中最丰富的幂。在本研究中,噬菌体属性的结果不应过度解释,因为已知会影响细菌属的独特噬菌体的数量并不均匀地分布在附加文件中2:表S1和S2。

包括核苷酸特征在内的杂种性能都比单纯的基因含量特征有所提高。当contigs超过10KB时,Phybrid的精度显著提高,但是,更小的箱子有许多假阳性。在训练数据中添加到病毒类的整合噬菌体占总病毒基因组的28.3%。原噬菌体通常在细菌宿主中被降解以驱动进化[46.,因此,在与完整的原噬菌体核苷酸结构相似的细菌拼接体中降解的病毒元件可能会被错误分类。此外,使用k-mer轮廓进行较小的重叠分类会产生稀疏的数据集,这可能会导致过拟合。

所提供的工具的性能需要与运行每个工具的计算成本进行加权。这项研究是在一个共享的高性能计算集群上进行的,单个工具的性能和内存需求并没有在一个独立的节点上被捕获。然而,病毒识别机制可以用来推断工具的相对时间和记忆消耗。这项研究中最快的工具是Kraken2,它使用歧视性的k-mers与预计算的哈希表进行比较。对于在个人机器上使用Kraken2,构建完整哈希表所需的内存数量可能是一个缺点。这个名为Vibrant的工具使用了从多个HMM搜索中获得的蛋白质特征。由于大的域空间,该工具相对于共享计算集群上的其他工具运行的时间要长得多(对于完全复杂的模拟,运行时间为1周)。

本研究基准测试并比较了雌噬菌体中病毒鉴定工具的性能。与Genera和Probhage Revall一起使用的病毒识别性能措施突出了使用特定病毒识别工具的优缺点,并可作为帮助选择后续研究工具的指导。

结论

总之,我们在30个模拟的梅毒群中测试了九种病毒鉴定工具的性能。潜在的读分发对平均工具性能影响不大。增加Contig长度和分类学复杂性降低改善了工具的平均性能。充满活力在均衡组织中的识别中表现最佳。总的来说,平均最佳F1得分的工具是virsorter,而克朗肯2以精确定义所有其他工具。这些模拟的结果应为研究人员提供选择适当的病毒鉴定研究的适当工具的指南。

数据和材料的可用性

在强大的实验室Github上可以提供所有用于派生数字和其他预处理工作流的脚本https://github.com/Strong-Lab/Viral_Classification_in_Metagenomics.强大的实验室GitHub上提供植物https://github.com/Strong-Lab/Phybrid.virkraken,本研究中使用的克拉肯2延伸在强大的实验室Github上提供https://github.com/Strong-Lab/VirKraken和在PyPI上。模拟的fasta文件在https://tinyurl.com/fastavm.

缩写

重叠群:

连续的序列

BAM:

噬菌体粘附在粘液上

炎症性肠病:

炎症性肠病

车牌区域:

病毒粒子像

pVOG:

原核病毒局部群体

唔:

隐藏的马尔可夫模型

EMP:

地球微生物工程

KB:

Kilo-basepairs

参考文献

  1. 1.

    克曼H-W。电镜观察5500个噬菌体。难以微生物学报。2007;152(2):227 - 43。

    中科院谷歌学术搜索

  2. 2.

    莫迪,李,斯皮纳,科林斯。抗生素治疗扩大了噬菌体宏基因组的耐药库和生态网络。大自然。2013;499(7457):219 - 22所示。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  3. 3.

    BrüssowH,Canchaya C,Hardt W-D。细菌病原体的噬菌体和演化:从基因组重排到溶血性转化。Microbiol mol Biol Rev.2004; 68(3):560-602。

    PubMed.公共医学中心文章中科院谷歌学术搜索

  4. 4。

    Barr JJ, Auro R, Furlan M, Whiteson KL, Erb ML, Pogliano J, Stotland A, Wolkowicz R, Cutting AS, Doran KS,等。粘附在黏液上的噬菌体提供非宿主源性免疫。中国科学院院刊。2013;110(26):10771-6。

    中科院PubMed.文章公共医学中心谷歌学术搜索

  5. 5。

    Martínez I, Muller CE, Walter J.人类粪便微生物群的长期时间分析揭示了一个稳定的优势细菌物种核心。PLoS ONE。2013; 8(7): 69621。

    文章中科院谷歌学术搜索

  6. 6。

    Minot S,Bryson A,Chehoud C,Wu Gd,Lewis JD,Bushman FD。人肠病毒的快速演变。PROC NATL ACAD SCI。2013; 110(30):12450-5。

    中科院PubMed.文章公共医学中心谷歌学术搜索

  7. 7.

    Gogokhia L,Buhrke K,Bell R,Hoffman B,Brown DG,Hanke-Gogokhia C,Ajami NJ,Wong MC,Ghazaryan A,情人节JF等。噬菌体的扩张与加重的肠炎症和结肠炎有关。细胞宿主微生物。2019; 25(2):285-99。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  8. 8.

    Wagner J, Maksimovic J, Farries G, Sim WH, Bishop RF, Cameron DJ, Catto-Smith AG, Kirkwood CD.儿童克罗恩病患者肠道样本中的噬菌体:使用454焦糖测序的宏基因组分析。肠道疾病。2013;19(8):1598-608。

    PubMed.文章公共医学中心谷歌学术搜索

  9. 9.

    Megremis S, Constantinides B, Xepapadaki P, Bachert C, Neurath-Finotto S, Jartti T, Kowalski ML, Sotiropoulos AG, Tapinos A, Vuorinen T, et al.;噬菌体缺乏是儿童哮喘中呼吸病毒群失调的特征。bioRxiv。2020.

  10. 10.

    Vartoukian SR,Palmer RM,Wade WG。“不耐药性”培养策略。有限元微生物吧。2010; 309(1):1-7。

    中科院PubMed.公共医学中心谷歌学术搜索

  11. 11.

    Rohwer F,Edwards R.噬菌体蛋白质组学树:噬菌体的基于基因组的分类。J细菌。2002; 184(16):4529-35。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  12. 12.

    Edwards Ra,Rohwer F.病毒偏心组合。NAT Rev Microbiol。2005; 3(6):504-10。

    中科院PubMed.文章谷歌学术搜索

  13. 13.

    Jurtz VI, Villarroel J, Lund O, Voldby Larsen M, Nielsen M. metaphinder -在宏基因组数据集中识别噬菌体序列。PLoS ONE。2016; 11(9): 0163111。

    文章中科院谷歌学术搜索

  14. 14.

    原核病毒同源组(PVOGs):比较基因组学和蛋白质家族注释的资源。核酸学报2016;975:51。

    谷歌学术搜索

  15. 15.

    Kieft K,周Z,Anantharaman K.充满活力:微生物病毒的自动恢复,注释和策析,以及从基因组序列的病毒群体功能的评价。微生物组。2020; 8(1):1-23。

    文章谷歌学术搜索

  16. 16。

    Guo J, Bolduc B, Zayed AA, Varsani A, Dominguez-Huerta G, Delmont TO, Pratama AA, Gazitúa MC, Vik D, Sullivan MB, et al.;Virsorter2:一种多分类器、专家指导的方法,用于检测多种dna和rna病毒。微生物。2021;9(1):1-13。

    文章谷歌学术搜索

  17. 17。

    Martínez-García M, Santos F, Moreno-Paz M, Parro V, Antón J.揭示“微生物暗物质”中的病毒-宿主相互作用。Nat Commun。2014;5(1):1 - 8。

    文章中科院谷歌学术搜索

  18. 18.

    Paez-Espino D,Ele-Fadrosh EA,Pavlopoulos Ga,Thomas Ad,Huntemann M,Mikhailova N,Rubin E,Ivanova Nn,镀粉胺NC。揭开了地球的病毒。自然。2016; 536(7617):425-30。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  19. 19.

    Ren J,Ahlgren Na,Lu Yy,Fuhrman Ja,Sun F.Virfinder:一种新的K-MER基工具,用于识别组装的偏心组数据的病毒序列。微生物组。2017; 5(1):69。

    PubMed.公共医学中心文章谷歌学术搜索

  20. 20.

    任J,Song K,Deng C,Ahlgren Na,Fuhrman Ja,Li Y,Xie X,Poplin R,Sun F.使用深度学习识别来自偏见数据数据的病毒。量子Biol。2020; 8:1-14。

    文章谷歌学术搜索

  21. 21.

    木德,鲁吉,兰格·兰德。用克拉肯2.基因组生物分析改善了组织分析。2019; 20(1):1-13。

    文章中科院谷歌学术搜索

  22. 22.

    国家地理信息系统分类数据库。核酸Res. 2012;40(D1): 136-43。

    文章中科院谷歌学术搜索

  23. 23.

    Garretto A,Hatzopoulos T,Putonti C. virmine:复杂的偏心组样品的自动检测病毒序列。peerj。2019; 7:6695。

    文章中科院谷歌学术搜索

  24. 24.

    Amgarten D,Braga LP,Da Silva,Serva Jc。Marvel,一种用于预测肉毒组件箱中的噬菌体序列的工具。前群体。2018; 9:304。

    PubMed.公共医学中心文章中科院谷歌学术搜索

  25. 25.

    Dutilh BE, Cassman N, McNair K, Sanchez SE, Silva GG, Boling L, Barr JJ, Speth DR, Seguritan V, Aziz RK,等。在人类粪便宏基因组的未知序列中发现的高度丰富的噬菌体。Nat Commun。2014;5(1):1 - 11。

    文章中科院谷歌学术搜索

  26. 26.

    亚历克斯·雷诺兹:Kmer-counter。https://github.com/alexpreynolds/kmer-counter.

  27. 27。

    Breiman L, Friedman J, Stone CJ, Olshen RA。分类和回归树。博卡拉顿:CRC出版社;1984.

    谷歌学术搜索

  28. 28。

    Roux s,Enault F,Hurwitz Bl,Sullivan MB。virsorter:来自微生物基因组数据的挖掘病毒信号。peerj。2015; 3:985。

    文章中科院谷歌学术搜索

  29. 29。

    Hatfull GF,Jacobs-Sera D,Lawrence JG,Pope WH,Russell Da,Ko C-C,Weber RJ,Patel MC,Germane Kl,Edgar Rh,等。60分菌病毒基因组的比较基因组分析:基因组聚类,基因孵化和基因大小。J Mol Biol。2010; 397(1):119-43。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  30. 30.

    Hatfull GF, Cresawn SG, Hendrix RW。分枝杆菌噬菌体的比较基因组学:对噬菌体进化的洞察。Res Microbiol。2008;159(5):332 - 9。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  31. 31。

    Hyatt D, Chen G-L, LoCascio PF, Land ML, Larimer FW, Hauser LJ。浪子:原核基因识别和翻译起始位点鉴定。BMC Bioinform。2010;11(1):1 - 11。

    文章中科院谷歌学术搜索

  32. 32.

    Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, Blondel M, pretenhofer P, Weiss R, Dubourg V, et al.;Scikit-learn: python中的机器学习。J Mach Learn Res. 2011; 12:2825-30。

    谷歌学术搜索

  33. 33.

    Chen T, Guestrin C. Xgboost:一个可扩展的树增强系统。见:第22届ACM SIGKDD国际会议论文集,第785-794页;2016.

  34. 34.

    Mihara T, Nishimura Y, Shimizu Y, Nishiyama H, Yoshikawa G, Uehara H, Hingamp P, Goto S, Ogata H.连接病毒基因组与宿主分类。病毒。2016;8(3):66。

    PubMed.公共医学中心文章中科院谷歌学术搜索

  35. 35.

    Thompson LR,桑德斯JG,McDonald D,Amir A,Ladau J,Locey KJ,Prill RJ,Tripathi A,Gibbons Sm,Ackermann G等。公共目录揭示了地球的多尺度微生物多样性。自然。2017; 551(7681):457-63。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  36. 36.

    Gonzalez A,Navas-Molina Ja,Kosciolek T,McDonald D,Vázquez-Baeza Y,Ackermann G,Dereus J,Janssen S,Swafaword Ad,Orchanian SB等。齐塔:启用了快速的网络微生物组荟萃分析。NAT方法。2018; 15(10):796-8。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  37. 37.

    魏克勒·赫姆。诱导菌:好的,坏的和尼提砂砾。Clin Microbiol Rev. 2007; 20(4):593-621。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  38. 38.

    噬菌体耐药机制。微生物学报。2010;8(5):317-27。

    中科院PubMed.文章谷歌学术搜索

  39. 39。

    Gourlé H, Karlsson-Lindsjö O, Hayer J, Bongcam-Rudloff E.利用insilicoseq模拟illumina宏基因组数据。生物信息学,2019,35(3):521 - 2。

    PubMed.文章中科院谷歌学术搜索

  40. 40。

    Fritz A,Hofmann P,Majda S,Dahms E,DrögeJ,Fiedler J,Lesker Tr,Belmann P,Demaere MZ,Darling Ae,等。Camisim:模拟梅毒和微生物社区。微生物组。2019; 7(1):1-12。

    文章谷歌学术搜索

  41. 41。

    刘志强,刘志强,刘志强。metaSPAdes:一种新的多功能宏基因组汇编器。基因组研究》2017;27(5):824 - 34。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  42. 42。

    buchfink b,谢c,uson dh。使用金刚石的快速和敏感的蛋白质对齐。NAT方法。2015; 12(1):59-60。

    中科院文章谷歌学术搜索

  43. 43。

    猎人JD。Matplotlib:一个2D图形环境。计算机学报。2007;9(03):90-5。

    谷歌学术搜索

  44. 44.

    Waskom M.海运开发团队:Mwaskom/seaborn。https://doi.org/10.5281/zenodo.592845

  45. 45.

    Ponsero AJ,Hurwitz Bl。机器学习的承诺和陷阱检测水生成群中病毒的影响。前微生物。2019; 10:806。

    PubMed.公共医学中心文章谷歌学术搜索

  46. 46.

    Bobay L-M, Touchon M, Rocha EP。细菌对缺陷噬菌体的普遍驯化。中国科学院院刊。2014;111(33):12127-32

    中科院PubMed.文章公共医学中心谷歌学术搜索

  47. 47.

    Griffiths-Jones S, Bateman A, Marshall M, Khanna A, Eddy SR. Rfam: rna家族数据库。核酸学报2003;31(1):439-41。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  48. 48.

    nawrocki ep,eddy sr。地狱1.1:100倍的RNA同源性搜索。生物信息学。2013; 29(22):2933-5。

    中科院PubMed.公共医学中心文章谷歌学术搜索

  49. 49.

    Al Suwayyid BA, rankin - wilson L, Speers DJ, Wise MJ, Coombs GW, Kahler CM。脑膜炎球菌疾病相关的原噬菌体样成分存在于淋球菌和一些共生的淋球菌种中。基因组生物学进展。2020;12(2):3938-50。

    中科院PubMed.公共医学中心文章谷歌学术搜索

下载参考

致谢

作者要感谢Chris Miller, James Costello, Catherine Lozupone和Kirk Harris的有益评论。

资金

CG由NLM 5 T15 LM009451-12支持。MS和CG感谢Stephen和Betty Thorp的支持。

作者信息

从属关系

作者

贡献

所有作者阅读并批准了最终的手稿。CG和MS构思了这项研究。CG和JH进行了数据分析。CG和MS撰写了手稿。

相应的作者

对应到科迪格利克曼

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者宣布在这项工作中没有竞争利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1

.文章中引用的补充数据和表格。

额外的文件2

.文章中引用的补充数字和表格的说明。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Glickman,C.,Hendrix,J。&强,M。仿真研究和病毒连续序列识别工具的比较评价。欧宝娱乐合法吗22,329(2021)。https://doi.org/10.1186/s12859-021-04242-0

下载引用

关键字

  • 病毒
  • 噬菌体
  • Prophage.
  • Metagenomics.
  • 工具比较