跳到主要内容

典型:仿真仿栖息地的栖息地基准数据

摘要

背景

模拟的偏心读数广泛用于基准测试软件和工作流程,用于偏见解释。偏见基准的结果取决于对其底层生态系统的假设。因此,基准研究的结论仅限于他们模仿的生态系统。因此,理想情况下,模拟基于基因组,其现实地类似于特定的偏见群落。

结果

我们根据实际序列数据,开发了促进根据偏见群体的肉桂组族读数的逼真模拟。基准样本可以从NCBI Refseq中的所有基因组和分类域创建。Tamock自动确定从霰弹枪序列数据中的分类学概况,相应地选择参考基因组,并使用它们来模拟映射读数。我们通过评估所选微生物体的组装和分箱方法性能,提出了一个针对制动器的示例用例。

结论

Tamock促进了基于真实序列数据的栖息地特定基准宏基因组数据的自动化模拟,它是作为用户友好的命令行应用程序实现的,提供了大量的附加信息以及模拟基准数据。由此产生的基准使对计算方法、工作流和参数的评估成为可能,特别是针对宏基因组研究的宏基因组栖息地或生态系统。

可用性

源代码,文档和安装说明在Github上可以自由使用(https://github.com/gerners/tamock.)。

背景

为了指导研究人员在为其给定的研究选择最合适的软件和工作流程中,进行基准测试以比较和评估其性能。通常,基准研究使用具有已知组合的模拟数据或序列模拟社区。

然而,这些基准的结论仅限于其基础数据。基准倡议CAMI和Sczyrba等人[1],tamames等。[2]提出了不同的方法,这取决于样本性质。为了评估特定研究的方法性能和选择,因此基准数据属性应尽可能地与研究的实际数据类似。创建此类基准数据具有具有挑战性,因为偏见组群可以基本上变化,复杂性和组合物,包括具有未知起源的序列的级分。人工设计和产生的偏见进一步限制了基准的范围和力量。

近年来,随后检索基因组箱的后续检索测序的梅毒群数量增加。pasolli等。最近未发现超过150,000个微生物基因组[3.]。本研究中发现的77%的物种以前从未被描述过,这表明尽管进行了大量测序工作,但目前的数据库中仍严重缺乏参考基因组。微生物多样性在参考数据库中的代表性不足将导致未分类的宏基因组数据在未被研究的环境中占很高的比例,然而这些未分类和未知的序列部分将影响这些宏基因组的分析。

创建基准数据限于已知基因组将仅为针对目标未知栖息地的研究提供有限的应用,但没有地理,无法完全评估方法和工作流程。为了绕过这种限制,我们利用可用于已知的分数的参考基因组,同时将未知的序列分数纳入基准样本。通过这种方法,我们保持原始的样本复杂性,同时在基准数据集中提供用于方法评估的基准数据集。

我们开发了Tamock(松散地从目标模拟社区命名),以基于特定栖息地提供特定栖息地的特定基准,直接创建基准数据。我们利用NCBI Refseq的所有可用信息[4.[在保持未知序列级分的同时模拟所有分类序列分数,同时保持未知的序列级分,以保持每个基准测试样品的原始样本性质。据我们所知,任何其他基准创建工具都没有基于真正的Metagenomic样本直接提供此类栖息地基准。

与其他基准数据创建工具的比较

由于基因组测序的出现,已发布在硅片组织数据集中创建的多种工具。FASTQSIM等偏心序列模拟器的目的[5.磨床[6.], 熊 [7.]或Camisim [8.]主要是对新型生物信息化方法的评价。对于这种评估,对数据集的所有参数的完全控制是主要目标,通常导致基准数据集与环境代理样本相比,由相当较少的基因组组成。根据它们源自的环境,可以容易地组成多百至数千种。

与先前的已建立的工具相比,Tamock包括创建基准数据集的未知和未分类的序列分数。我们的目标是提供量身定制的基准(例如,生物信息研究开始),以评估特定栖息地或数据集的方法和工具,因此旨在通过包含未知的序列分数来镜像在各个基准数据中的原始样本复杂性。我们认为,在分析被解读的栖息地时,这种方法将是最有价值的,因为在各个基准工作中没有使用可比的基准数据。为了最大限度地减少研究人员的障碍,在研究开始时创建具有有限知识的基准数据,并在易于使用的情况下开发了Tamock,要求没有强制用户输入参数优化或参考基因组数据的准备。参考基因组数据被自动下载并制备第一次在提供的样品中分类基因组。

对于生成基准数据,所有提到的工具都可以使用丰富的简档作为输入以创建MetageNomic数据集。FASTQSIM和熊提供了直接从样品中确定基因组曲线的可能性。FASTQSIM依赖于BLAST [9.]来从原始样本和参考基因组中搜索序列,这对于多个、大型的宏基因组数据集来说,计算代价非常昂贵。BEAR应用RAPSearch [10.用于使用Refseq的蛋白质序列的丰富谱的基于同源性的推断,仅限于蛋白质编码序列的轮廓生成。为了改善这些限制,Tamock应用离心机,其可以将来自特征样本的所有序列分类到需要基本上更少计算资源以基于完整样本产生丰度分布的偏离序列。磨床和CAMISIM都不包括直接从METAGENOMIC样品创建丰度型材,但专注于延长的下游选项,例如用于研磨机或硅的转录组,蛋白质组织或16S rRNA套装的产生,时间序列或差异丰度样本基于各种Camimim相对丰富的分布。

驯悍的驯悍体的方法已经利用来评估用于分析城市偏心群体的组装和分发方法,为研究人员提供了研究人员,用于分析城市偏心组织[11.]。我们介绍了由Tamock创建的基准样本用于评估组件和分箱方法作为所选城市偏见组和来自综合人类微生物项目的样本的示例用例[12.)(附加文件2:表S1)。

实现

Tamock使用通过分类来自偏见的样本的序列获得的分类学,以确定用于创建基准数据的分类程序。

分类档案

Tamock通过施加离心机来确定所有序列的分类[13.],资源效率,K-MER.基于分类分析器。离心机的使用使Tamock能够在标准的台式机器上运行,因为它的内存要求低。默认情况下,使用由离心机作者提供的原核生物、人类和病毒序列(p + h + v)索引。可以从离心机创建或使用其他索引和自定义索引。

选择参考基因组

在物种或应变级别分类的序列计数用于创建基准样本的配置文件。所有序列读取到分类到分类物种水平或以下(即应变水平)被分配给来自NCBI Refseq的参考基因组,而归类为更高的分类水平(属和更高)的读数,因为它们不能被分配给单个参考基因组。

具有多个分类学作业的序列按比例计数(分类为分类为三种不同分类群的序列增加三分之一)。根据参考数据库,分配给应变的序列可能在NCBI Refseq中的相应参考基因组可能没有相应的参考基因组。要包含此类序列,它们将重新分配如下:

  1. (1)

    在没有NCBI Refseq中发现没有相应的参考基因组的亚种水平的所有序列被添加到它们各自的物种计数中。

  2. (2)

    所有的物种计数被分配到同一物种的菌株,其对应的参考基因组已经存在。

从物种到菌株水平的序列计数使用已分配的各个物种的所有菌株的序列计数的比率进行分布。最终,所有没有参照基因组或分类到物种水平的菌株序列都被指定到一个特定的参照基因组。该策略考虑了样本的分类轮廓,同时对参考数据库中所有基因组进行了优化,保持了原始的复杂性(图1)。1一种)。

图。1
图1

典型设计和工作流程。一种通过模拟细菌序列分数的典型创建基准数据。默认情况下,TAMock仅模拟细菌部分,但是制魔术也能够在可用参考基因​​组的范围内包括或模拟真核节,病毒或古痤疮。B.文革的工作流程在Silico基准数据中量身定制。分类读取由来自参考基因组的等效丰度的模拟读数替换,而无分类或无参考的读取以保持原始样本复杂性

基准数据创建

基准序列是根据丰富的分类程序模拟的。Tamock替换了分类和匹配的所有序列,并与具有模拟序列的原始样本的参考基因组(参见其他文件2:指标表S1)。默认情况下,仅模拟细菌结构域,但是可以模拟其他结构域,如Eukaryota,archaea或病毒,以及参考基因组在NCBI Refseq中存在。

排序模拟由艺术执行[14.]。得到的模拟序列集合与最终基准测试样本的所有未分类序列组合(图。1b)。因此,基准样本反映了原始样本,同时向分类序列分数提供精确的序列计数作为进一步分析的基础事实。通过这个过程,效果为例如。读取深度,错误率,物种和亚种多样性可以探索真正的梅塔群社区。附加其他报告文件具有所有丰富的信息,分类结果和所选参考基因组的信息与最终的基准数据一起提供。

默认情况下,Tamock可以直接从输入样本中学习和应用参数,如序列错误配置、读取长度和测序深度,因为目标是尽可能接近地重现原始样本。但是,如果用户希望创建具有不同特征的基准数据来进行实验,以改进研究的实验设计,则可以更改这些参数。

结果和讨论

为了突出应用Tamock进行研究设计和方法选择的好处,我们展示了由Tamock(v1.3.0)创建的基准样本的使用。对于基因组分析的梅毒,组装和分子法经常施加以提取偏霉菌箱,从而导致从代理蛋白样品重建的新型基因组数量不断增加。我们使用Tamock基准数据来评估组件和分衬实验的结果的质量,分析RNA和RRNA基因的污染和存在,如高(HQ),中(MQ)和低质量(LQ)梅塔群系的MIMAG标准-Assembled Genome垃圾箱[15.,同时遵循Pasolli等人的工作流程[3.]。

我们为来自Metasub Consortium的18个城市Metagenome样本创建了基准样本[16.17.18.]来自来自整合人类微生物组(IHMP)的8个人微生物组样品[12.]。采用MetaSPAdes v3.13.1组装Tamock的所有原始样本及其对应的模拟样本[19.使用默认参数。从原来的Tamock基准样品(“模拟”样品)到其对应的装配性能的相对变化如图所示。2

图2
figure2

装配性能的相对变化。示出了从原始样品到相应模拟样本的组装统计数据的相对变化。值1显示没有变化,而低于1表示基准样本中的较低值以及高于1的值表示相应的组装统计值与相应的原始样本相比的较高值。折叠更改显示为总,平均值和最大长度以及与N50值以及N50值的数量和读取到组件的读取百分比。使用包GGPLOT2 V3.3.0产生数字[25.,重塑2 v1.4.4 [26.],grifidxtra v2.3 [27.]在v3.6.3 [28.]

随后由Metabat V2.15填充组装序列[20.]。遵循MIMAG标准[15.],我们使用了Checkm V1.2 [21.]为了完整性和污染值,Barrnap [22.]来预测rRNA基因和tRNA-Scan-SE v1.3.1 [23.]对于TRNA基因(附加文件1: 方法)。

高质量的(HQ)基因组箱需要满足以下要求:>完整性90%,污染< 5%,存在5S、16S和23S rRNA基因,至少有18种不同的rRNA基因。中等质量的容器(MQ)只需要满足≥50%的完整性和< 10%的污染,而所有剩余的容器根据MIMAG标准被分类为低质量(LQ)。

没有高质量的基因组箱(HQ)可以组装和装箱从原始和相应的模拟样本。由于缺乏MIMAG标准要求的基因组箱中所有三个rRNA基因,导致基因组箱不能到达HQ。单个bin确实分别含有一个5S、16S和23S rRNA基因的拷贝,但由于不完全,该基因组bin仅满足MQ的要求。除存在rRNA基因外,满足所有HQ标准的基因组箱被标记为MQ*(图。3.)。

图3.
图3

来自原始和模拟样本的所有基因组箱的分算统计。污染和完整性值,箱数以及所有低质量(LQ),中等质量(MQ)和近高质量(MQ *)箱的TRNA和RRNA基因的数量(“模拟”)显示。缺乏RRNA基因在低于和近乎高质量的基因组箱中突出。使用包GGPLOT2 V3.3.0产生数字[25.,重塑2 v1.4.4 [26.],grifidxtra v2.3 [27.]在v3.6.3 [28.]

基因组箱的数量从原始样品的原始样品的总共337〜258减少。

由于参比序列数据库不完整,特别是参比数据库中没有的菌株,从原始样本向模拟样本的改变是不可避免的。根据样品的组成,主要可以观察到两种效应。

  1. (一世)

    如果样品含有多种不同的菌株,则只有一个参考基因组可获得,分类序列将仅从单个基因组替换。这对于来自Metasub Boston的样本最为突出。来自该组的所有样本代表了具有分类为高分之分的城市偏见组HOMO SAPIENS.(27至81%,附加档案2:表S1)。由于城市宏基因组包含了来自多个个体的人类序列,从单个参考基因组进行分类和重采样降低了装配复杂性,并由于菌株变异的减少以及最大contigs长度的增加而导致总长度和contigs数量的减少(图1)。2)。

  2. (2)

    然而,如果菌株存在于数据库中没有直接的、但有密切关联的参考基因组的样本中,则在后续取样时,只会将序列的一个子集归类到相应的参考基因组中。产生两个菌株(原始和参考)存在于模拟,其中只有一个菌株已经存在于原始样本。来自iHMP的粪便样本以及来自纽约市(NYC)的MetaSUB样本的细菌序列的比例一直很高(34 - 92%),平均89%的序列属于参考基因组(额外文件)2:表S1)。数据库中不存在多种菌株,但将被分类为密切相关的参考基因组,因此增加模拟样品中的应变多样性和组装复杂性,导致Contigs和N50值的平均长度降低以及数量的增加contigs(图。2)。

Tamock的最终目标是通过镜像样本组成、序列错误、深度和长度,创建尽可能与原始样本相似的基准数据,同时用参考基因组的采样序列代替分类的序列部分,为实验提供一个ground truth。尽管在未知宏基因组中从已知参考基因组中取样基因组存在如上所述的固有局限性,但大多数装配参数在不同的宏基因组生境中是稳定的,在图中原始样本和相应模拟样本的装配统计比较中,在值1附近的所有变量中都体现了这一点。2

随后可以利用用于所有取样参考基因组的可用地面真理的模拟样品的结果来评估个体研究的兴趣的方法和工作流程。模拟样品中所有重采采样基因组的丰度,基因组覆盖率和源极为基于兴趣的实际数据的现实条件下评估研究设计。

应用于上述演示案例,我们可以确定提取基因组箱所需的基因组覆盖率,而不会出现与参考基因组相比的任何错误装配。我们应用了MetaQUAST v5.0.2 [24.]来评估提取的基因组箱中任何潜在的错误组装。在Tamock的输出中有所有取样基因组和相应丰度的表。我们成功地提取了没有任何错误组装的基因组箱,例如从iHMP2粪便样本J00827中双歧杆菌adolentureis写明ATCC。

在示例J00827的模拟和原始数据中提取的基因组箱(附加文件3.:表S2)由于缺少rRNA基因,只有HQ标准不合格。在对应的模拟样本为J00827时,序列从B. Adolentesis在参考基因组的9×覆盖率下对ATCC进行取样,提取的基因组箱覆盖了89.73%的参考基因组,其中1.39%的所有读取映射到相应的基因组箱(附加文件4.:图。S1-S4)。

与没有未知序列分数的基准数据比较

从复杂环境中创建来自复杂环境的Metagenomic样本的基准数据可以导致需要的高位参考基因组。多百至数千个参考基因群体快速导致需要广泛的计算资源,无论是长的运行还是高内存使用。最近开发的CamiSim,已被用于为CAMI挑战创建基准数据[1[根据CapiSim的文档,需要几百GB的RAM用于更高数量的基因组。

与Cabiisim相比,通过将所有序列分类为离心机,直接从未知样品直接从未知样品中绘制的相对丰度。The usage of Centrifuge and subsequent processing also enables Tamock to process multiple thousands of reference genomes on a standard desktop due to the low memory usage of Centrifuge for indexes i.e. of RefSeq, with runtimes of a few hours for a sample with about 20 Mio sequences and about 4.000 reference genomes excluding the download time of reference genomes (only required once).

为了使与CamiSim等当前工具(例如CamiSim)创建的基准数据进行比较而不包含未知序列分数,我们仅从可用参考基因​​组的分类序列分数创建基准数据。创建了三个版本的基准数据。一组基准数据仅由由文革模拟的序列组成,并且用于替换原始示例中的所有相应序列(“Simonly”基准,附加文件2:表S1)。Tamock替换为“Simonly”的原始序列子集用于创建基准数据集“orig-Repl”,以便与“Simonly”直接比较。For the third set of benchmark data, the number of sequences which are simulated by Tamock are scaled to the sequence depth of the original sample, i.e. for a sample with 1500 reads of which 1000 reads are classified and assigned to a genome while the remaining 500 reads are unclassified, the second data set multiplied all counts by 1.5 × to create a sample with 1500 reads using relative abundances from the taxonomic profile of classified sequences (“simscaled” benchmark, Additional file2:表S1)。通过选项“-rn-sim”,在维持相对丰富的同时将分类序列的数量缩放到集合序列深度的功能。与原始样本相比,这改变了模拟样本的序列深度和组成,但使用户能够为具有不同特征的进一步实验创建基准数据(参见附加文件1: 方法)。

Camisim表示最新的基准创建工具,允许分类型材用于基准数据创建并利用艺术以及模拟Illumina序列。因此,仅由具有已知丰富的分类序列分数和参考基因组组成的Tamock的基准数据是相当于由CabiSim或其他工具创建的基准数据集,从分类学配置文件中创建基准数据,其中包含由Tamock提供的集合丰富。我们的知识没有工具直接从Metagenomic样品中推断丰度谱,模拟并取代已知的序列分数,同时通过学习参数维持原始样品的特性,例如序列误差,长度和深度从原始样本进行仿真并保持未知的序列分数。

我们组装并以与上述原始和模拟样本相同的方式组装并填充“SIMONLY”和“SIMOSCALED”基准,以便由TAMOCK为原件和模拟样本相同。由于未知的序列分数不是基准的一部分,因此我们观察到所有样本的总装配长度和折叠数量的损失,所有样品都是预期的大部分未分类数据。这对于来自Metasub Sacramento和IHMP粪便仅为35.4和43.4%的序列的样本最突出(均为平均归类的所有序列(附加文件)4.:图。S5)可以仅使用较好的序列分数来用较低的序列深度解释。但是,即使在“SIMSCALED”样本中具有相同的序列深度但降低样本复杂性,我们也观察到Metasub Boston和NYC的总序列长度下降,而萨克拉门托表现出强大的增加(附加文件4.:图。S6)。仅比较两个基准数据集“orig-reft”和“simonly”,文革的序列分数有效地交换,以创建模拟的文革基准测试样本,装配统计量如最大长度,总长度和折叠数量增加到“orig-回复“西蒙”。由于序列的分类是不完整的,因此未知序列级分的损失将导致组装序列的级分的损失,而从参考基因组采样,为所有计数的“orig-reft”中的所有计数所做的完全相同的序列深度。创建“Simonly”将提高装配性能。如上所述,这将导致样品复杂性略微降低,特别是用于组装。对于具有大量的真核序列(例如来自IHMP鼻腔)的样品尤其如此,其中例如对于分类为人类的序列,仅采样一个参考基因组(附加文件4.:图。S7)。

具有相当高的分类数据的样本,例如来自Metasub NYC的分类数据,其平均分类为78.2%,显示出纯模拟基准数据的总组装长度下降,而通过Tamock的模拟样品仅显示总长度略微增加原始样品的组装(图。2)。总组装长度的损失表明,未知序列级分的大部分部分具有部分分类的序列,导致组装期间观察到的序列覆盖损失,特别是对于Metasub NYC样品。

由于缺少了原始样本的大部分,因此在纯模拟基准中产生的基因组箱的数量有相当大的损失。从参考基因组中采样完整的“西蒙”数据集,因为这种样本分集降低,减少了整体组装和融合困难,通过近乎高质量的基因组 - 草稿(MQ *)的严重损失而显示,但总数产生的基因组箱从原始样品的337强烈掉落至101的“西蒙”(图。4.)。这非常接近来自带有96个箱的“orig-real”的结果基因组箱的数量,支持这两个序列分数的可交换性,如Tamock所执行的,以创建基准数据。MQ *和LQ质量基因组箱的略微增加是预期的,因为由于在选择参考基因组而降低组装复杂性的同时,尤其属于分类序列的未分类序列的可能性丧失,同时降低组装复杂性。大装配复杂性可以减少。如果在参考数据库中仅存在一个参考基因组,则将密切相关的菌株的合并。

图4.
装具

原始和所有模拟数据集的统计数据,没有未知序列分数。污染和完整性值,箱数以及来自原始样品的所有低质量(LQ),中等质量(MQ)和近高质量(MQ)箱的TRNA和RRNA基因,原始样品只有分类序列分数显示“orig-repl”,“Simonly”以及仅具有模拟序列的“SimScaled”基准。尽管样品多样性较少,但在纯粹模拟的基准数据集中,缺乏RRNA基因更加突出。使用包GGPLOT2 V3.3.0产生数字[25.,重塑2 v1.4.4 [26.],grifidxtra v2.3 [27.]在v3.6.3 [28.]

对于“SIMSCALED”样品,可以观察到MQ *质量的基因组槽的略微增加,这是通过缩放所有计数来增加的覆盖范围。尽管如此,原始样品的多样性仍然丢失,甚至具有较差的复杂性,从337到211的总根箱的总数下降。

最终,Tamock创建的基准样本在组装和装箱性能方面表现出了与原始样本最接近的性能,这说明了在未分类数据中包含未知序列分数的重要性。只考虑Tamock在原始样本中修改的序列分数,由Tamock创建一个模拟样本,我们可以显示只有这些序列分数得到一致的基因组箱数,支持Tamock的方法来替换所有分类的序列。仅基于宏基因组样本已知序列分数的基准数据提供了与原始样本相应结果进一步偏离的结果,作为Tamock基准数据。

结论

由Tamock创建的基准数据可用于快速评估新的Metagenomic数据集的工作流程,比较和评估方法,以及改善对代理研究的任何结果的解释,因为可以容易地测试结果的质量的假设和评估。特别是对于分析新颖或极端栖息地的研究,我们认为典先文本为知情的研究设计和制定假设的高价值,以实际期望在实验前的结果质量。

据我们所知,Tamock是唯一的基准数据创建工具,它使研究人员可以直接从原始序列文件中模拟样本,而不需要任何进一步的输入或动作,以所需的参数设置,参考数据准备或其他耗时的准备步骤的形式。Tamock为宏基因组样本创建特定于栖息地的基准数据。由此产生的基准数据集可用于评估特定研究的任何宏基因组工作流或方法,为研究人员提供对其个别研究问题和数据的绩效评估。

可用性和要求

  • 项目名称:Tamock。

  • 项目主页:欧宝直播官网apphttps://github.com/gerners/tamock.

  • 操作系统:Linux和MacOS。

  • 编程语言:Perl。

  • 其他要求:perl> = v5.12.0;GNU科学图书馆(GSL)。

  • 许可证:GNU GPL 3.0。

  • 非学术界使用的任何限制:无。

可用性数据和材料

源代码可在GitHub (https://github.com/gerners/tamock.),提供的示例数据的来源在附加文件中2:表S1。

参考文献

  1. 1。

    Sczyrba A等。宏基因组解释的批判性评估——宏基因组学软件的一个基准。Nat方法。2017;14:1063 - 71。

    谷歌学术搜索

  2. 2。

    Tamames J等人。评估不同方法的功能和分类学术的分类学途径的性能。BMC基因组学。2019; 20:960。

    谷歌学术搜索

  3. 3.

    Pasolli e等。广泛的未开发人的微生物微生物多样性,从跨越年龄,地理和生活方式的梅塔群体的150,000个基因组揭示。细胞。2019; 176:649-662.E20。

    谷歌学术搜索

  4. 4.

    o'leary na等。NCBI的参考序列(REFSEQ)数据库:当前状态,分类管理扩展和功能注释。核酸RES。2016; 44:D733-45。

    谷歌学术搜索

  5. 5。

    Shcherbina A. FASTQSim: NGS数据集的独立平台数据描述和在硅读取生成。BMC Res Notes. 2014;7:533。

    谷歌学术搜索

  6. 6。

    Angly Fe,等研磨机:一个多功能的扩增子和霰弹枪序列模拟器。核酸RES。2012; 40:E94-E94。

    谷歌学术搜索

  7. 7。

    约翰逊S等人。一种更好的序列阅读模拟器用于Metagenomics的模拟器程序。BMC生物素。2014; 15:S14。

    谷歌学术搜索

  8. 8.

    Fritz A等。CAMISIM:模拟宏基因组和微生物群落。微生物。2019;17。

    谷歌学术搜索

  9. 9.

    Altschul SF等。基本的局部对齐搜索工具。中国生物医学工程杂志。1990;

    谷歌学术搜索

  10. 10.

    你,等。Rechsearch:短读取的快速蛋白质相似性搜索工具。BMC生物素。2011; 12:159。

    谷歌学术搜索

  11. 11.

    Gerner Sm等人。借助于硅金标准的帮助评估城市微生物组合。Biol Direct。2018; 13:22。

    谷歌学术搜索

  12. 12.

    Proctor LM等人。综合性人类微生物项目。自然。2019年; 569:641-8。

    谷歌学术搜索

  13. 13。

    Kim D等。离心机:快速、灵敏的宏基因组序列分类。基因组研究》2016;26:1721-9。

    谷歌学术搜索

  14. 14。

    黄某,等。ART:下一代测序读取模拟器。生物信息学。2012; 28:593-4。

    谷歌学术搜索

  15. 15.

    Bowers RM,等。细菌和古细菌单个扩增基因组(MISAG)和宏基因组组装基因组(MIMAG)的最低信息。生物科技Nat》。2017;35:725-31。

    谷歌学术搜索

  16. 16。

    afshinnekoo e等。人体和细菌多样性与城市规模偏心组织的地理空间分辨率。细胞系统。2015; 1:72-87。

    谷歌学术搜索

  17. 17。

    Hsu T等。城市交通系统微生物群落因地表类型以及与人类和环境的相互作用而不同。mSystems。2016; 1:1-18。

    谷歌学术搜索

  18. 18.

    MetaSUB国际联盟。地铁和城市生物群落的宏基因组学和元设计。微生物。2016;24:1-14。

    谷歌学术搜索

  19. 19.

    Nurk S等人。离婚士:一个新的多功能偏心组件汇编。Genome Res。2017; 27:824-34。

    谷歌学术搜索

  20. 20。

    康DD等人。Metabat,一种有效的工具,用于精确地重建来自复杂的微生物群落的单一基因组。peerj。2015; 3:E1165。

    谷歌学术搜索

  21. 21。

    公园Dh等人。CHECKM:评估从分离物,单细胞和梅霉菌中回收的微生物基因组的质量。Genome Res。2015; 25:1043-55。

    谷歌学术搜索

  22. 22.

    SeeNann T.Barrnap 0.9-Dev:快速核糖体RNA预测。2017年。

  23. 23。

    Lowe TM,EDDY SR。Trnascan-SE:一种改进基因组序列转移RNA基因检测的程序。核酸RES。1996年; 25:955-64。

    谷歌学术搜索

  24. 24。

    Mikheenko A等。MetaQUAST:元基因组集合的评估。生物信息学。2016;32:1088 - 90。

    谷歌学术搜索

  25. 25。

    威克姆H.GPLOT2的数据分析优雅图形(使用R!)。斯普林克;2016年。

    谷歌学术搜索

  26. 26。

    威克姆H.用重塑包重塑数据。j stat softw。2007; 21:1-20。

    谷歌学术搜索

  27. 27。

    Auguie B. gridExtra:网格图形中的函数。R包版本2.3。凹口项目。2017年。

  28. 28。

    r核心团队。R:统计计算的语言和环境。一个郎。环境。统计。计算。找到了。统计。计算.;2020。

下载参考

致谢

没有任何。

资金

这项工作得到了维也纳市(奥地利)MA23 (Call 19-19 project UrbanMetagenApp)的支持。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有扮演任何角色。

作者信息

隶属关系

作者

贡献

SG、AG和TR构思了本研究的主要思路。SG开发应用程序并起草原稿。AG和TR对稿件进行编辑和改进。所有作者均已阅读并批准最终稿件。

通讯作者

对应于托马斯·拉特

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1:补充图1

。图中显示了iHMP2粪便样本J00827(基准数据集)中排序前5位的双歧杆菌菌株的基因组片断。参考基因组GCF_000010425.1对应于双歧杆菌青少年ATCC 15703,覆盖率为89.73%,在模拟序列片段中采样9x,占总reads的1.39%。该图是用Metaquast V5.0.2生产的(Mikheenko等。2016)。

附加文件2:补充图2

。序列的百分比读取到分类在IHMP2粪便样本J00827(基准数据集)中分类的前五个双歧杆菌菌株的相应参考基因组。1.36%的序列映射到参考基因组GCF_000010425.1(双歧杆菌ADCRECTIOS ATCC 15703),而1.39%的序列映射回基因组BIN 36.该图是用Metaquast v5.0.2产生的(Mikheenko等人。2016)。

附加文件3:补充图3

。与ihmp2粪便样本J00827(基准数据集)中排名前五的双歧杆菌菌株相比,基因组bin 36的错误组装数如下所示。所有5个参考基因组均未鉴定出错误装配。该图是用Metaquast V5.0.2生产的(Mikheenko等。2016)。

附加文件4:补充图4

。显示与在HIHMP2粪便样品J00827(基准数据集)中分类的前五个双歧杆菌菌株相比,基因组Bin 36的对齐环节的总长度。所有CONTIG的总结长度高达1875 kbps,构成了GCF_000010425.1的89.73%基因组覆盖率(双歧杆菌ATCC 15703)。该图是用Metaquast V5.0.2生产的(Mikheenko等。2016)。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Gerner,S.M.,Graf,A.B.&Rattei,T. Tamock:仿栖息地的栖息地基准数据仿真。欧宝娱乐合法吗22日,227(2021)。https://doi.org/10.1186/s12859-021-04154-z

下载引用

关键词

  • Metagenomics.
  • 模拟
  • 基准
  • 学习规划
\