跳过主要内容

分类学:NCBI分类学的扩展,产生一个层次完整的分类学树

抽象的

背景

NCBI分类学是多种生物信息学工具和数据库的主要分类来源,因为所有在INSDC上保存的序列的生物都是按其层次结构组织的。尽管广泛使用和应用这一数据来源,但以表格形式表示数据的另一种方式将有助于利用信息处理生物信息学数据。为此,由于一些分类等级在某些谱系中缺失,算法可能会为所有分类等级提出临时名称。

结果

为了解决这个问题,我们开发了一种算法,它从NCBI分类中获取树结构,并生成分层完整的分类表,维护其与原始树的兼容性。由算法执行的过程包括尝试在可能的情况下尝试将分类级或“无级别”节点分配给现有的CLADE或“无级别”节点,其名称是创建的分类学 - 秩名称的一部分(例如Ord_或在需要时插入父节点(例如。Cla_of_这两个例子都适用于恐龙Brachylophosaurus血统。新的层次结构被命名为TaxAllnomy,因为它包含所有分类法排名的名称,它包含41个分层级别,对应于NCBI分类数据库中当前发现的41分类法。来自TaxAllnomy,用户可以在NCBI分类数据库中提供41个植物的完整分类学谱系,没有任何危害原始树信息。在这项工作中,我们通过将指定的等级的分类信息嵌入到系统发育树和产生偏心神经谱来证明其适用性。

结论

Taxallnomy适用于任何依赖于NCBI分类学信息的生物信息学分析。Taxallnomy定期更新,但使用分布式PERL脚本,用户可以使用NCBI Taxonomy作为输入在本地生成Taxallnomy。所有Taxallnomy资源可在http://bioinfo.icb.ufmg.br/taxallnomy.

背景

任何生物数据都与分类学数据紧密相连,一些生物信息学分析依赖分类学信息来实现它们的目标。宏基因组学、临床法医学和其他领域依靠完整注释的分类学数据来识别和归类样本中的生物,通常将结果总结为一个分类学级别,如科、目、纲或门。此外,从进化分析中所作的任何讨论都是指到目前为止所提出的分类学分类。分类信息可从多个分类数据库获得,如《生命目录》[1],为其他项目,如“生命之树”[2]、《生命百科全书》[3.]及GBIF [4].这些数据库提供的信息由分类学专家提供支持,这些专家为涵盖更具体分支的其他数据库提供支持,如FishBase [5], AmphibiaWeb [6], AnimalBase [7),和其他人。然而,任何涉及分子序列的分析都依赖于NCBI分类学[8]是一个参考分类数据库,其中收录了大量生物体的分类名称和谱系,而这些生物体的DNA或蛋白质序列已在国际核苷酸序列数据库合作(INSDC)的其中一个数据库中登记[9].由于INSDC包括三个主要的分子序列库,GenBank, ENA和DBJJ, NCBI Taxonomy提供的信息被广泛应用于生物数据库,涵盖了依赖于INSDC数据的不同学科,如UniProtKB [10.],运用[11.],Pfam[12.,聪明的13.],黑豹[14.], OMA [15.]米尔贝斯[16.]. 此外,其他主要的初级生物数据库,如PDB[17.], ArrayExpress [18.]和KEGG [19.从NCBI分类数据库链接到分类数据库的分类数据,展示该数据库对几个生物信息系统的无可否认的贡献。

包含NCBI分类物的分类学分类遵循系统发育分类学方案,拓扑结构反映了分类学和分子系统文献的视图共识[8然后信息被组织在一个树中。树的每个节点代表一个分类单元,每个节点都有一个分类名称和一个关联的分类标识符(txid)。此外,有些节点可能具有一个与林奈分类系统相似的分类等级,如门、纲、目等,为许多分析提供重要的分类参考。一些生物信息学方法依赖于NCBI Taxonomy提供的基于等级的分类方法,例如,对宏基因组数据进行分类概况,或根据给定的谱系等级对序列数据进行分类。然而,除了在生物信息界大量使用等级信息之外,管理这些数据时还需要考虑一些重要的问题。当查询一组生物谱系时,我们可以观察到其中一些缺少一些等级。在2020年11月进行的一次关于NCBI分类学的咨询中,大多数蓝藻细菌,如微胞藻属绿脓杆菌(NCBI:TXID:1126),没有分类课堂级别。当我们的团队开始开发出划船赛时,拟南芥没有阶级和猪没有秩序等级。然而,如果我们进一步观察分类学谱系,我们发现树中包含了一些没有分类等级的类群,即“无等级”或“分支”类群,为分类学基础增加了系统发育信息,指出了单系类群。这些可能是有用的节点,可以借用来表示初步增加的分类等级。当这是不可能的,在不影响原始层次的情况下,新节点的插值将是解决方案。

这些问题可能是由于专家对该类群的分类存在不确定性或冲突,从而导致《NCBI分类学》的分类等级不完整,或者专家们没有遗漏某些谱系中的分类等级。因此,一个关于分类等级的简单查询,例如“在这个数据中有多少不同的类等级分类?”可能成为一项艰巨的任务。例如,如果类m .绿脓杆菌和几个非指定的蓝藻类是存在的,他们都将被计数为“NULL”在一个计算数据库,如MySQL,因此分组非相关计数。对于这样的分析,一个包含“所有”分类等级的层次完整的分类树可能会有很大的好处。因此,在这个工作中,我们开发了一个算法,精心提供的分类树NCBI分类法和生成一个分层分类树中所有血统都有相同的深度和层级对应taxonomic-rank,因此它可以处理作为表的列。此外,如果需要进行计算分析,该表可以重新生成包含所有节点的原始树。最终的数据库被命名为Taxallnomy,因为它为NCBI Taxonomy中组成的一个谱系中的所有分类等级提供了分类名称。因此,Taxallnomy以编程方式提出临时NCBI分类法中所有分类等级缺口的名称,有利于生物信息学分析,并可能启发策展人为新的分类等级提出合适的名称。该过程的工作方式不会损害NCBI分类模式。建议的分级分类群的名称是通过在现有节点名称后添加前缀生成的,所以它们不会被误认为是未经适当命名的新分类群,而新分类群可能是在分类学家采用适当命名法后创建的。Taxallnomy采用制表符分隔的格式,便于访问给定分支的所有成员(例如所有物种)Cla_of_海龟的分类)。用户可以访问和探索Taxallnomy数据库的层次结构,网址是http://bioinfo.icb.ufmg.br/taxallnomy..通过API以编程方式访问数据或在本地机器中生成Taxallnomy数据库的指令也可以在Taxallnomy网站上找到。本地生产非常简单,允许使用更新的信息,直接从更新的NCBI分类法中处理。

建筑和内容

数据源

包含NCBI分类法FTP服务器(FTP.NCBI.nih.gov/pub/Taxonomy/)提供的分类法信息的转储文件用于构建分类法数据库。具体来说,包含父子关系(nodes.dmp)和分类名称(names.dmp)的转储文件用于生成Taxallnomy表,这两个文件在旧版本(taxdump)和新版本(new_taxdump)的NCBI分类法中都可用。这项工作中的结果是使用2020年11月11日下载的转储文件获得的,尽管税务网站保持最新。

概念

在这里,我们提出了参考NCBI分类的层次结构时使用的常见术语。NCBI分类学的分类树由几个分层数据结构组织的几个分类群组成。所有分类群都有名称(例如HOMO SAPIENS.,哺乳动物,细菌)和数字标识符(分类学标识符或txid;例如9606年HOMO SAPIENS.)与之相关联,它们对应于树的节点。每个分类群都连接到上面级别的单个节点(父分类群),除了位于树顶部的根节点。此外,分类群可以连接到下面水平的一个或多个节点(儿童分类);当分类群未与任何儿童分类交联时,它被称为叶子分类(或叶节点)。每个分类群体可能或可能不是(例如,CLADE)有一个分配给它的41个分类学 - 级别之一(表1).分类等级也遵循一个等级结构,即较高等级的分类单元不能是较低等级的分类单元的后代(例如,门级的分类单元不能是类级的分类单元的后代)。在这项工作中,我们也通过数字来表示分类等级,这些数字是分类等级的层次。因此,分类学等级为1 ~ 41级,最高(超界)分类学等级为1级,最低(孤立)分类学等级为41级。在NCBI分类学上,并不是所有的分类单元都有一个分类学等级,这些分类单元被称为“无等级”(如四足类,NCBI:txid32523)或更近一些被称为“分支”。它们是有用的,因为它们在层次结构中增加了系统发育分离。在本研究中,我们将“无级”加“分支”作为未排序的分类单元,因为它们有有用的名称和分类id,但没有分类等级分配,即它们不以类、目、科等命名。我们将“缺失的分类等级”指的是目前谱系中缺少的等级,因此Taxallnomy将提供这些名称。一个分类单元的分类学谱系,或简单的谱系,被称为层次结构中的节点集,它将分类单元带到层次结构的顶部(在本例中是根节点),它可能由分类学上排序的和未排序的分类单元组成。沿着一个分类单元的谱系,我们获得每个层次的分类等级分类,并可能验证某些分类等级可能缺失(例如:Mycrocystis类)。最后,在NCBI分类法中,树中的一些分类单元被认为是未分类的分类单元,其中包含术语未发表的身份化未赋值的环境样品incertae基准因此他们的孩子不是分类分类的对象,尽管他们的父母是。

表1在NCBI分类中发现的分类法

数据库建设

我们为这项工作提出的算法挑战是考虑分类学 - 级别的分类学谱系上的空白。为实现这一点,我们创建了一种执行其中一个操作之一的算法:(1)分配缺少的分类法,具有拨款的名称和TxID,可提供当前不挂入的分类群(目前名为Clades或“在整个分类树中没有排名”分类群)如果可能的话,或(2)创建节点以添加缺少的分类学 - 秩列表,仔细地在层次结构中插入它们而不影响它,并相应地将其命名为其孩子,甚至(3)当血统没有时创建儿童分类群介绍他们,但其他人这样做。在所有情况下,前缀将从原始名称中区分TaxAllnomy添加,即,没有完全原始名称将与实际的分类学 - 秩名称混淆,例如,在里面HOMO SAPIENS.(NCBI:txid9606)谱系中,sbcl_theria的亚类分类等级归属于“无等级”Theria(前缀sbcl_);此外,在Tri_of_人类,部落等级被分配给内插新节点,属的父级人类(前缀Tri_of_);此外,在sbSpe_in_HOMO SAPIENS.,将亚种等级分配给创建的节点作为物种的子节点HOMO SAPIENS.(前缀SbSpe_in_)。因此,前缀引用过程,因此创建的名称将不同于生物信息学分析中的NULL,并且不会被分类专家弄错,否则,他们可能会建议在树中假定创建一个实际的分类等级。此外,由于Taxallnomy有一个表格的格式,显然生物信息学家可能只使用最常用的分类等级,选择一些列对数据进行分类。

将分类法​​分配给未击败的分类群的程序

第一种方法是映射分类上未排序的现有节点,为它们分配分类等级,并附加前缀Cla_、Ord_、Fam_等。该算法开始通过移动分类树的层次层次来评估所有未排序的分类。对于发现的每个未排序的分类单元,该算法评估41个分类单元中是否有出现在NCBI分类中(表1)1)可以分配给它。由于分类等级遵循一个等级,一个未排序的分类单元既不能假定其等级低于或等于其上升节点中的等级,也不能假定其等级高于或等于其后代节点中的等级。因此,为了确定一个未排序的分类单元所能分配的等级,该算法首先分别验证其上升节点和后代节点的最高和最低分类等级。它们之间的等级等级是那些可以按照等级等级分配给未排序的分类单元的等级等级,因此被认为是候选等级(图中气球中的数字)。1).

图。1
图1

为等级分配而评估未排序的类群。排序的节点用填充的方格表示。一个在假设的分类学树上,节点B位于分类学等级5级(门)之间,是其上升节点中等级最低的;分类等级9级(类)是其所有子代节点中最高的分类等级。因此,节点B在不影响等级等级的情况下,在球囊中可以假定的分类等级为亚门(6)、下门(7)或超纲(8)。b在评估所有不打击的分类群后,我们可以找到(i)那些不能假设任何秩的那些不纳的分类草达(node m,因为它在排名的节点9,class和10,subclass之间)和(ii)可以假设一个或多个排名(带气球的节点)

在评估所有不触线的分类卡之后,算法进入秩分配过程。在这一步骤中,算法通过分类树从root开始,从root开始,寻找一个带有候选排名的传出传票,为它分配适当的等级。这种分配的简单案例发生在未击败的分类群中,该分类在没有任何向外分类的单一候选等级作为其父母或儿童(例如节点k。1b)。在这种情况下,该算法简单地将候选等级分配给分类货物。当Unranked Tathon有两个或多个候选等级和/或其子节点中具有额外的不纳进出分类时,分配过程变得更加复杂,因为它能够超过一个有效的方式来执行秩分配。要处理这些情况,我们创建了一组算法规则来决定要用于分配的节点和分类秩序(图。2一种)。这些规则旨在旨在尽可能为尽可能多的排名不良分类的排名排列,同时优先考虑分配在分类树的谱系中最常发现的排名。

图2
图2

等级分配步骤。查看文本以获取详细说明。一个一组规则,后跟算法将单个等级分配给未跳过的分类国,候选人等级。b一些算法面临的复杂情况的例子,以及它解决秩分配、树重组和节点命名的方法。无等级分类单元的候选等级在气球中。方形节点代表《NCBI分类学》中最早发现的分类单元。灰色气球显示了分配给由算法排序(类型1)或创建(类型2和3)的节点的名称

为了更好地理解赋值规则,考虑Fig.中的子树。2说明了在排序分配问题中算法所发现的不同情况。在所有子树中,analysis (NA)中的节点是未排序的分类单元Bn(n = {1,2,...,5})。而且,NA的分层水平被称为第一级(L1)。由算法评估的第一个条件是存在和L1(RL)冗余的级别数。我们认为L1之后的级别是冗余的,如果它的所有节点是(1)unranked和(2)具有与NA相同的候选等级,并且如果(3)上方的级别是L1或没有叶子的冗余级别节点。如果NA中的候选等级(CR)的数量小于需要等级的级别数(L1加上连续冗余级别),则没有足够的排名在这些级别上分配给节点。在这种情况下,一个选项是将候选排名中的最低排名级别分配给NA,并将其一些后代节点留下不逆转录。但是,我们选择没有排名的纳诺,以便进一步级别的不纳进出的分类机会可以分配一个等级。选择该程序,因为这可能导致更令人不传达的分类级别,并指定了最终树的二分析。在子树1中(图。2b), NA (b1)有一个候选等级(分类等级2),L1之后的等级,L1由节点C组成1和D1,满足建立为冗余级别(RL)的所有条件。由于NA中候选排名的数量(CR = 1)不足以对L1上的节点进行排名,以及进一步的冗余级别(L1 + RL = 2),因此算法离开节点B1没有秩,允许进一步级别(C)的节点1和D1)分配分类法。

如果前一个条件不成立,则算法评估的下一个条件是子树中存在未分类的分类群,其中候选等级的数量等于或小于其与NA之间路径中连续未分类的分类群的数量。如果在这种情况下发现一个节点(图。2b,子树2、3和4),其上的所有候选秩可能随未排序的分类群在连接其到NA的路径上分布。因此,在这种情况下,算法将候选秩中最低的秩级分配给NA。

如果这些条件都不适用,则表明子树无法将所有候选等级分配给其未分类的分类群(图。2b,子树5)。在这种情况下,算法必须决定用于分配过程的分类等级。为了帮助实现这一点,我们根据它们在叶谱系中出现的频率确定了一个优先级排序1).级别越频繁,其优先级越高。为了利用这种优先级顺序,该算法从NA开始搜索连续的未排序类群的最长下行路径(LDP)。一旦找到LDP,算法将存储该路径上的节点数量和组成该路径的节点之间找到的不同的候选秩。如果子树中有多个LDP,则算法考虑路径上候选序列差异较小的LDP。然后,根据候选的优先级和优先级进行排序n排名,其中n是LDP的节点数,被提取。提取的等级将被分配给LDP中的节点。由于NA是LDP中的第一个节点,算法从提取的秩中选取最低一级的秩分配给NA。

在一个未排序的分类单元被分配了一个等级后,进一步的未排序分类单元将更新它们的候选等级列表,并由算法访问以执行相同的分析。在对所有未排序的类群执行此程序后,它们都将有一个或没有排序(图。2b)。

使树完整地完整

该算法的最后一步是创建和删除节点,使分类树完整、分层,因为在对未排序的类群分配分类等级的过程中,有些分类等级还没有出现;以及为未排序的分类单元及其相应创建的节点定义名称(图。2B,树重组和节点命名步骤)。为此,该算法将删除所有未在上一个程序中分配的分类学级别的所有未纳进出的分类群;正如节点发生的那样“B1“,”C2“,和”c3.”(无花果。2b,子树1、2和3)。另一方面,未排序的分类群保留了已分配的排序,并为它们分配新的名称,以表明它们最初是未排序的。这些节点的新名称由所分配的秩的缩写组成(表1)后跟节点的原始名称;即在节点“C1”(无花果。2b、 子树1),因为它指定了王国等级,所以它的新名称将是“Kin C”1”. 满足此条件的节点称为类型1的分类群。分类树中此类节点的一个示例是sbCla_Theria,它是人类子类的建议。

分类学树有两个连续的类群没有连续的等级的部分。在本例中,算法在它们之间创建节点,并为创建的节点分配缺少的秩。例如,我们可以在图中的子树5中观察。2B应该有节点在节点之间具有超星云(级别4)的节点“c5(亚王国,关卡3)和“E”5为了填补这一空白,算法在它们之间创建一个节点(节点“a”),并将亚门等级分配给它。这种类型的节点称为类型2,并使用分配的等级的缩写加上介词“of”和它第一个等级的后代节点的原始名称来命名。对于节点a,因为它有节点E5“作为第一个排名的后代节点,它被命名为”e的spphy5”。例如,人类的部落被提议为Tri_of_Homo,其中Homo是原始数据库中的属。

最后,如果由于没有更高层次的节点而导致某些谱系缺少秩,算法也将访问这些谱系,并为每个缺失秩创建一个节点。在图的子树5中。2b,节点“e5是门阶(5级)的叶节点5是一个叶节,在这个谱系中门之后的所有等级都不存在。在这种情况下,Taxallnomy将访问这些节点并创建节点来满足那些缺失的等级。子树5中的节点“b”(图5)2是为此目的而创建的节点。为了给这个节点命名,该算法采用缺失秩的缩写加上介词“in”和谱系的最后一个分类单元的原始名称(“sbPhy in E .”)5”)。这些节点被称为类型3分类群。它们在数据库中声明了亚种等情况下很有用。例如,野猪(NCBI:txid9823)有超过6万个蛋白质沉积,但只有大约1.5万个属于它的11个亚种之一。因此,对于原始数据库中的亚种排名,大多数条目为“NULL”;但是,通过创建类型3的节点,所有的节点都被处理为有一个亚种级别的节点,名为“sbSpe in Sus scrofa”。第3类节点的另一个用途是宏基因组学分析(图。7),当有较低排名水平的分类群的参赛作品时,人们想要计算较高等级水平的不同分类群的数量。

分配种或属等级的规则

种和属的出现频率较高(见表)1),因此在等级分配过程中都具有高优先级。因此,一个作为候选人的级别中的一个排除的分类群体更有可能使其中一个分配。我们评估了一些缺乏物种或属的叶片分类群的谱系,并证实了一些不告的分类群是适合拥有其中一个级别的分类群。例如,在旧版NCBI分类学(2016年9月19日),Beringia Wynnei.(NCBI:txid1037071)是一个属级叶分类单元,在其谱系中没有属级。然而,它的谱系包含一个未排序的分类单元Beringia.(NCBI:txid1037069),其具有由算法适当分配的属级。同样地,Nocardia阿根廷人ATCC 31,306 (NCBI:txid1311813)在NCBI分类学的同一版本中是一个“无级”叶分类单元,在其谱系中没有一个具有“种级”的节点,但它包含一个名为“无级”的分类单元Nocardia阿根廷人(NCBI:TXID1311812)。当前算法也适当地分配了物种和亚种排列到节点N阿根廷人N阿根廷人分别为ATCC 31306。然而,仅仅依靠这些规则会产生一些明显的错误,比如在那些未分类的叶片分类群中,它们的谱系中没有物种和属级节点。例如,Rosodae(NCBI:txid721787)是一个“无等级”叶分类单元,其父节点具有亚科等级(21级)。根据该算法,Rosodae可能拥有从部落(22级)到隔离(41级)的等级,并且,根据等级优先级,它将被分配到属级,这对它来说不是一个合适的等级。为了纠正这种情况,算法中添加了特殊规则,将物种和属的等级分配给未分类的分类单元。我们确定,只有在其优势节点中,原始数据库中存在属级节点时,才能对未分类的分类单元进行物种等级分配。另一方面,如果原始数据库中的后代中存在物种等级的节点,则未分类的分类单元应指定属等级。此外,如果一个节点的名称中有术语将其标识为未分类的条目,则不应将两个等级分配给未分类的分类单元。根据这些规则,前面提到的未分类的罗索达分类群具有部落等级而不是属等级。

已创建/修改的类群的标识符

包括TaxAllnomy树的每个节点的主要标识符是NCBI分类数据库提供的分类标识。但是,由于TaxAllNomy算法为节点分配了排名并创建新节点,因此我们建立了正确识别它们的代码。TaxAllnomy代码由三位数字添加为每个节点的分类ID中的十进制数。前两位数表示分类 - 分配给它的分类级别。它通过代码“01”到“41”,其中第一代码(“01”)指的是Superkingdom等级,最后一个(“41”)指的是隔离等级。第三个数字范围为1到3,并表示算法使用的方法来创建/修改节点。代码1,2和3分别参考类型1,2型和类型3.例如,例如,在分类码6072.031,6072中对应于NCBI分类ID(eumetazoA)和031是由此添加的代码TaxAllNomy算法,表示它是在子kingdom等级创建的1类型的节点。使用TaxAllnomy名称约定,此节点的名称将是“SBKI eumetazoa”。此外,最初在NCBI分类数据库中排名的分类群是包括代码000(例如9606.000,它代表物种HOMO SAPIENS.).

可用性和可用性

用户可以查询Taxallnomy数据库并使用其web界面下载结果,网址为http://bioinfo.icb.ufmg.br/taxallnomy..在web界面中,用户还可以找到一个交互式的Taxallnomy树,它可以方便地探索其层次结构。高级用户还可以使用我们针对该数据库的REST服务以编程方式查询Taxallnomy数据库(更多说明请参阅Taxallnomy web页面)。要体验Taxallnomy,可以访问网站并添加,例如,7个genus - txid列表:9030,8500,8507,28376,8468,643744,436494;或者一个接一个地类型和添加它们的分类单元名:背带Crocodylus斯坦达顿AnoLis.龟鳖目Brachylophosaurus,暴龙.这将生成完整的层次子树,包括那些分类系统,在其中,当你读这篇文章时,一些顺序和类的等级可能还没有。值得一提的是,那些没有经过算法排序的未排序的类群也可以显示在树中,说明Taxallnomy对NCBI Taxonomy的层次结构没有伤害。

高需求的用户还可以在Taxallnomy SourceForge页面的本地MySQL数据库中找到所有必要的文件,以获得Taxallnomy数据库的副本(https://sourceforge.net/projects/taxallnomy.).TaxAllNomy数据库包括名为“Lin”,“Lin_Name”,“Tree_Complete”,“Tax_Data”和“等级”的五个主要表。前两个表有分类谱系,包括TaxAllnomy树。表具有包含NCBI分类ID(TxID)的列,该列是表的主键列;和41列代表NCBI分类数据库中发现的41个分类法。在“林”表中,分类学 - 秩列填充分类法规,而在“Lin_Name”中,这些列填充了分类名称。表“tree_complete”包含小划分的列车创收数据库中的所有父子关系,使得分层结构完成。TaxAllNomy数据源也有两种其他分层不完整版本的树表;一个是表“tree_all”,它包括没有分配的排名的传出传票,另一个是表“tree_original”,它具有与NCBI分类数据库提供的分层结构相同的分层结构。在“TAX_DATA”表中,用户可以找到有关包括树的每个分类商的信息,例如其科学名称,公共名称和等级。 Finally, the “rank” table contains information about the ranks comprising the taxonomic tree, such as name, level, priority order, and abbreviation.

由于NCBI分类数据库经常更新,因此TaxAllNomy网页中使用的数据库并在其SourceForge页面中提供。每周更新。带有TaxAllnomy数据库的本地副本的用户可以从SourceForge页面获取更新的数据库。或者,我们还提供了一个Perl脚本,其中包含了at taxallomy算法https://github.com/tetsufmbio/taxallnomy..该脚本支持在UNIX系统中执行,并支持internet连接,下载最新版本的NCBI Taxonomy数据库时需要连接internet。用户也可以通过提供NCBI Taxonomy FTP服务器上提供的压缩转储文件的本地副本来执行脚本。

效用和讨论

Taxallnomy概述

新的分类数据库被命名为Taxallnomy,因为它提供了一个分类学谱系中缺失的所有级别的名称。为了证明这一点,我们取了分类学树的一部分,包括王国后生动物的一些类别(图。3.).注意,在NCBI分类学目前提供的树(图。3.有些分类单元在分类学谱系中没有等级(如:昆虫纲的超纲),有些分类单元在分类学谱系中没有等级(如:Eumetazoa, Bilateria)。通过从Taxallnomy数据库中取树的等价部分(图。3.,下树)我们可以观察到具有相同等级的所有分类卡在相同的层级中定位。为实现这一目标,分配给某些未触及的分类群,例如eumetazoA(3级),氘疗法(4级)和Panarthropoda(4级)的排名缩放算法。删除其他人,如双层,椎管和Gnathostomata;并创建节点以填补血迹中缺失的队伍,例如cnidaria的“spphy(sppphym)”,“六波动的Spphy(亚峰)”,“软骨的”Spcla(超类)“和其他。更详细地观察划分船只造影树的示例性部分,可以确定算法将算法将分类案例和Panarthropoda排名为超星期(4级)而不是排名分类群体。可以在昆虫的血谱段中找到另一个可疑的点,其中算法没有将分类群mandibulata或pancrastacea排名到亚伯努布(级别6),而是创建了一个新的节点(Hexapoda的Sbphy)。建立了算法执行的所有排名模式以与等级层次结构同意。分类群体不能分配的等级超星系,因为其后裔的分类群(Scalidophora-未显示)具有这一等级。同样,Mandibulata和Pancrastacea不能分配的等级亚模式,因为两个分类群都有这个等级的后代分类群(例如甲壳成分)。

图3.
图3

分类树的子树,包括一些后生动物王国纲的分类群。上面的树来自NCBI分类,下面的树来自分类数据库。节点(n)中的数字表示分类等级(见表1)1

Taxallnomy数据库由9,875,550个节点组成,其中9,183,606个节点(92.99%)是Taxallnomy算法创建的节点或分配了rank的未排序的taxa。其中,第1型170742人(1.86%),第2型4225358人(46.01%),第3型4778506人(52.13%)。此外,用于创建类型1节点的未排序分类单元的数量相当于原始树中发现的所有未排序分类单元的99.85%(170991个节点)。叶类群总数为728,071个,其中真核生物占68.18%,细菌占8.51%,古细菌占0.13%,病毒或类病毒超级界占23.38%。在这些计数中,未分类的类群(包括未发表的、未识别的、未分配的、环境的或incertae基准(类群)未包括在内。

由于Taxallnomy树的层次结构是完整的,因此所有的分类学谱系都有每个秩级的所有节点,随着我们的排序,在每个秩中发现的不同分类单元的数量预期会增加(图2)。4). 这与NCBI分类数据库中的原始树形成对比,该数据库显示不同分类群的数量随着等级的变化而大幅波动。通过测量两棵树上每个分类级别上不同分类单元数量的差异,可以注意到Taxallnomy数据库在创建节点和名称方面的贡献。

图4.
图4

NCBI Taxonomy和Taxallnomy数据库中不同分类单元的数量

我们还可以通过考虑包含叶片分类谱系的谱系的创建/修改的节点来遵守TaxAllnomy完成分层结构的贡献(图。5).除去在几乎所有世系中都存在的主要等级(超界、门、纲、目、科、属和种),大多数等级最初在少数世系中发现,并有一个被Taxallnomy算法包含的节点。类型1的节点主要分布在第一级(从王国级到超级级)和低一级(从血清型到分离株),说明在原始树上存在值得排序的未排序类群。分类学谱系在种级以上且不属于主级的级上有大量2型节点。这是因为在这些范围内没有或很少有未排序的分类单元来分配等级,这迫使算法在原始树中创建新的节点。最后,类型3的节点集中在最低的级别(从Forma specialis到Isolate级别)。这表明,分析的许多叶分类单元来自物种级,导致算法创建类型3的分类单元以进一步排序。

图5.
图5

最初沿着分类谱系排列或修改/创建的分类单元的频率。共评估了728071个叶分类群的分类谱系

应用案例

在谱系的特定等级上缺少一个分类单元,对于我们在数据上询问分类学等级的任何分析都是不方便的。可以使用一个简单的BLAST结果,并询问在检索的主题中从指定级别找到了哪个类群。如果有人试图使用NCBI分类学数据库的原始数据来回答这个问题,他可能会遇到属于没有分类单元的物种的主题。在这种情况下,我们可以利用Taxallnomy数据库,它填补了所有分类谱系的空白。例如,“BLAST”[20使用人类P53蛋白查询UniProt数据库的结果[10.)(表2),我们可以观察到,在该分析中检索到的大多数受试者属于在原始数据库中具有类群等级的分类单元(哺乳动物纲、腔棘鱼目、鸟类、两栖类和辐射翅目),但其中一些受试者具有由分类学创建的类群(“鳄鱼纲的Cla_”和“Testudines的Cla_”)。没有这些信息,我们不可能知道这些受试者是否来自同一类的生物体。如果我们考虑现在的超阶秩,我们可以观察到八个受试者属于在其谱系中缺乏这一等级的生物体。通过利用分类学的信息完成这些斑点,我们将八种生物分为四个不同的超目(“雀形目的孢子虫”、“鹦鹉热目的孢子虫”、“鳄纲的孢子虫”和“Testudines的孢子虫”)。

表2从TaxAllnomy的分类数据进行爆炸结果

类似地,分类数据经常被纳入系统发育树,以证明某些分类群。通过将分类学中的分类数据嵌入到系统发育树中,用户可以选择一个等级和包含所选等级的证据分类群,而无需担心缺失的等级。我们以灵长目物种的“肿瘤蛋白53”序列所产生的系统发育树为例证明了这一点(图。6).在这棵树中,我们可以证据表明由TaxAllnomy创建的五个分类群:spfam_of_tarsiidae,spfam_of_galagidae,spfam_of_indriidae,spfam_of_cebidae和spfam_of_aotidae。

图6
图6

灵长类目物种肿瘤蛋白P53的系统进化树。分枝颜色表明组成该树的超科级的不同分类群。以“spFam_of_”(粗体)开头的超科是Taxallnomy算法创建的分类单元

Metagenomics分析了大量依赖分类数据和有关分类法规的信息。在像Megan这样的软件执行的分类学诠释之后[21],MG-RAST[22或EBI Metagenomics的流水线[23],该领域的研究人员寻求偏心神经分布,以验证环境样本中哪些分类群是主要的。由于这些计划执行的分类学注释基于NCBI分类数据库,因此通常通过首先提取分配给读取的那些分类的分类群的分类学分类素,然后分别地绘制每个分类法中的分类群。然而,如最初所述,一些分类群体中缺少一些队伍,该分类符合我们最终涉及所有这些分类群,没有单独的组(例如未分类)或省略图形表示中的所有列表。在其中有一个读取的额度级别的读数被读取的情况下采取了相同的程序,我们希望具有更高的等级水平的分类概况。只有作为植物群体的读数,可以在以下等级(课程,订单等)中不计入Quoteobacteria,这是一个Quoteobacteria的素管。分类程序概况的另一种代表是展示沿着分类树的分类群,而不会计分类级别。这种方法的优点是在分类树的所有可用节点(排名或未纳)中进行丰富分析。但是,由于分类谱系的深度可以在分类群之间变化,例如,例如,细菌种类大肠杆菌(NCBI:TXI562)和微胞藻属绿脓杆菌(NCBI:txid1126)在其谱系上分别有8个和10个类群,相同的分类等级,甚至物种等级(唯一的自然等级)可能在不同的层次上表现出来。

所有这些问题都可以通过使用Taxallnomy数据库提供的层次完整的分类树来解决。为了证明这一点,我们从巴西热带淡水水库(projectID on MG-RAST:mgp13799)采集宏基因组样本,并利用NCBI Taxonomy和Taxallnomy中的分类来源生成其分类剖面。为此,我们向MEGAN提交了分类注释的读取信息,并从两个数据库中检索了注释过程中出现的每个分类单元的分类谱系。然后,我们将在电子表格中检索到的所有分类学谱系集合起来,并生成,例如,王国、门和类的等级饼图(图2)。7). 在使用NCBI分类法获得的配置文件中(图。7a)根据分析的分类群样本和分类 - 分类 - 分析,因此在未分类的小组中将省略或分组几个读数,因为分配给他们的分配给他们的级别。由于从TaxAllnomy数据库中检索的谱系具有满足的丢失级别,因此所有读数都将被考虑在所产生的分类程序配置文件中(图。7b).即使那些被分配了较低等级分类单元(例如,细胞有机体,细菌)的读值,也可以通过Taxallnomy算法创建的第3类节点(例如,“Phy_in_Cellular有机体”,“Phy_in_Bacteria”),被考虑到较高等级的分类单元。值得一提的是,王国级在宏基因组图谱中并没有应用,因为在NCBI分类学中并没有该级别的分类单元在其谱系中。然而,由于它们中的一些没有等级分类单元,而这些分类单元具有Taxallnomy分配的王国等级(例如PVC组,FCB组,terrabobacteria组),在profile中显示这个不寻常的等级最终会添加那些没有等级分类单元提供的分类信息。在典型的宏基因组分析中,这一信息可能会丢失,因为在实际分析中没有丢弃等级分类单元。

图7
图7

巴西热带淡水水库宏基因组样本的分类剖面。利用来源的分类资料,在界、门和类水平上生成分类剖面一个NCBI分类法和b税收数据库。对于使用NCBI分类法获得的分类概况,图表的灰色部分包括所有注释到分类群的序列,这些序列对于其谱系中的那些等级而言为“空”。这些序列可以使用从Taxallnomy数据库检索到的谱系(粗体)进行进一步注释。宏基因组样本在MG-RAST:mgp13799上的投影

讨论

分类学有一个广泛的历史,开始于亚里士多德(回顾,参见[24252627])从那时起,人们提出了几种对生物多样性进行分类和命名的方法。一般来说,分类数据库有两个基本功能:(1)提供有效的分类数据存储和检索系统;(2)提供生物的进化和多样性场景[2829].为了满足一个或两个功能,目前的分类管理数据库中的两种方法是:(1)基于级别的分类,其中群体类别的群体系统(王国,门,课程等)组;(2)基于思潮的分类,哪个名称为系统发育树的单胞菌。由于两种分类系统都符合上述分类物的一个功能(基于秩的方法更实用,并且基于思工的方法更具解释性)[29],这两种方法的使用都是分类学家们争论不休的话题[303132].

基于级别的分类面临的主要批评是缺乏每个等级的绝对定义,因为对等级分配过程没有完整的标准[33].因此,同一等级的分类群不一定具有可比性,也不作年龄相等的假设[3435]但是,虽然有一些尝试通过使用时间条束方法使它们相当[363738或时间剪辑[39].尽管存在不一致,分类等级在促进交流方面仍有重要作用[40]. 许多地区、国家或全球分类学数据库遵循生命目录(CoL)提供的分类学主干,这是一个基于等级的全球标准分类学数据库,由3000多名分类学专家意见的一致分类构建而成[41].即使采用基于进化支的方法的分类数据库仍然保留分类等级作为参考[4243].分类等级也为进化比较提供有意义的信息[4044].例如,一旦我们知道HOMO SAPIENS.被归入人科,我们可以断言HOMO SAPIENS.与这个家庭中的任何物种更密切相关,而不是任何其他不是hominidae的物种。

NCBI分类学所提供的分类学资料[8]是多个生物信息学领域的宝贵资源。它的分类系统是基于等级和分支的方法的调和。到目前为止,已经开发了一些以该数据库为主要主题的工具和软件,以协助其数据检索[454647]及形象化[48]或通过纠正错误分类的生物来改善分层结构[4950]或通过消除文本挖掘的分类名称的歧义[51525354].虽然NCBI分类数据库具有较长的寿命(自1991年),但缺乏完整分层排名分类的若干报告提出了挑战[495155565758].这促使我们开发了Taxallnomy数据库,该数据库提供了完整的NCBI Taxonomy等级分类。Taxallnomy通过添加新的分类单元或为分支赋一个等级,将NCBI分类学树中存在但不完全存在的分类单元的优势综合起来。需要强调的是,这项工作并不是要提出一种新的系统的分类方法,而是对广泛使用的NCBI分类法的扩展,以促进基于等级的分类在一些生物信息学方法上的计算应用。

由于TaxAllNomy算法可以创建新节点(类型2和3的节点),或者将等级分配给预先存在的一个(类型1的节点)以及分层结构,由算法执行的另一个任务是为这些节点创建适用的名称.除了命名规律的存在来命名给定级别的分类群,采用它们是一项复杂的任务,因为不同的分类学团体有不同的命名规则[596061].因此,我们建立了通用规则,利用已有的名称,便于识别等级和算法在层次结构中执行的修改。

没有完整的方法来解决缺乏完整的分层级别分类的问题,但已经实施了一些解决方案。最常见和最简单的是在整个谱系中消除“没有排名”的分类群[495156].更复杂的解决方案通过取较低分类单元的第一个分类单元的分类单元名来填补缺失的秩[58或更高的等级水平[57].这些解决方案类似于Taxallnomy算法用于创建类型2和3的节点的过程。当非连续等级的两个分类单元之间没有节点时,创建类型2节点,取较高等级的第一个分类单元的名称,如[57].优先采用高级分类单元而不是低级分类单元的名称是概念性的。例如,如果我们有一个“门”级的节点“X”,它有两个子节点“Y”和“Z”,这两个节点都是超类级别,亚门级别在Y和Z谱系中都缺失。通过使用较低等级的节点(节点X)的名称来命名缺失的等级,Y和Z节点将具有相同的亚门(“sbPhy of X”)。另一方面,通过取更高等级的节点(节点“Y”和“Z”),两个节点将属于不同的亚门(“Y的sbPhy”和“Z的sbPhy”)。理论上,我们不知道这些谱系是否属于同一个亚门,所以,最好将它们分成不同的亚门,而不是将它们放在同一个类群中。另一方面,类型3的节点是在谱系缺乏更高级别时创建的。该算法采用沿袭的最后一个节点的名称,类似于[58,因为没有其他合理的分类单元,我们可以利用它来命名新节点。

除了基于排名分类的新节点的创建和提升外,TaxAllnomy算法执行的显着特征是“无级别”分类的秩分配。在整个树中传播“没有等级”状态的分类群,通常由需要分层完整树的用户或软件丢弃,这导致信息丢失。在这项工作中,我们表明我们可以利用“没有排名”的分类达,以满足缺失的队伍和有助于产生完全分类的分类树的谱系。值得一提的是,尽可能多地保持最终树中的“没有等级”分类群对于保护分类树结构已经构成的群体是重要的。因此,当前算法执行秩分配过程,以将排名分配给尽可能多的“没有等级”分类群。由此,该算法已向所有“无排名”分类群中的秩超过99%,而不会解除排名的分类群已建立的等级等级。在算法中,我们还在等级中建立了优先级(表1),以协助选择一个单一等级,分配给有两个或多个候选等级的“无等级”节点。这一过程有利于选择那些最频繁的等级,以分配一个“无等级”节点(类型1的节点)。我们没有注意到一份已发表的报告,该报告利用“无等级”分类群来填补所有缺失的等级。然而,可以在名为TaxonKit的工具的“reformat”函数中找到一种类似但更简单的方法[47,这可以在一些生物信息学应用中解决这个问题。

结论

几种生物信息学分析和工具依赖NCBI分类管理提供的分类信息。然而,由于分类学谱系中的一些排名和在整个分类树中没有排名而没有一些排名的缺失,与分类级别的数据级别的工作并不琐碎。在这项工作中,我们通过开发从NCBI分类学分类树的算法来解决这个问题,并根据分类法排名进行分级级完成。最后一棵树被命名为TaxAllnomy,它有41个层次等级,对应于包括NCBI分类的41个分类法。从TaxAllnomy数据库中,用户可以用41个节点检索完整的分类分类谱系,所有这些分类级别为NCBI分类中可用的所有分类级别。TaxAllnomy适用于依赖NCBI分类信息的任何生物信息学分析。

可用性数据和材料

Taxallnomy可在http://bioinfo.icb.ufmg.br/taxallnomy/

缩写

INSDC:

国际核苷酸序列数据库合作

TxID:

分类标识符

NA:

节点分析

L1:

第一级

RL:

冗余水平

克雷格:

候选人排名

自民党:

最长的向下路径

参考

  1. 1。

    Roskov Y, Abucay L, Orrell T, Nicolson D, Flann C, Bailly N, et al.;物种2000 & ITIS生命目录。2016.http://www.catalogueoflife.org/.2016年7月8日访问。

  2. 2.

    麦迪森博士,舒尔茨K-S。生命之树计划。http://tolweb.org.2017年2月20日。

  3. 3.

    Parr CS,Wilson N,Leary P,Schulz K,Lans K,Walley L等。生命百科全书v2:全球进入地球上的生活知识。生物方向数据J. 2014; 2:E1079。

    文章谷歌学者

  4. 4.

    gbif.org。GBIF主欧宝直播官网app页。GBIF主欧宝直播官网app页。2019年。https://www.gbif.org/.访问日期:2019年11月5日

  5. 5.

    Froese R, Pauly D. FishBase。2019年。http://www.fishbase.org.访问于2020年5月18日。

  6. 6.

    AmphibiaWeb。https://amphibiaweb.org.访问于2020年5月18日。

  7. 7.

    动物基础项目组。动物基。早期的动物学文献在线。2005年。http://www.animalbase.uni-goettingen.de..访问于2020年5月18日。

  8. 8.

    国家地理信息系统分类数据库。核酸Res. 2012;40(数据库版):D136-43。

    中科院PubMed文章pmed中央谷歌学者

  9. 9.

    卡什-米兹拉基(Karsch-Mizrachi);国际核苷酸序列数据库合作。核酸Res. 2016;44: D48-50。

    中科院PubMed文章pmed中央谷歌学者

  10. 10.

    consortium tu。UNIPROT:用于蛋白质信息的集线器。核酸RES。2015; 43:D204-12。

    文章中科院谷歌学者

  11. 11.

    Aken BL, Ayling S, Barrell D, Clarke L, Curwen V, Fairley S,等。ensemble基因注释系统。数据库》2016。https://doi.org/10.1093/database/baw093

    文章PubMedpmed中央谷歌学者

  12. 12.

    Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR,等。蛋白质家族数据库。核酸资源2014;42(数据库版):D222-230。

    中科院PubMed文章pmed中央谷歌学者

  13. 13

    SMART,一个简单的模块化架构研究工具:识别信号域。中国科学(d辑:地球科学)1998;95:5857-64。

    中科院PubMedpmed中央文章谷歌学者

  14. 14

    Mi H,Muruganujan A,Thomas Pd。Panther在2013年:在系统发育树上的背景下建模基因功能的演变和其他基因属性。核酸RES。2013; 41(数据库问题):D377-86。

    中科院PubMedpmed中央谷歌学者

  15. 15.

    Altenhoff AM, Škunca N, Glover N, Train C-M, Sueki A, Piližota I,等。2015年OMA orthology数据库:功能预测,更好的植物支持,同步视图和其他改进。核酸Res. 2015;43(数据库版):D240-9。

    中科院PubMed文章pmed中央谷歌学者

  16. 16.

    Kozomara A, griffith - jones S. miRBase:整合microRNA注释和深度测序数据。核酸学报2011;39(sup1): D152-7。

    中科院PubMed文章pmed中央谷歌学者

  17. 17.

    Berman HM,Westbrook J,Feng Z,Gilliland G,Bhat Tn,Weissig H,等。蛋白质数据库。核酸RES。2000; 28:235-42。

    中科院PubMedpmed中央文章谷歌学者

  18. 18.

    黄志强,黄志强,黄志强,等。ArrayExpress更新简化数据提交。核酸学报2015;43:D1113-6。

    中科院PubMed文章谷歌学者

  19. 19.

    Kanehisa M、Furumichi M、Tanabe M、Sato Y、Morishami K。KEGG:基因组、途径、疾病和药物的新视角。《核酸研究》,2017年;45:D353-61。

    中科院文章PubMed谷歌学者

  20. 20.

    altschul sf,gish w,miller w,myers ew,lipman dj。基本的局部比对搜索工具。J Mol Biol。1990; 215:403-10。

    中科院文章谷歌学者

  21. 21.

    宏基因组数据的MEGAN分析。基因组研究》2007;17:377 - 86。

    中科院PubMedpmed中央文章谷歌学者

  22. 22.

    Keegan KP, Glass EM, Meyer F. MG-RAST,用于分析微生物群落结构和功能的宏基因组学服务。方法:2016; 1399:207-33。

    中科院文章谷歌学者

  23. 23。

    Mitchell等人,Scheremetjew M,Denise H,Potter S,Tarkowska A,Qureshi M,等人,《2017年EBI宏基因组学:丰富微生物群落分析,从序列读取到组装》。核酸研究,2018年;46:D726-35。

    中科院PubMed文章pmed中央谷歌学者

  24. 24。

    Mishler Bd。生物分类的三个世纪范式变化:是视线结束吗?分类。2009; 58:61-7。

    文章谷歌学者

  25. 25

    乌鸦博士,柏林B,品种爱好者。分类学的起源。科学。1971年; 174:1210-3。

    中科院PubMed文章pmed中央谷歌学者

  26. 26

    生物学思想的发展:多样性、进化和继承。剑桥:哈佛大学出版社;1982.

    谷歌学者

  27. 27.

    史蒂文斯。生物系统学的发展:Antoine Laurent de Jussieu,《自然与自然系统》。纽约:哥伦比亚大学出版社;1994

    谷歌学者

  28. 28.

    梅尔波。分类和其他订货系统。J Zool Syst Evol Res. 2002; 40:169-94。

    文章谷歌学者

  29. 29.

    系统发育学、分类学和命名学:分类范畴和命名等级的问题。据研究。2007;1519:27 - 68。

    文章谷歌学者

  30. 30.

    Nixon KC, Carpenter JM, Stevenson DW。系统代码有致命的缺陷,“林奈”系统可以很容易地修复。机器人启2003;69:111。

    文章谷歌学者

  31. 31.

    系统代码:对其理论基础的批判性讨论。支序分类学。2006;22:186 - 97。

    文章谷歌学者

  32. 32.

    Pennisi E. Linnaeus的最后一席?科学。2001; 291:2304-7。

    中科院PubMed文章pmed中央谷歌学者

  33. 33.

    Lambertz M,Perry SF。脊索化学发作和论证界的含义在现代进化生物学中。proc r soc b biol sci。2015; 282:20142327。

    文章谷歌学者

  34. 34.

    Avise JC,刘建新。林奈分类等级的时间不一致性。中国科学(d辑:地球科学)2011;

    文章谷歌学者

  35. 35。

    Lücking停止滥用时间!严格的时间条带不是真菌(包括地衣)和其他生物的基于等级分类的未来。植物学报。2019;38:199-253。

    文章谷歌学者

  36. 36。

    系统发生系统学。香槟:伊利诺伊大学出版社;1966.

    谷歌学者

  37. 37

    阿维斯JC,约翰GC。关于现存物种生物分类标准化时间方案的提案。自然科学进展。1999;96:7358–63.

    中科院PubMedpmed中央文章谷歌学者

  38. 38

    霍尔特BG,Jønssonka。用分子系统调和分层分类法。系统中的生物学。2014; 63:1010-7。

    PubMed文章pmed中央谷歌学者

  39. 39.

    Avise JC,Mitchell D.时间来标准化分类。系统中的生物学。2007; 56:130-3。

    PubMed文章pmed中央谷歌学者

  40. 40.

    Giribet G,Hormiga G,Edgecombe Gd。进化生物学中的分类级别的含义。org潜水员evol。2016; 16:427-30。

    文章谷歌学者

  41. 41.

    Ruggiero Ma,Gordon DP,Orrell TM,Bailly N,Bourgoin T,Brusca Rc等。所有生物体的更高水平分类。PLoS ONE。2015; 10:E0119248。

    PubMedpmed中央文章中科院谷歌学者

  42. 42.

    Adl Sm,Bass D,Lane Ce,LukešJ,Schoch Cl,Smirnov A等。对真核生物的分类,命名和多样性的修订。J Eukaryot microbiol。2019; 66:4-119。

    PubMedpmed中央文章谷歌学者

  43. 43.

    Chase MW、Christenhusz MJM、Fay MF、Byng JW、Judd WS、Soltis DE等。开花植物目和科被子植物系统发育类群分类的更新:APG IV.Bot J Linn Soc。2016;181:1–20.

    文章谷歌学者

  44. 44.

    关于倪。林奈的信。在:Knapp S, Wheeler Q,编辑。信林奈。伦敦林奈学会:伦敦;2009.p . 171 - 84。

    谷歌学者

  45. 45.

    Stajich JE,Block D,Boulez K,Brenner SE,Chervitz SA,Dagdigian C等。Bioperl工具包:生命科学的Perl模块。基因组决议,2002年;12:1611–8.

    中科院PubMedpmed中央文章谷歌学者

  46. 46.

    Huerta-Cepas J,Serra F,Bork P.Ete 3:改造,分析和系统托儿科数据的可视化。mol Biol Evol。2016; 33:1635-8。

    中科院PubMedpmed中央文章谷歌学者

  47. 47。

    沈伟,任慧。TaxonKit:一种实用高效的NCBI分类工具。2021.J麝猫基因组学。https://doi.org/10.1016/j.jgg.2021.03.006

  48. 48。

    de Vienne DM. Lifemap:探索整个生命之树。公共科学图书馆杂志。2016;14:e2001624。

    PubMedpmed中央文章中科院谷歌学者

  49. 49

    McDonald D, Price MN, Goodrich J, Nawrocki EP, DeSantis TZ, Probst A,等。细菌和古菌生态学和进化分析的改进的绿色基因分类法。ISME j . 2012; 6:610-8。

    中科院文章谷歌学者

  50. 50

    张建军,张建军,张建军,张建军。基于系统发生意识的分类错误序列的识别与校正。核酸Res. 2016; 44:5022-33。

    中科院PubMedpmed中央文章谷歌学者

  51. 51

    纳德利N,卡普勒T,贝克CJO,维特R。Organimtagger:生物医学文档中生物实体的检测、规范化和基础化。生物信息Oxf英语。2011;27:2721–9.

    中科院文章谷歌学者

  52. 52.

    Wei C-H,Kao H-Y,Lu Z.SR4GN:一种用于基因标准化的物种识别软件工具。PLoS ONE。2012; 7:E38460。

    中科院PubMedpmed中央文章谷歌学者

  53. 53.

    范尼尼,帕夫卢迪,帕夫卢迪,等。快速和准确鉴定文本分类名称的物种和有机体资源。PLoS ONE。2013; 8: e65390。

    中科院PubMedpmed中央文章谷歌学者

  54. 54.

    Boyle B,Hopkins N,Lu Z,Raygoza Garay Ja,Mozzherin D,Rees T,等。分类名称解决方案服务:用于自动标准化工厂名称的在线工具。BMC生物素。2013; 14:16。

    文章谷歌学者

  55. 55.

    波特女士,贝科RG。扳手:利用相似度的金字塔匹配对序列进行分类分配。生物信息学。2013;29:1858 - 64。

    中科院PubMedpmed中央文章谷歌学者

  56. 56.

    Ekstrom A,Yin Y. Orfanfinder:自动识别分类限制孤儿基因。生物信息学。2016; 32:2053-5。

    中科院PubMedpmed中央文章谷歌学者

  57. 57.

    García-López R, Vázquez-Castellanos JF, Moya A.病毒宏基因组组装片段和覆盖变异及其在多样性计算中的影响。Front Bioeng biotechnology . 2015;3:141。

    PubMedpmed中央文章谷歌学者

  58. 58.

    Guillou L,Bachar D,Audic S,Bass D,Berney C,Bittner L等。蛋白质核糖体参考数据库(PR2):单细胞真核生物小亚单位RRNA序列的目录,具有策划分类法。核酸RES。2013; 41(数据库问题):D597-604。

    中科院PubMedpmed中央谷歌学者

  59. 59。

    国际动物学委员会(ICZN)。国际动物学判断守则。第四届。伦敦:对动物学命名的国际信任;1999年。

    谷歌学者

  60. 60。

    Lapage SP, Sneath PHA, Lessel EF, Skerman VBD, Seeliger HPR, Clark WA,编辑。国际细菌命名规范:细菌学规范,1990年修订。华盛顿(DC): ASM出版社;1992.http://www.ncbi.nlm.nih.gov/books/nbk8817/.访问日期:2019年12月4日

  61. 61

    Turland N, Wiersema J, Barrie F, Greuter W, Hawksworth D, Herendeen P, et al.;藻类、真菌和植物的国际命名规则。Oberreifenberg: Koeltz植物学书籍;2018.https://doi.org/10.12705/code.2018

    谷歌学者

下载参考资料

确认

我们感谢蛋白质信息资源(PIR)的Darren Natale博士为改进我们的工作提出的宝贵建议;博士学位。来自联邦米纳斯吉拉斯大学(UFMG)的Marcele Laux借出美国样本,并支持本研究中显示的宏基因组学分析;致理学硕士。来自Minas Gerais联邦教育技术中心(CEFET-MG)的Edgar Lacerda de Aguiar对改进税收网络界面进行了测试并提出了几项建议;并感谢联邦米纳斯吉拉斯大学(UFMG)的卢卡斯·布莱彻博士修改手稿。

资金

Fapemig通过Pós-graduaçãoMEBIINFORMÁSTICAICB / UFMG,CAPES(Biologia Computacional)和CNPQ支持这项工作。没有一个融资机构在研究和收集,分析和解释的设计中发挥了任何作用,也没有在撰写稿件中的描述。

作者信息

从属关系

作者

贡献

TS实现了算法,开发了Web界面,执行了“应用程序案例”部分中描述的计算分析,并写了稿件。JMO监督整体研究并修订了稿件。这位作者都读到并批准了最终手稿。

相应的作者

对应到j·米格尔·奥特加

道德宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Sakamoto,T.,Ortega,J.M. Taxallnomy:延长NCBI分类,产生分层完整的分类树。欧宝娱乐合法吗22,388(2021)。https://doi.org/10.1186/s12859-021-04304-3

下载引用

关键词

  • 分类学
  • 分类等级
  • 分类谱系
  • 没有排名
  • 林奈体系