跳转到主要内容

Cognac:从大型细菌全基因组测序数据集中快速生成用于系统发育推断的连接基因比对

摘要

背景

基因组数据的数量正在以越来越快的速度增长。系统发育分析的工具,规模的可用数据的数量是必需的。为了满足这一需求,我们提出了cognac,一个用户友好的软件包,以快速生成连接基因比对系统发育分析。

结果

我们演示了cognac能够使用数据驱动的方法快速识别系统发育标记基因,并为非常大的基因组数据集高效地生成连接基因比对。为了对我们的工具进行基准测试,我们对8个独特的细菌属进行了核心基因比对,包括来自该属的超过11000个基因组的数据集埃斯克里希亚洲与1353个基因进行比对,在不到17小时内完成。

结论

我们证明科涅克白兰呈现出用于产生级联分析的级联基因对准的有效方法。我们已将Cognac释放为R包(https://github.com/rdcrawford/cognac),可自定义参数,以适应不同的应用程序。

背景

系统发育分析正在成为生物学研究的越来越积分,具有群体遗传学,分子生物学,结构生物学和流行病学的应用[1]。生成高质量的多序列比对(MSA)是稳健的系统发育推断的基础。MSA是许多生物学学科的基础工具,其目的是捕获相关生物序列残基之间的关系,从而促进了解序列比对中的进化或结构关系。

第一个结合基因序列来了解生物进化史的分析是11个样本果蝇黑胶基1983年的Adh等位基因[2]。从那时起,使用基因序列估计生物之​​间的进化关系越来越感兴趣。然而,很快观察到个体基因树通常不准确地估计物种树[3.]。这些不一致可能来自于构建树时的错误,或者来自于生物过程,如不完整的谱系排序、隐藏的病理和水平基因转移[4]。

减轻基因树和物种树之间不一致的一种方法是分析连接到一个表基因的多个位点上的多个基因,以产生更精确的系统发育[5,6,7,8,9]。这种方法更好地利用了使用多个基因的大量可用数据,从而大大增加了变异位点的数量,并最小化了可能与单个基因中包含的有限信息相关的随机误差[10]。这种推断物种树的方法在一系列模拟条件下也被证明是准确的,尽管生物过程可能对精确的系统发育推断构成挑战[11,12]。

对给定物种的一个或一组基因的预先选择是选择系统发育标记基因的常用策略。对于细菌来说,系统发育分析最常用的标记基因是16S rRNA基因[13]。该基因普遍存在于细菌和古痤疮,具有高度保守的和可变区域,这使其成为估计原核生物之间的进化关系的有用标记;然而,该基因缓慢地演变,通常导致物种内的少量变体位置。选择标记基因的策序方法,例如多基因座序列键入,扩大给定物质的标记基因的数量,并导致物种内的分辨率提高了[14]。然而,这种方法仍然有局限性,因为只有一小部分被管理的基因被选择用于特定的物种,这限制了它在未被研究的生物体上的应用。最近,这一概念被扩展到包括400个标记基因,这些标记基因通常存在于细菌和古细菌中,并被连接到一个表基因中,用于原核生物的系统发育分析[10]。虽然这些工具具有许多有用的应用,但依赖于有限数量的预定义基因可以限制给定数据集中包含的系统内源性信息标记的数量,这在需要最大化与区分密切相关分离株的最大化变化的情况下是重要的。

在这项工作中,我们呈现科涅克白兰地(核心基因对准级联),一种新的数据驱动方法和用于鉴定来自全基因组序列的系统发育标记基因的新型数据驱动方法和快速算法,并产生级联的基因比对,其缩小为大于11,000个细菌基因组的极大数据集。当处理具有极定不同基因组的数据集时,我们的方法是稳健的,并且能够产生与大量变体的对准,用于系统发育推理。

实现

Cognac的输入是GFF格式的Fasta文件和基因组注释,可以通过常用的程序获得,例如RAST,Prokka或Prodigal(图。1)[17,18,19]。首先,利用gff文件提供的坐标提取编码基因对应的序列,并翻译每个基因的核苷酸序列。为了鉴定系统发育标记基因,利用CD-HIT根据序列相似性和长度将氨基酸序列聚为同源基因簇[20.]。默认情况下,COGs至少定义为70%的氨基酸同源性,较长的序列的比对覆盖率至少为80%。

图1
图1

cognac算法概述。输入全基因组序列和基因注释,提取编码序列并翻译得到氨基酸序列。聚类氨基酸序列鉴定同源基因,并从数据集中提取单拷贝、核心基因。对于每个核心基因,唯一的等位基因被识别和对齐,对齐被解析为代表整个数据集的对齐序列。对齐然后被连接起来,为后续分析做好了准备

然后对CD-HIT输出文件进行解析,并选择数据集中的标记基因进行对齐[20.]。默认情况下,Cognac将核心基因识别给给定的基因组组;但是,选择标准是可定制的,以便在为各种应用程序创建对齐时允许灵活性。选择标记基因的默认选择标准是:1)存在于99%的基因组,2)中存在于99.5%基因组的单一拷贝中,并且3)确保基因序列中存在至少一个变体位置。允许某种程度的缺失允许在大型数据集中出现的装配错误。We also allow the user to input a minimum number of genes to be included, and a minimum fraction of genes which are allowed to be missing, as genomes that don’t share a sufficient number of phylogenetic markers may be problematic for some types of phylogenetic analysis and/or be indicative of problematic samples.

一旦标记基因被识别,每个基因的氨基酸序列的单个基因比对将通过MAFFT生成[21]。在对准之前,鉴定了每个基因的冗余序列,并且只有独特的等位基因对Mafft输入。特别地,对于通过CD-HET识别的每个基因,我们首先查找每个基因集群内的精确串匹配,并选择代表性的独特等位基因。独特的等位基因输入到MaFFT和氨基酸对准。然后解析输出基因对准,复制对应于每个重复等位基因的对齐序列,产生整个一组等位基因的对准。由于MSA是计算密集的,因此最小化对准的序列数有助于降低相关的计算开销,导致内存消耗和运行时间显着降低。

最后,将单个基因串联成一个序列,用于下游分析。然后将比对结果输入到常用的程序中生成系统发育树,如RaXML或FastTree,分别生成最大似然树或近似似然树。我们已经包含了在R包中直接生成邻接连接树的能力,以允许用户轻松地创建树。cognac非常适合为非常大的数据集生成对齐,在这些情况下,基于ML的方法的计算工作负载可能是不允许的,因此创建邻接连接树可能是一个很好的选择。邻居连接树是一种基于距离的方法,相对于基于ML的方法,它需要更少的计算开销。虽然ML方法可能产生更好的结果,但对于不需要高度精度的情况,提高速度可能是理想的。

另外,可以生成若干可选输出。我们通过将相应的密码子映射到氨基酸对准来提供功能以产生核苷酸对齐。我们在氨基酸对准中使用间隙放置以将相应的密码子与每个基因的核苷酸序列定位,产生密码子感知核苷酸取向。这具有增加对准中的变体位置的数量的增加的益处,这是同义替换的产物。这对最大化变化为键的应用可能是有用的。我们还提供用于解析对准的功能,包括:消除间隙位置,去除非变体位置,将对准分配到单个基因对准中,去除低质量对准位置和创建距离矩阵。

Cognac是为R版本4.0.2开发的。c++代码通过Rcpp包集成(版本1.0.3),并使用c++ 11标准编写[22]。多线程是通过RcppParallel在c++代码中启用的,它为英特尔Threading Building Blocks并行计算库使用的R对象提供包装类[23]。通过未来启用R功能的多线程.Apply包(版本1.3.0)[24]。通过APE R包(版本5.3)启用了用于分析系统发育树的功能。[25]。

结果

为了证明我们的工具的实用性,我们对来自8种临床相关细菌的27,529个基因组进行了属级核心基因比对(表1)1,附加文件1:表S1)。每个属中包含的基因组数量范围很广,从24个Pluralibacter到11639年埃斯克里希亚洲。干邑的运行需要至少1000个符合匹配的核心基因,以及缺失超过1%核心基因的基因组被移除。这是一个巨大的数据集,有可能不准确的物种分配或质量较差的集合,确保这些基因组不限制包含的核心基因的数量。此外,在我们的测试运行中,我们包括了生成核苷酸比对的可选步骤,从核苷酸比对创建一个成对的单核苷酸变异距离矩阵,并生成一个邻接连接树。

表1本研究分析的数据集和运行统计的描述

所有跑步都在不到一天的时间内完成,从三分钟到16小时和21分钟(表1)。随着基因组数量的增加,运行时间呈线性增长。2a).所有的运行,除了假单胞菌,产生MaFFT对准是总运行时间的最大部分(图。2b). CD-HIT步骤是运行时的最高分数假单胞菌由于基因组大小和该属,观察到的泛基因组多样性(表1)。

图2
图2.

即使对于非常大的数据集,Cognac也能够维持合理的运行时间,生成氨基酸比对,映射回核苷酸序列,创建距离矩阵,以及邻居连接树。a每个属的运行时间与分析中包含的基因组数量相对应。b逐步运行时的组成

为了评估通过只选择每个基因的独特等位基因而对齐的序列数量减少的幅度,这与计算效率的提高有关,我们计算了每个核心基因的独特等位基因的数量作为基因组数量的一部分(表1, 图。3.一种)。我们观察到所包括的基因数量与数据集中识别的独特等位基因之间的强度相反关系(图。3.b).作为基因组数量的一部分,克雷伯氏菌具有0.02%(n = 2)至6.07%(n = 600)的最低独特等位基因范围,中值为1.13%(n = 112)。Pluralibacter基因组数最少,独特等位基因比例最高,最大为79.9% (n = 19)。这大大减少了需要对齐的序列数量,使得cognac可以扩展到非常大的数据集。因为生物体在系谱上是有联系的,所以基因组中的序列不是独立的,共享一个共同的祖先。因此,增加额外的基因组并不一定会增加任何基因的独特等位基因的数量,而且所有的序列可能会被样本数量大幅减少的子集所代表。

图3
图3.

每个基因中独特等位基因的比例与数据集中基因组的数量成反比。一个作为基因组数目的一部分,每个核心基因的独特等位基因的分布。b每个基因的基因组数与独特等位基因中位数之间的关系

然后,我们想分析将氨基酸比对转化为核苷酸比对对于扩增序列多样性的影响。从氨基酸序列和核苷酸归一化到序列长度的所有基因组之间计算成对替换的原始数量(图。4)。这极大地扩展了比对中包含的遗传变异的数量,尽管对不同的数据集来说程度不同。这可能反映了非生物过程。例如,由于对每个属内的多样性进行非随机抽样,不同的数据集可能具有更多的多样性。此外,在不同的分类任务中,分离株之间的系统发育距离的大小可能不一致。尽管生物学因素也可能在观察到的遗传距离中起作用。例如,多样性最低的是在假单胞菌。发表的突变率大肠杆菌是的2。5倍吗P. eruginosa,这表明多样性的差异可能是这些生物体突变率的一个功能[26]。

图4
图4.

返回核苷酸序列的核苷酸序列扩增系统发育分析的变体的数量。成对距离基质由氨基酸和核苷酸取向的原料次数构建。直方图显示对准中每个位置的替换的分布。较浅的颜色代表氨基酸距离,较暗的颜色代表核苷酸距离

讨论

我们提出了一种快速鉴定超过1000个标记基因的方法,并产生能够处理各种细菌基因组的级联基因对齐。最近,我们使用该方法在家庭中生成52个基因组的核心基因组对齐和最大似然树拟杆菌门,说明了该工具在大系统发育距离上创建基因树的效用[27]。重要的是,系统发育信息标记基因是使用数据驱动的方法选择的,无需先验地了解输入基因组,这允许灵活地选择标记基因,适合于任何输入数据集。

我们的方法从根本上依赖于氨基酸序列比较。翻译提供了一种自然压缩算法,具有几个优点。首先,氨基酸序列具有相应核苷酸序列的长度的三分之一。由于输入序列的长度是MSA的计算复杂性的主要贡献者,但这种长度的减小显着提高了性能和可伸缩性[28,29]。另外,氨基酸序列相对于核苷酸序列具有更高的守恒程度[30.]。这使得我们能够利用密码子的冗余来更准确地识别同源基因,产生更准确的比对。这使得一种更可靠和快速的方法来识别和对齐同源基因,特别是当应用于系统发育多样性数据集时。

当执行计算密集型程序时,氨基酸序列有许多优点;然而,核苷酸比对在某些应用中可能更可取。为了解决这一问题,我们提供了一种可选的功能,将相应的密码子映射到氨基酸比对,以返回核苷酸比对。这可以极大地增加序列的变异包含在比对中,这可能是有用的应用,它是重要的,以区分密切相关的分离。此外,我们利用包含在氨基酸序列中的信息产生一个密码子感知比对。这使得基因序列中功能残基放置的准确性更高,并减少了核苷酸序列对齐时可能发生的密码子错配的可能性。

我们的算法的一个重要特点是,它只依赖于注释的整个基因组集合,这比将原始测序reads对齐到参考基因组的常用技术有几个优势。首先,关于文件的大小,程序集是包含原始排序数据的文件的一小部分。第二,干邑白兰地不需要选择参考基因组。参考基因组的不同选择已经被证明对输出比对的质量有很大的影响,潜在地放大了绘图错误的频率[31]。此外,即使在某种程度上,在考虑不同数据集时,映射精度严重损害。这限制了这种方法在不同的数据集中应用。最后,由于我们的方法依赖于组件,因此这使我们能够分析在不同平台上测序的基因组,从而允许增加样本大小。

基于组件的基于组件,用于估计基因组之间的基因组距离使用维数减少技术,例如K-MERS或MINHASH算法来估计基因组之间的距离[32,33]。这些方法具有以下优点:它们可以利用非编码区域作为额外变化的源;但是,数据的自然结构丢失了。我们的方法不仅允许估计分离物之间的遗传距离,而且还产生可用于下游应用的对齐。这具有利用对准鉴定重组基因的潜力,并且具有在分子演进中获得生物见解的可能性。

我们的算法能够扩展到非常大的数据集。对于11,639个大肠杆菌基因组的数据集,我们能够在不到17小时的时间内从一个核苷酸连接的基因比对中生成一个邻居连接树。这是通过两种方式减少MSA的计算开销来实现的:(1)翻译序列,有效地减少了它们的长度;(2)通过只对齐唯一的等位基因来减少序列的数量。对于非常大的数据集,这将导致需要对齐的序列数量减少约99%,从而大大提高了可伸缩性,并允许应用程序处理非常大的数据集。

结论

总之,干邑是一种稳健、快速的方法,用于生成可扩展到超大数据集的串联基因比对。我们的方法使用了一种数据驱动的方法来鉴定系统发育标记,这些标记被有效地对齐并连接成一个单一的对齐,用于下游系统发育分析。该管道是开源的,可以作为一个R包免费获得。我们期望我们的工具对于许多不同类型的分析通常是有用的,并将在广泛的应用程序中支持演进的洞察力。

可用性和要求

  • 项目名称:白兰地

  • 项目主页:欧宝直播官网apphttps://github.com/rdcrawford/cognac

  • 操作系统:在Linux上测试

  • 编程语言:R, c++

  • 其他要求:R 3.6或更高,CD-HET(版本4.7)和MAFFT(V7.310)。

  • 许可证:GNU通用公共许可证,版本2

  • 对非学术人士使用的任何限制:没有

可用性数据和材料

本研究的基因组从疾病系统资源整合中心(PATRIC)下载[34],并可从https://www.patricbrc.org/。从人类隔离的06/01/2020中可以提供的所有兴趣的可用基因组,并从Patric FTP服务器下载了良好质量的标准。通过Patic Genome注释服务中的核检验算法评估完整性,污染,粗级度和精细度量的质量[35,36]。本研究中使用的其他基因组是作为碳青霉菌耐药生物体纵向研究的一部分收集的,可从RefSeq的生物项目PRJNA603790和PRJNA690239获得[37]。用RAST产生所有基因组注释[17]。Cognac的源代码可以在下面找到https://github.com/rdcrawford/cognac。在基准测试中使用的脚本可以在下面找到https://github.com/rdcrawford/cognac_paper。另外,码头图像可用https://hub.docker.com/repository/docker/rdcrawford/cognac

缩写

MSA:

多序列比对

ML:

最大似然

参考

  1. 1.

    杨Z,rannala b.分子系统发育:原则和实践。NAT Rev Genet。2012; 13:303-14。

    CAS文章谷歌学者

  2. 2.

    乙醇脱氢酶位点的核苷酸多态性果蝇黑胶基。大自然。1983;304:412-7。

    CAS文章谷歌学者

  3. 3.

    爱德华兹SV。是一种新的和一般的分子系统学理论出现?进化。2009; 63:1-19。

    CAS文章谷歌学者

  4. 4.

    系统基因组分析中不一致性的处理。中国生物医学工程学报,2008;

    文章谷歌学者

  5. 5.

    Rokas A.动物进化和分子标记的辐射压缩在时间。科学。2005;310:1933-8。

    文章谷歌学者

  6. 6.

    Ciccarelli FD。朝向自动重建高度分解的生命之树。科学。2006;311:1283-7。

    CAS文章谷歌学者

  7. 7.

    双侧动物的多基因分析证实了双侧动物的单系性Ecdysozoa,Lophotrochozoa,protostomia。生物学报,2005,22:1246 - 53。

    CAS文章谷歌学者

  8. 8.

    朱琦等。10,575个基因组的系统基因组学揭示了细菌和古细菌之间的进化相似性。Nat Commun。2019;10:5477。

    CAS文章谷歌学者

  9. 9.

    Olmstead RG, Sweere JA。系统发育系统学数据的结合:利用茄科三个分子数据集的经验方法。系统医学杂志。1994;43:15。

    文章谷歌学者

  10. 10.

    Leigh JW,Susko E,Baumgartner M,Roger AJ。在系统核算科学分析中测试一致性。系统中的生物学。2008; 57:104-15。

    文章谷歌学者

  11. 11.

    Tonini J,Moore A,Stern D,Shcheglovitova M,OrtíG。倾斜和物种树方法在一系列模拟条件下表现出统计学上无法区分的准确性。Plos Curr。7(2015)。

  12. 12.

    基于多基因序列树的物种系统发育研究。中国生物医学工程学报,2005;

    CAS文章谷歌学者

  13. 13.

    微生物系统发育与多样性:小亚基核糖体RNA序列分析等。Microbiol杂志2011;166:99 - 110。

    CAS文章谷歌学者

  14. 14.

    Maiden Mcj等人。多焦序列键入:一种便携式方法,用于鉴定病原微生物群体内的克隆。Proc Natl Acad Sci U S A. 1998; 95:3140-5。

    CAS文章谷歌学者

  15. 15.

    系统phlan是一种改进微生物系统发育和分类定位的新方法。Nat Commun。2013;4:2304。

    文章谷歌学者

  16. 16.

    Page AJ等人。植物:快速大规模原核生锅基因组分析。生物信息学。2015; 31:3691-3。

    CAS文章谷歌学者

  17. 17.

    Aziz RK等人。RAST服务器:使用子系统技术的快速注释。BMC基因组学。2008; 9:75。

    文章谷歌学者

  18. 18.

    原核快速基因组注释。生物信息学,2014,30:2068 - 9。

    CAS文章谷歌学者

  19. 19.

    凯悦D等人。浪费:原核基因识别和翻译起始位点鉴定。欧宝娱乐合法吗BMC生物信息学。2010; 11:119。

    文章谷歌学者

  20. 20.

    关键词:CD-HIT,新一代测序数据,聚类生物信息学。2012;28:3150-2。

    CAS文章谷歌学者

  21. 21.

    Katoh K,Standley DM。Mafft多序列对齐软件版本7:性能和可用性的提高。mol Biol Evol。2013; 30:772-80。

    CAS文章谷歌学者

  22. 22.

    Rcpp:无缝的R和c++集成。统计软件2011;40:1-18。

    谷歌学者

  23. 23.

    Robison广告英特尔®线程构建块(TBB)。在:Padua D,编辑器。平行计算百科全书。纽约:斯普林克;2011. p。955-64。https://doi.org/10.1007/978-0-387-09766-4_51

    谷歌学者

  24. 24.

    Bengtsson H,R核心团队。Future.Apply:使用期货并行应用于元素的功能。2020。

  25. 25.

    R语言的系统发育与进化分析。生物信息学。2004;20:289 - 90。

    CAS文章谷歌学者

  26. 26.

    Dettman Jr,Sztepanacz JL,卡森R.机会主义病原体中自发突变的性质铜绿假单胞菌。BMC基因组学2016;17。

  27. 27.

    porter nt等人。相变囊状多糖和脂蛋白改性噬菌体易感性叫多形拟杆菌。Nat Microbiol。2020;5:1170 - 81。

    CAS文章谷歌学者

  28. 28.

    Katoh K, Rozewicki J, Yamada KD。MAFFT在线服务:多序列比对、交互式序列选择和可视化。短暂的Bioinform。2019;20:1160-6。

    CAS文章谷歌学者

  29. 29.

    王磊,姜涛。多序列比对的复杂性。计算机生物学。1994;1:37 37 - 48。

    CAS文章谷歌学者

  30. 30.

    Koonin Ev,Galperin我的。序列原理和方法。分析序列 - 进化 - 功能:比较基因组学中的计算方法。DONDRECHT:KLLWER学术;2003年。

    谷歌学者

  31. 31.

    布什SJ等人。基因组多样性影响细菌单核苷酸多态性呼叫管道的准确性。傻瓜。2020; 9:007。

    文章谷歌学者

  32. 32.

    Lees JA等。快速和灵活的细菌基因组流行病学与PopPUNK。基因组研究》2019;29:304-16。

    CAS文章谷歌学者

  33. 33.

    Ondov BD等。Mash:使用MinHash快速估计基因组和元基因组的距离。基因组医学杂志。2016;17:132。

    文章谷歌学者

  34. 34.

    吉莱斯皮JJ等。PATRIC:以人类病原物种为重点的全面的细菌生物信息资源。感染Immun。2011;79:4286 - 98。

    CAS文章谷歌学者

  35. 35.

    park DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW。CheckM:评估从分离株、单细胞和宏基因组中恢复的微生物基因组的质量。基因组研究》2015;25:1043-55。

    CAS文章谷歌学者

  36. 36.

    Parrello B等人。一种基于机器学习的服务,用于使用Patric估算基因组质量。欧宝娱乐合法吗BMC生物信息学。2019; 20:486。

    文章谷歌学者

  37. 37.

    Hayden Mk等人。预防殖民化和感染Klebsiella肺炎碳结豆蔻酶生产肠杆菌科在长期急救医院Clin Infect Dis Off public Infect Dis Soc Am. 2015; 60:1153-61。

    文章谷歌学者

下载参考

确认

我们要感谢Zena Lapp、Katie sund和Stephen Smith,感谢他们对cognac算法的实现进行的非常有帮助的讨论,并帮助编辑手稿。

资金

RDC得到了密歇根大学生物信息学培训基金(T32 GM070449)的支持。ESS得到NIH RO1 (1R01AI148259-01)的支持。

作者信息

从属关系

作者

贡献

RDC领导实施和标杆,并撰写稿件。ESS监督了算法的发展。两位作者都已阅读并批准了原稿。

相应的作者

对应于埃文·s . Snitkin

道德声明

伦理批准并同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者声明没有竞争利益。

附加信息

出版商的注意

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

补充信息

额外的文件1:

本研究中使用的基因组。本手稿中使用的基因组序列的相关元数据。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。“创作共用公共领域”豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

Crawford, r.d., Snitkin, E.S. cognac:从大型细菌全基因组测序数据集中快速生成用于系统发育推断的连接基因比对。欧宝娱乐合法吗22日,70(2021)。https://doi.org/10.1186/s12859-021-03981-4

下载引用

关键词

  • 连接基因树
  • 核心基因组
  • 多序列比对
  • 系统发育学报
\