跳过主要内容

Copla,一个分类学classifierof解放军萧述三

抽象的

背景

质粒是可移动的遗传元件,在细菌中传播抗生素耐药性、毒力决定因素和其他适应性特征的关键。为了更好地了解许多病原体的遗传学和流行病学,有必要获得一种可靠的质粒分类方法。到目前为止,质粒分类系统主要集中在特定的性状上,这限制了它们的精确性和普遍性。质粒分类单位(PTU)的定义基于平均核苷酸身份度量,允许生成适用于所有细菌分类群的通用质粒分类方案。在这里,我们介绍了COPLA,一种能够根据已知和新PTU的基因组序列将质粒分配给它们的软件。

结果

我们实现了一个自动管道能够给定的质粒DNA序列分配给它的同源PTU,并使用1000个非保密质粒的样品评价其性能。总体而言,样品的41%的可分配给之前定义的PTU,一个数字,是公知的类群达到63%,如entobacterales.秩序。剩余的质粒代表了新的PTUs,这表明有很大一部分质粒骨干仍然没有特征。

结论

COPLA是一个通用的生物信息学工具,物种独立,质粒分类。作为一种可自动化的流水线和开放的网络服务,COPLA将帮助细菌遗传学家和临床微生物学家快速对质粒进行分类。

背景

质粒是在细菌群体中传播基因如抗生素抗性决定簇的基本元素。细菌基因组(如流行病学爆发)的短程演变更常见地通过获取携带的移动遗传元素,例如抗性决定因素,而不是通过点突变产生具有选择性优势的新等位基因[1].因此,获得质粒分析和分类的可靠方法是临床微生物学的关键。几种基于共轭的方法[23.]和复制基因[4.]提出了质粒分类方法。然而,这些方法都没有普遍的应用,因为没有一种蛋白是所有质粒所共有的。最近,我们报道了一种克服这些限制的方法,实现了质粒的通用分类[5.].利用总平均核苷酸身份(ANI),我们发现质粒形成定义了PTUs(质粒分类单位),在遗传上等同于质粒物种。这些ptu具有特定的宿主范围,通常含有特定的遗传决定因素,如毒性因子或抗生素抗性基因。这为通过基因组测序更好地跟踪质粒在细菌种群中的繁殖打开了可能性。在这里,我们提供了一种基于基因组序列的质粒自动分配到ptu的算法,这将有助于定义导致抗生素耐药菌株爆发的质粒物种[6.].

执行

构建PTU参考目录

我们的方法基于两步战略。首先,建立了基于RefSeq84质粒序列的PTU参考目录。通过将查询序列与该参考目录进行比较,COPLA将分配其同源PTU。为了生成参考目录,根据所有策划的RefSeq84质粒(NCBI,2017年9月的数据集)的成对比较构建ANI网络,详情见[5.].为了构建该网络,以质粒基因组为节点,计算它们的配对ANI。任何一对节点,只要在比较中沿着最小质粒长度的50%显示ANI评分高于70%,就与一条边相连。然后使用分层随机块建模(HSBM)识别网络中的集群,这允许推断图拓扑信息的统计重要性[7.].HSBM具有固有的局限性,当它发现小于中值尺寸大得多的集群。其显示给簇与簇大小高度变异性分裂成平均大小的集群,特别是在网络中的内在倾向。这个子程序没有生物逻辑,至少对于质粒聚类,因此它需要被调谐下来,正如我们在已经讨论的[5.].COPLA遵循相同的策略,因此最终通过合并满足以下标准的HSBM集群来定义PTU:

  1. 1。

    Intercluster密度:两个HSBM集群(CD)被合并如果群集间边缘的数量(CD)是两个群集,调整后的簇内相对密度之间的边的最大数目的50%以上。在数学方面:

    $$ M_ {C,d}> \压裂{1} {2} N_ {C} {N_ d} \ delta_ {C} ^ {INT} \ {delta_} d ^ {INT} $$

    存在n和δint各自簇的顶点数和簇内边缘密度。

  2. 2。

    大小的兼容性:如果两个HSBM簇的质粒中值大小较小,则该簇的质粒中值大小合并(C)大于较大集群中位数大小的50% (D):

    $$ \代字号{S} _ {C}> \压裂{1} {2} \代字号{S} _ {d} $$

如此定义,我们在REFSEQ84质粒中鉴定了380 ptus。用于构建参考网络的质粒的完整列表及其对PTU的分配在附加文件中1.参考网络将定期更新,警示牌将显示在解放军网页上。

PTU预测算法(COPLA)

一旦引用网络和PTU目录建成,我们实现的算法,系统地分配任何查询质粒序列与其同源PTU。查询质粒既可以用作输入到算法作为一个完整的基因组中,或作为一组的质粒的重叠群。查询和基准网络中的每个节点之间的成对ANI分数计算为(2)。查询节点然后在网络中由边缘引入,连接至其它节点的ANI准则被满足时。查询节点被重新运行HSBM算法分配PTU。然而,这个过程是计算密集型的。为了减少计算时间,COPLA需要使用的HSBM算法细化原始分区引导过程的优点。相反从头算分配开始的,COPLA安全地假定另外一个质粒节点10000质粒网络是不太可能改变原来的分区。也就是说,引入了新的质粒不会改变PTU分配的质粒的网络中的其余部分。因此,COPLA算法重用原始分区,并且执行在以前定义的块中的质粒的迭代改组,使用蒙特卡罗算法。 The query plasmid is included in the reshuffling. In order to identify the most likely allocation of plasmids in the partition, the algorithm proceeds iteratively by minimizing the Minimum Description Length (MDL) of the graph [7.].由于引入新查询,不应通过上述定义更改对质粒的其余部分的PTU分配,因此查询的最可能分配是最小化MDL的分配。一旦达到了此最小值,通过应用先前定义的群集和群集间标准,将集群变为PTU。然后,大多数表决程序将根据其成员承载的参考标签来标记PTU。将PTU分配到查询的分数基于分区重叠[8.]之间的所有数据库质粒与属于查询集群的带注释的PTU。得分表明由于包含查询,群集发生了多少变化。COPLA还检索其他有用信息,如查询质粒的MOB、MPF和Rep类型。这是通过从序列注释中检索CDS来实现的,或者如果没有使用Prodigal来检测它们[9.].然后CDS中搜索MOB,MPF和众议员类型使用MOBSscan [2],连体扫描[3.]及质粒查找器[4.]分别为。这允许用户检查查询是否具有与同一PTU中的其他成员兼容的键入方案。查询质粒的抗微生物耐药性(AMR)基因也通过blastn搜索进行鉴定(> 80%的身份< 1e−20个电子值)与卡数据库进行对比[10.].

结果

COPLA的性能通过进行两个补充验证测试来进行基准测试。首先,为了评估COPLA的准确性,我们从筛选的参考数据库(RefSeq84)中的9894质粒中随机移除1000个质粒。使用这些质粒作为查询运行COPLA。结果汇总如表所示1,而个人输出和分数显示在附加文件中2.可以观察到,COPLA在测试集中正确分配了94%的质粒。错误的主要来源是属于低簇内密度的ptu的质粒分配(由于存在亚簇,如PTU-F中发生的ptu)E或PTU-FK),因为聚类算法对这些聚类的组成成员的变化特别敏感,正如预期的那样。即使有这样的警告,COPLA也只有6%的情况下失败,所以它可以被认为是可靠的,准确的,与实际情况一致的。其次,为了评估COPLA预测的可信度,我们在RefSeq84发布后随机选择1000个上传到NCBI的质粒(见表)2),并以这些质粒中的每一个作为查询运行COPLA。下载RefSeq200 release(23309质粒序列),去除RefSeq84中已经存在的质粒序列,得到测试集。添加了第二个过滤步骤,以消除与基因组区域(NCBI标记中的ng_序列)对应的序列和不完整序列,从而消除额外的301个序列。额外的文件3.列出除去的质粒及其排除的理由。过滤步骤后,获得一组12561个新质粒,从中随机选择1000个评价COPLA。

表1一套1000个质粒的COPLA准确度
表2为基准数据集RefSeq200为最丰富的细菌订单1000个新质粒

查询质粒在使用PTU预测算法COPLA时产生三种可选结果之一,如上文所述(见附加文件)4.单个结果):

  1. 1。

    该查询分配给现有PTU。这发生在408案件,表示正分配的整体的41%在测试集合。该图是在的情况下增加至63%(259出来的409个查询质粒)Enterobacterales。鉴定率的增加是预期的,因为细菌基因组比其他征草更彻底地抽样。当存在正PTU分配时,COPLA与预测的分数一起检索查询的PTU。

  2. 2。

    质粒可以在参考数据集中簇小于3个质粒,因此可以分配不分配PTU。在这种情况下,COPLA表示该参考网络中没有PTU分配。

  3. 3.

    的质粒序列簇成一组的3点或更多的质粒没有先前分配的PTU。这可能发生,因为簇的情况下,所得到的PTU具有至少4点成员的质粒仅命名。因此,除了该查询的可能形成,其对应于一个潜在的新PTU 4元组。在测试组,这发生在41个场合(时刻的4%)。在这种情况下COPLA表明质粒是一种新的,尚未命名,PTU的一部分。

根据分数输出~ 测试集中88%的查询获得了预测分数 > 99%(见图。1).具有较低分数的质粒可以代表不同的PTU或来自NGS数据的不正确的组合之间的结合,这通常是质粒的问题[11.].有时可以通过观察同一个查询中两个不同的MOB类来识别cointegration,但情况并非总是如此。此外,非移动质粒无法进行MOB分型。基于这些原因,我们推荐至少90%的分数,以验证PTU作业。90%的得分表明,对于10个成员的PTU,查询对于聚类1的成员有冲突数据。采用这个90%的评分阈值,COPLA自信地分配了1000个样本中的93%。

图。1
图1

从RefSeq200中取样的1000个质粒的得分分布,在COPLA参考数据库中不存在(RefSeq84)。该图显示了导致每个给定分数的质粒数量的半对数图

讨论

通过查看给定查询的替代结果可以更好地理解Copla的结果,这在图2中示出。2.第一结果,即查询对已经存在于网络中的PTU的分配是微不足道的,并且在图中的情况下示出。在图1,2和6中示出了第二结果,其中没有PTU被分配给查询。2.在情况1中,查询表示单(独特的质粒架构参考集中之前从未取样)。在情况2中,查询链接到与其他小于3点的质粒的集群。例1和2表明,查询代表了一种新的PTU成员,但归因于它的基因组的数量仍然过低命名具有统计学意义的PTU。当质粒被链接直接或间接地以公知的PTU壳体6的发生,但连接的数目或者不足够以满足集群间密度,或质粒的大小是不均匀的。这可以用于携带整合子,转座子或其他可移动的遗传元件,其尺寸大,比给定的质粒的大小质粒发生。质粒共整合体(无论是实际共整合体或序列组件的伪像)也可以产生类似的结果。在所有这些情况下,COPLA输出表示没有PTU可以被分配给查询。

图2
图2.

具有代表性的预测结果。查询质点由带有红色内圈的节点表示。对于所有其他节点,内圈的颜色表示在参考数据库中分配的PTU(即仅使用RefSeq84质粒)。外圈颜色代表COPLA分配的PTU。黄色表示分配给查询的PTU,绿色表示属于不同PTU的节点,灰色表示未分配的PTU。案例1:查询表示一个单例。案例2:查询属于具有一个或两个成员的集群。无法分配PTU。案例3:查询属于具有三个成员的集群。COPLA预测“新的假定PTU”。案例4:查询将分离的质粒链接在一起以组织一个由4个成员组成的集群。COPLA预测“新的假定PTU”。案例5:查询与已知PTU的成员聚集在一起。COPLA预测该查询属于该PTU。案例6:查询外围链接到与已知PTU对应的集群。但是,连接的数量不足以满足集群间密度规则,或者查询的大小与PTU的大小不兼容(请参阅实现中的“构建PTU参考目录”)。COPLA输出表明无法将PTU分配给查询。案例7:查询外围链接到与已知PTU对应的集群。该查询组织了一个由四个成员组成的子集群,这些成员不符合要集成到PTU中的规则。COPLA输出预测“新的假定PTU”。案例8:与案例7一样,查询组织不符合规则的子集群集成到PTU中。此外,它还将PTU的一个成员拖到新集群。COPLA输出预测“新的假定PTU”。案例9:查询显著改变了已知PTU的结构。COPLA输出预测“新的假定PTU”。它还警告说“查询与PTU-…质粒有关”。参见正文(讨论)中的其他详细信息和说明

第三个结果,即,将查询赋值到之前未定义的PTU,可能以多种方式发生,如图3、4、7、8和9所示。2.该查询可被分配给一个集群具有至少3名不具有所述参考网络中的PTU分配(例3和4)的其他成员。在这些情况下,COPLA输出表明一个新的潜在PTU已经确定了查询。The query may also cluster with > 4 plasmids which showed links to existing PTUs, but there was no PTU assignment for all (case 7) or most of them (case 8). These cases, specially case 8, must be examined carefully. Often, this kind of result is produced by the clustering artifacts produced by large mobile genetic elements or when the query is in fact a cointegrate of two different plasmids. In these cases, it may help to examine the additional information of the COPLA output, such as the MOB, MPF and Rep types. If present, they should coincide with those of the proposed members of the new PTU.

最复杂的案例是9,其中添加新的查询“中断”现有P​​TU,产生了一个新的统计上有效的组。在我们测试的1000个质粒的经验中,这只发生在PTU-F的情况下E中,PTU包括大肠杆菌质粒F.据报道在我们前面的分析,PTU-FE是有争议的5.].它显示出群集之间的边缘密度,各种“新生”的子群可能在其中被识别出来[5.]. 因此,任何与PTU-F成员形成新PTU的查询质粒E必须谨慎分析。最保守的假设是假设查询属于较大的PTU (PTU- f)E但建议进行进一步的基因组比较,以确定COPLA确定的分区是否显著,并可以确定具有一致基因组的亚群。后一种情况可能代表物种形成过程中的一组质粒,重组率越来越低,导致图中不同亚种的逐渐分离[5.].

在所有情况下,新PTU的鉴定应在进一步的基因组检查和鉴定之后进行。COPLA为PTU的查询分配进行了优化,这是研究人员携带可能包含非类型质粒的新基因组序列最常见的情况。然而,通过同时添加许多新序列和从头开始执行HSBM程序,可以更好地实现新ptu的鲁棒定义,这可能需要几天的计算,而在生物信息学分析中则需要更长的时间。由于这个原因,当使用引用网络时,COPLA可能会生成非类型化的查询质粒,但当使用更大的引用集时,则健壮地键入它。目前,近60%的查询质粒无法分型,因为它们在参考集中缺乏足够数量的相似基因组来构成PTU。这表明,在数据库中鉴定的细菌质粒数量仍然是真正PTU多样性的一小部分。然而,随着每个新的RefSeq版本中数据库的丰富,COPLA的预测能力有望增加。这将通过定期更新参考数据库来实现,参考数据库将引用它所对应的RefSeq版本。

结论

COPLA是一种旨在严格的质粒分类的工具,基于PTU的概念。它对非专家对质粒生物学各方面感兴趣的。使用得分阈值> 90%,Copla确信地评估> 93%的质粒不包含在参考数据库中。用于质粒entobacterales.顺序,COPLA达到63%阳性质粒分配的到当前定义PTU的一个速率,而对于整个细菌域,它达到41%。为了促进它的广泛使用,COPLA被部署为免费访问网络服务,不仅提供与查询质粒的PTU分配的用户,而且其潜在的宿主范围,相关的分类信息,如MOB类,潜在的家庭(MPF型),和预测的抗生素抗性基因。

可用性数据和材料

项目名称:COPLA。项目主页:Web欧宝直播官网app service:https://castillo.dicom.unican.es/copla;公共代码库:https://github.com/santirdnd/copla..操作系统:UNIX,Web服务。编程语言:Python,Bash,Perl。其他要求:BLAST + 2.9.0或更高,PROGIGAL V2.6.3或更高,HMMER V3.3或更高,质粒耐敷料2.1或更高,MACSFINDER 1.0.5或更高,图形工具2.33或更高,GNU并行20161222或更高,ani.rb(从https://github.com/lmrodriguezr/enveomics.).许可:GPLv3。对非学者使用的任何限制:没有。本研究分析的数据集来自NCBI RefSeq Plasmid数据库,发布版本84和200 (ftp://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/).包含在这两个版本的质粒的登录号列在目前的研究中所用的其他文件1和3的数据库可供COPLA数据库存储库中,https://castillo.dicom.unican.es/zaguan/Copla/Copla_databases_RS84.tar.这些数据库来源于以下公共领域资源:https://castillo.dicom.unican.es/mobscan_about.); 强积金打字资料库(https://github.com/gem-pasteur/Macsyfinder_models,于2019-05-30下载);综合抗生素耐药性数据库(CARD)数据库版本3.1.0(https://card.mcmaster.ca/download,下载了2020年10月15日);在PlasmidFinder复制数据库(https://bitbucket.org/genomicepidemiology/plasmidfinder_db.git,在2019-07-31下载)。

缩写

PTU:

质粒分类单位

脱氧核糖核酸:

脱氧核糖核酸

ANI:

平均核苷酸身份

HSBM:

分层随机块建模

cd:

编码序列

强积金:

交配对形成

AMR:

抗菌素耐药性基因

MDL:

最小描述长度

子:

开放阅读框架

参考文献

  1. 1。

    Touchon男,佩兰A,德索萨JAM,Vangchhia B,烧伤S,奥布莱恩CL,等人。系统发育背景和栖息地驱动的遗传多样化大肠杆菌.公共科学图书馆麝猫。2020;16 (6):e1008866。

    文章中科院谷歌学术

  2. 2。

    Garcillán-Barcia MP,Redondo-Salvo S,Vielva L,De La Cruz F. Mobscan:Mob Selaxase的自动注释。IN:De La Cruz F,编辑。水平基因转移:方法和协议。分子生物学的方法。纽约:斯普林克;2020. p。295-308。https://doi.org/10.1007/978-1-4939-9877-7_21

    章节谷歌学术

  3. 3.

    Abby SS, Cury J, Guglielmini J, Néron B, Touchon M, Rocha EPC。细菌基因组中蛋白质分泌系统的鉴定。2016年Sci众议员。https://doi.org/10.1038/srep23080

    文章PubMedpmed中央谷歌学术

  4. 4.

    Carattoli A, Zankari E, García-Fernández A, Larsen MV, Lund O, Villa L, et al.;在质粒的硅质检测和分型中使用质粒发现者和质粒多位点序列分型。2014;58(7): 3895-903。

    文章中科院谷歌学术

  5. 5.

    Redondo-Salvo S,Fernández-Lópezr,ruiz r,vielva l,deoro m,rocha epc等。通过质粒的全球地图显示细菌中水平基因转移的途径。NAT Communce。2020; 11(1):3602。

    文章中科院谷歌学术

  6. 6。

    米勒EA,Elnekave E,布鲁姆-Figueroa的C,约翰逊A,卡尼A,Munoz的-阿瓜约J,等。一种新颖的出现沙门氏菌血清血清型阅读克隆组链接到其在商业土耳其扩大生产,导致北美意料之外的人类疾病。MSphere。2020; 5(2):e00056。

    文章中科院谷歌学术

  7. 7。

    Peixoto TP。贝叶斯随机blockmodeling。在:Doreian P, Batagelj V, Ferligo A,编辑。网络聚类和块建模的进展。威利:纽约;2019.p . 289 - 332。https://doi.org/10.1002/9781119483298.ch11

  8. 8。

    Peixoto TP。揭示网络分区之间的共识和分歧。中国科学(d辑:地球科学);https://doi.org/10.1103/PhysRevX.11.021003

  9. 9。

    凯悦d,陈G-L,LoCascio PF,土地ML,拉里默FW,豪瑟LJ。浪子:原核生物基因识别和翻译起始位点的识别。BMC生物素。2010; 11(1):119。

    文章中科院谷歌学术

  10. 10.

    阿尔科克BP,Raphenya AR,刘TTY,曾KK,Bouchard的男,Edalatmand A,等人。CARD 2020:抗生素resistome监控与全面的抗生素耐药性数据库。核酸RES。2020; 48(D1):D517-25。

    中科院谷歌学术

  11. 11.

    阿雷东多 - 阿隆索S,威廉姆斯RJ,面包车范斯海克W,Schürch交流。上重建从全基因组短读测序数据质粒(IM)的可能性。微型B GENOM。2017年。https://doi.org/10.1099/mgen.0.000128

    文章PubMedpmed中央谷歌学术

下载参考

确认

不适用。

资金

这项工作是由科学和创新[PID2020-117923GB-I00到FDLC]西班牙教育部的支持;经济,工业和竞争力的西班牙外交部[DI-17-09164至SR-S]。和美国疾病控制中心和预防[200-2019-06679到FDLC]。该资助者在研究的设计没有任何作用,也没有收集,分析和解释数据中,也没有以书面形式包含在本稿件。

作者信息

从属关系

作者

贡献

所有作者参与了管道的设计。SR-S,RB-P和LV开发工具,SR-S和FDLC分析和解释结果。SR-S,KT,HW,RF-L和FDLC参与编写草案,阅读和批准终稿。所有作者都已经阅读并赞成最终的手稿。

相应的作者

通信费尔南多·德拉·克鲁兹

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1。

参考质粒名单。来自NCBI的RefSeq数据库质粒释放84质粒的完整列表用于构建参考网络及其分配到PTU的,电流COPLA参考数据库。

附加文件2。

从参考数据集随机移除1000个质粒的COPLA算法(REFSEQ84)的精度。Excel文件的列显示了1000个查询质粒中的每一个的地面真理,预测的PTU分配,关联的主机范围和预测得分。

额外的文件3。

Refseq200质粒数据集。来自NCBI Refseq质粒数据库的第200次的质粒的完整列表。该数据集是用于评估COPLA性能的质粒的来源。

附加文件4。

RefSeq200数据集1000个新质粒的基准。随机选取1000个目前COPLA参考数据库中不存在的质粒,对COPLA的PTU、宿主范围和预测得分进行预测。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Redondo-Salvo, S. Bartomeus-Peñalver, R. Vielva, L.等等。Copla,一个分类学classifierof解放军斯密兹。欧宝娱乐合法吗22,390(2021)。https://doi.org/10.1186/s12859-021-04299-x

下载引用

关键词

  • 水平基因转移
  • 质粒
  • 抗生素抗性基因
  • 平均核苷酸身份
  • 质粒流行病学