跳到主要内容

自动访问归档质体基因组的反向重复序列

摘要

背景

在大多数开花植物中,质体基因组表现为四分基因组结构,包括一个大的和一个小的单拷贝以及两个反向重复区域。近年来,已有数千个质体基因组被测序并提交到公共序列库。在这些提交中,序列注释的质量众所周知是有问题的,特别是关于指定反向重复的长度和位置的注释:这些注释要么缺失,要么描述重复的长度或位置不正确。然而,许多生物学研究采用公开可用的质体基因组表面价值,并隐含地假定其序列注释的正确性。

结果

我们介绍airpg,一个Python包,自动评估公开的质体基因组中反向重复的不完整或不正确注释的频率。具体而言,该工具在可变搜索参数下自动从NCBI核苷酸中检索质体基因组,调查它们的反向重复的长度和位置规范,并通过基因组序列的自我比较确认任何反向重复注释。该软件包还包括自动识别和删除重复基因组记录的功能,并说明真正缺乏反向重复的分类群。一项关于2020年底前提交给NCBI核苷酸的所有开花植物质体基因组中存在反向重复注释的调查,使用airpg,然后对与记录元数据的潜在关联进行统计分析,强调基因组记录的发布年份和发布状态对完整和等长反向重复注释的频率有显著影响。

结论

近年来,NCBI核苷酸的塑性基因组的数量急剧增加,并且可能在未来十年内提交更多基因组。airpg使研究人员能够自动访问和评估这些塑性基因组的倒置重复以及它们的序列注释,从而有助于增加公开可用的塑性基因组的可靠性。该软件通过Python包索引自由使用http://pypi.python.org/pypi/airpg

背景

质体基因组是所有植物细胞共有的三个基因组之一。在开花植物中,质体基因组的结构是相对保守的,其特征是一个长度约为15-25 kb的片段的复制和反向互补重插入,导致一个不平等的四部分基因组结构[1].因此,开花植物的典型质体基因组包括一个大(LSC)区域和一个小的单拷贝(SSC)区域,由两个相同的反向重复序列(IRs)分开[2].每个质体基因组的两个IR副本(即,文本\({\{红外}}_ {\ mathrm{一}}\)\({\文本{IR}} _ {\ mathrm {B}} \))已经被发现在大多数开花植物谱系中每个基因组显示相同的长度和序列[1和进化时间[3.].在大多数光自养陆生植物质体基因组中编码的约120-130个基因中,9-19个通常位于IRs中,因此重复[4.].质体基因组IRs之间的长度和序列相等可能是通过重组依赖复制或重复介导重组的相关形式频繁的序列均质化的结果,这种重复介导重组可能在质体分子内部和跨质体分子中起作用[5.].每个质体细胞器包括质体基因组的多个副本以及DNA修复和重组机制,其中包含酶的手段和充足的模板,以恢复原始序列,如果发生突变[6.].一些研究表明,基因转换和复制校正机制都在IRs上持续运行[7.].在基因水平上,如果人为引入突变,这种序列均质化表现出基因快速转化的效果[8.]也有助于维持跨进化时间的小逆转和次级DNA结构[9.].单拷贝(SC)和质体基因组的IR区域之间的核苷酸替换的微分率很可能这个均质化过程的另一表现形式[1].除了少数例外[10.]中,IR的两个副本之间的非同一性的任何观察,比序列均质突然经过测序或注释误差。因此,更可能的结果。通过Dempewolf等人提出的质体基因组。[11.例如,显示了未注释IRs之间的核苷酸多态性,并代表了许多情况中的一种,即含有不相同IRs或不完整IR注释的质体基因组提交到公共序列数据库,而没有突出观察到的差异[12.].在完整和正确的质体基因组中,IR等式的期望也体现在各种质体可视化软件工具中。OGDraw软件[13.例如,在绘制完整质体基因组时,当确定IRs在基因组中的位置时,采用了精确的字符串匹配,并将包含核苷酸多态性的序列区域排除在可能的IRs考虑之外。类似地,软件Chloroplot [12.]在塑性基因组中的IR平等的假设下经营,并明确地突出了发现不相同的IRS之间的差异。通过相同的逻辑,体积基因组的IRS之间的长度和序列的平等可以用作基因组的序列和组装质量的量度[14.].了解质体基因组中IRs的确切长度和位置,对于探索IR区域的生物学意义,以及维持这些基因组四方结构的遗传和进化机制,也是必要的。因此,在公共序列库中存储的质体基因组应该包含完整且正确的IR长度和位置注释[15.].

质体基因组的比较分析已经成为植物研究的常用工具,并在最近几年促进了数千个这样的基因组的测序。目前的质体基因组研究是对每项研究中的数百个(如果不是数千个)完整质体基因组进行测序和分析[16.1718].已提交到公共序列库(如NCBI Nucleotide (https://www.ncbi.nlm.nih.gov/nucerotide/)有,因此,极大地在过去几年里增加了[19].到2020年底,有开花存储在NCBI核苷酸的植物,其中9483个是独特的基因组记录的14716分完整的质体基因组。此大集合质体基因组的打开门探索植物进化的根本问题,代表了宝贵的基因组资源[20.].然而,与许多这些基因组序列一起存放和存储的注释信息不完整,有时甚至不准确[19].之前的几项研究报告了在公开可用的质体基因组中观察到的错误注释[212223].因此,它认为不完整或不正确的注释可能超过NCBI核苷酸的塑性基因组之间的偶然发生[19].已发表的显示错误序列注释的质体基因组的确切数量很难量化,可能与哺乳动物线粒体基因组的错误数量相似[24].尽早鉴定不完全或不正确的塑性基因组记录,以便其他调查不包括它们的分析,因此无效他们的结论[25].对质体基因组结构特征(如IRs)的正确注释是生成准确和经过验证的基因组序列收集的一个重要方面[15.].

研究NCBI核苷酸上质体基因组序列注释的准确性只能通过应用基于基因组数据挖掘概念的分析策略来实现[26].具体地,需要应用生物信息化工作流程,其有效地处理大量的基因组数据和足够灵活以适应体积基因组结构的特质。本研究提出了此类工作流程的开发和应用:我们设计了一种软件工具,该软件工具包含自动访问储存在NCBI核苷酸上的数千个血浆基因组的软件工具,并在其核苷酸记录,序列注释和序列元数据上进行数据挖掘以评估他们的IR注释的完整和正确性。具体来说,我们开发一个授权的Python包airpg(简称“自动地访问归档质体基因组的反向重复”),即调查存储在NCBI核苷酸以自动化的方式所有质体基因组的IR注释。该软件包可以检索存储使用柔性搜索界面在数据库上完整质体基因组,调查所检索的基因组的IR的序列注释(或在其不存在时,SC的区域),解析所识别的SC / IR连接位点以及IR长度和位置信息,通过顺序自比较确认任何IR注解,和制表所识别的IR位置(如果有的话)用于随后的统计学分析。为了说明的功能airpg以及它们对经验数据的适用性,我们对2000年初至2020年底提交给NCBI核苷酸的所有完整且经验证的开花植物质体基因组的IR注释进行了调查,目的是确定不完整IR注释与外部因素(如发布年份、出版状态、,和基因组记录的版本号。

实现

红外光谱鉴别

airpg虽然使用不同的研究人员随着时间的推移使用不同的注释格式和约定,但是包含识别和解析体积基因组的IR注释的功能。在核心airpg是使用基于不同的注释特征的多种识别标准,自动鉴定塑体基因组的蛋白质区域记录。通过不同的注释格式和惯例,在向NCBI核苷酸提交塑性基因组时,研究人员随着时间的推移而施加多种识别标准的应用。例如,在小麦的14个塑性基因组记录中存在IR注释的相当大的差异(小麦l)可在NCBI核苷酸:一个较旧的记录(AB042240,于2000年提交)载有SC区和IR区之间四个接点的注释,但这些接点本身没有注释,而较近的一项记录(MH051715, 2018)包含了对连接站点的注释以及\({\文本{IR}} _ {\ mathrm {B}} \)但不是文本\({\{红外}}_ {\ mathrm{一}}\).马铃薯的19个质体基因组记录的IR注释也存在类似的情况(茄属植物tuberosuml)可在NCBI核苷酸:特征键repeat_region采用指定在最近几个提交的IR区(MT511702-MT511710,都是在2020年提交的。DQ231562,2006;DQ386163, 2009)使用通用特性键misc_feature注释IR和SC区域,即使该键是用于没有专用功能键的功能的“全覆盖”功能标签。显然,质体基因组中IRs的注释在NCBI核苷酸上没有完全标准化,因此,需要多种不同的标准来识别和分析大量序列记录中的IR注释。

采用的标准airpg质体基因组记录的红外区识别可归纳为一个显性过程和两个隐性过程。在显式过程中,airpg通过搜索注释功能键推断IRs的位置repeat_regionmisc_feature,其中必须包含该功能预选赛笔记以及限定符values '反向重复”或“反向重复B'(或他们的缩写'爱尔兰共和军”或“IRb“分别)。在隐式过程中,airpg使用其它区域的注释的基因组四方作为识别IR的位置的推论内。具体地说,隐式过程经由LSC和SSC,或四个路口侧翼这两个区域中的任位置识别IR位置。如果SC的区域的开始位置和结束位置是已知的,IR的开始和结束位置可以被自动地推断出:在LSC的端部表示的起始\({\文本{IR}} _ {B} \),而LSC的开始表示文本\({\{红外}}_ {}\).同样,SSC的结束表示文本\({\{红外}}_ {}\),而SSC的开始则表示\({\文本{IR}} _ {B} \).类似地,LSC的开始也是整个序列的开始,而LSC的结束也是整个序列的结束文本\({\{红外}}_ {}\)也是整个序列的结束。在第一个隐式过程中,airpg目的是通过搜索任何包含特性限定符的注释特性来直接识别SC区域笔记以及限定符values '短的单一副本”或“大单副本'(或他们的缩写'SSC.”或“LSC“分别)。在第二个隐式过程中,airpg目的是通过搜索包含特征限定符的任何注释特征来间接识别SC区域笔记以及限定值,即通过特定结标识分别表示连接位点。两种类型的结标识符被扫描:其包含逐字结缩写或侧翼区的确切名称(例如,“JLB”,“LSC-IRB”和“IRB-LSC”为LSC之间的接合处和硬标识符\({\文本{IR}} _ {B} \))那和soft identifiers which comprise the general names of flanking regions (e.g., ‘lsc-ir’ and ‘ir-lsc’ for any junction involving the the LSC) and are followed by an inference of their precise location based on their nucleotide position in the genome (with the repeat feature with the numerically lower start position automatically defined as\({\文本{IR}} _ {B} \)).在IR识别过程中使用的任何关键字的大小写差异都会由软件自动补偿。控制各个标识过程执行顺序的工作流在“附加文件”中可视化1:图S1。

重复的删除

airpg包含在调查期间自动识别和删除重复质体基因组记录的功能。科学家在NCBI核苷酸中搜索完整的基因组序列时,检索到的数千个序列记录中有大量的重复记录。这些重复序列是NCBI参考序列(RefSeq)数据库的结果,在NCBI核苷酸的标准搜索过程中对该数据库进行探测。NCBI RefSeq数据库包含染色体、完整基因组和基因组contigs等非冗余序列,可作为其他测序项目的参考标准[27].因此,在NCBI核苷酸上查询完整的质体基因组通常会返回每个基因组的原始记录以及RefSeq记录。例如,对2019年发表的所有开花植物质体基因组的NCBI核苷酸进行标准搜索,共返回3495条记录,其中1168条(33%)为重复记录。在自动搜索完整质体基因组的过程中识别和删除重复记录,airpg利用RefSeq记录的平面文件字段' COMMENT '的信息,该字段指定了它所引用的序列的登录号。为了避免计算这两项记录,airpg解析字段' COMMENT '中的原始登录号,并将其添加到重复列表中,以便随后从搜索结果中删除。相比之下,NCBI基因组数据库(https://www.ncbi.nlm.nih.gov/genome/browse !细胞器/)将不是解决重复基因组记录问题的替代方案:NCBI genome只包含质体基因组的一个子集,这些质体基因组存储在NCBI RefSeq上,进一步说,可以通过NCBI Nucleotide访问。因此,如果用NCBI基因组代替NCBI核苷酸,就无法对储存在NCBI核苷酸上的所有开花植物质体基因组进行全面调查(附加文件2)。

被覆盖的分类群

airpg包含功能类群的自动识别和删除的序列记录是真的不包含国税局其质体基因组。虽然绝大多数的开花植物表现出与IR的质体基因组中,有若干种自然缺少他们[1].突出的例子是Fabaceae的“倒置重复缺失”(IRL)的成员[28]以及其他植物家庭的分类群[2930.3132].这些类群的质体基因组必须从调查中排除airpg,因为算法将这些基因组识别为不充分注释的基因组,即使它们缺乏IR注释是真正没有IRS的结果。为避免错误确定丢失的注释,airpg包括根据用户定义的分类单元列表从调查中排除分类单元的功能。具体来说,该包接受用户提交的物种和属名称的屏蔽列表,这些名称必须从任何搜索结果中排除。包中还提供了一个自然缺乏IRs的基本类群列表;要重新生成或扩展这个列表,airpg允许用户自动查询描述植物类群间IR损失的出版物,从而将额外的IRL类群添加到屏蔽列表中。具体来说,该软件可以根据关键词(如“IR”、“倒重复”、“缺乏”、“损失”及其任何组合)对PubMed出版物的标题进行评估,以识别包含天然缺乏IR的植物属名称的出版物摘要。一旦这些摘要被识别出来,通过将每个专有名称与NCBI分类数据库的本地副本进行比较,它们就会被解析为真正的植物名称。物种和属名也可以在任何时候手动添加到屏蔽列表中。如果一个植物属和该属的单个物种被列入同一黑名单,该软件将自动从名单中删除该属名,因为它的一些(但不是全部)物种缺乏IRs。为了避免将确实拥有IRs的类群列入黑名单,搜索结果还与内部调查结果进行了比较airpg对于已经存在国内税务局的情况。

结构的软件

airpg是用Python v.3.6编写的,由8个Python类组成,协调自动数据检索和数据挖掘的各个方面。这些类中的每一个都使用了一个或多个第三方工具的功能,这些工具表示了强制性的依赖关系airpg.班级EntrezInteraction通过Entrez接口协调与NCBI互联数据库的交互[33]并下载序列记录。为了简化对Entrez的访问,该类使用命令行工具Entrez的直接(通常缩写为'EDirect”(34]),用于对NCBI Nucleotide进行查询,检索查询结果。班级IROperations协调序列记录的读写和写入这些记录中的IR注释的识别。用于阅读和编写操作以及对注释功能的内存有效访问,该类使用Python包Biopython[35]. 等级TableIO协调质体基因组登录号、元数据、IR存在和位置以及重复和区块分类群的单个数据帧之间的数据传输。对于表格数据处理的所有内部操作,该类使用Python包熊猫[36]. 班级PubMedAnalyzerPubmedrecord.,PubMedresult坐标的检索,解析,处理,和查询响应存储到上NCBI搜索PubMed搜索。班级PubMedAnalyzer特此使用Python包Entrezpy[37]为了搜索和检索PubMed文章摘要[38]. 等级文章挖掘协调关键词和植物分类单元名称的论文摘要数据挖掘。具体来说,通过将所有的摘要词和关键词与NCBI分类数据库进行完全或部分匹配,确定植物属名。班级文章挖掘特此使用Python包ete3[39],其中包含本地生成和扫描NCBI分类数据库的功能。等级自主使用命令行工具套件,通过对基因组序列的自动自我比较(俗称“自我爆破”)的序列注释,协调确认质体基因组IRs的长度和位置的过程。爆炸+”(40].具体来说,如果质体基因组记录有IRs的话,该类可以通过两个步骤确定其真实长度和位置:首先,使用命令' '生成一个本地的完整基因组序列数据库。makeblastdb”;第二,使用命令' '将相同的基因组序列与数据库进行比较。爆炸’.

而八班airpg在NCBI核苷酸上对质体基因组的全面调查共包括11个操作步骤。在第一步中,之前调查的任何调查数据,已知的重复记录列表,以及可选的不含IRs的植物物种和属名的黑名单都要读进去。在步骤2中,NCBI核苷酸是基于一个定义要调查的类群集的Entrez搜索字符串查询的。这个查询结果是记录id的主要列表(以下简称“uid”),其中指定了用于IR注释的全部质体基因组。在步骤3中,以前处理过的记录的UID以及已知重复记录的UID将从主列表中删除,从而产生一个精简的辅助UID列表。在步骤4中,检索并解析次级UID列表中指定的每个质体基因组的完整记录。从每条记录中提取十项信息并写入档案:该记录的加入和版本号、物种名称、序列长度、该记录首次提交给NCBI Nucleotide的日期、作者姓名、参考出版物的标题和期刊,以及该记录所代表的物种的完整分类位置。在步骤5中,每个解析的记录被挖掘,以获取关于可能包含在NCBI RefSeq数据库中的信息;正向命中被添加到已知重复列表中,并且从辅助UID列表和已解析记录集中自动删除一个重复。 In step 6, the complete information of each record is downloaded in GenBank flatfile format [41除非记录的本地副本已经存在。在步骤7中,每个记录的序列注释被分析,以识别任何注释,明确地或隐含地使用的IR在类实现的组的识别条件中指定IROperations;任何被识别的红外信号的存在、长度和位置都会被记录下来。在第8步中,将每个基因组记录的完整序列以及每个IR(如果存在)的序列以FASTA格式写入文件。在第9步中,PubMed查询含有天然缺乏IRs属信息的文章;对正确的命中进行解析,并将分类单元名称添加到阻止列表中。在第10步中,通过PubMed文章搜索已经找到的分类,但是是为了哪个类IROperations已成功识别出两个IRs,作为PubMed文章搜索的误报从阻止列表中删除。在步骤11中,每个基因组记录的IR注释通过使用爆炸; 如此确定的IRs的长度和位置被写入文件,原始注释及其基于BLAST的重新评估并列列出,以便于比较。

操作的软件

airpg通过与该封装协同供给4个包装脚本进行动作。每个脚本产生一个详细的日志,告知其当前操作的用户。第一个脚本,命名airpg_identify.py,使全面调查的步骤1至步骤3的操作自动化,从而协调NCBI核苷酸的查询;它还包含以前调查结果的信息、重复记录列表和潜在分类单元区块列表(附加文件)1:图S2)。如果将上一次运行的输出提供给airpg_identify.py作为输入,脚本只会将新记录追加到输出;如果适用,重复记录的名单也会扩大。脚本airpg_identify.py接受一个强制性和三个可选的命令行参数作为输入。范围- o /——outfn是必需的,并且需要输出表的有效文件路径。重复记录列表也由这个参数定义,因为任何关于重复访问的信息都是从一个以单词' .duplicates '扩展的同名文件加载并保存到该文件。范围q /——查询是可选的,并接受用户提供的Entrez搜索字符串。默认情况下,该参数设置为搜索基因组长度在50 kb到250 kb之间的开花植物的所有完整和验证质体基因组。范围-b/--区块列表是可选的,并接受被屏蔽的分类列表的有效文件路径。此列表必须是每行包含一个物种或属名称的纯文本文件。如果未提供该参数,则不会从查询结果中删除taxa。范围- u /——update_only是一个可选标志,它强制脚本只处理自上次运行脚本以来发布的记录。脚本的主要输出airpg_identify.py为符合查询搜索字符串的条件的质体基因组记录的制表符分隔表。在该表中的二次UID列表,包含十一个数据列(UID;登录号;登录版本;种名;序列长度;提交NCBI核苷酸的日期;作者姓名;参考刊物的标题;参考出版的杂志;指示记重复记录(如果有的话);物种的全分类地位)和许多行(加一对列名)为唯一的非blocklisted质基因组的记录被查询标识。脚本的次级输出是重复记录制表符分隔的表,其中,如果存在连接上NCBI核苷酸每个记录到对应的UID和登录号的RefSeq数据库的登录号。只的RefSeq记录被保留,而相应的NCBI核苷酸记录被列为重复和从在运行时的主要输出除去。

第二个脚本命名为airpg_analyze.py.通过一个完整的调查的10自动化的步骤4的动作,因此,坐标的检索和在二次UID列表中指定的每个质体基因组的完整的记录的解析,信息上重复在NCBI的RefSeq解析,数据挖掘的注记要素的IR区域的长度和位置,NCBI搜索PubMed的类群为天然缺乏的IR和IR的核苷酸序列的提取和完整基因组(附加文件查询1:图S3)。如果从前一个运行的输出作为输入提供,则脚本将仅将新记录附加到输出。脚本airpg_analyze.py.接受三个强制性和三个可选的命令行参数作为输入。范围- / - infn是强制性的,并且需要一个有效的文件路径到脚本生成的输出表airpg_identify.py.范围- o /——outfn是必需的,并且需要一个有效的文件路径到它自己的输出表,将基于注释的IR存在、长度和位置信息写到输出表中。范围-m / - 邮件是强制性的,需要一个有效的电子邮件地址,在NCBI PubMed上执行Entrez查询时需要这个电子邮件地址。的参数-r / - recordsdir- d /——datadir是可选的,并接受有效的目录路径,将检索到的质体基因组和它们各自的IRs(如果有的话)分别保存为压缩平面文件和序列文件。如果用户没有提供目录参数,则在当前工作目录中创建新的子目录(文件夹名为' records '和' data ')。范围-b/--区块列表是可选的,并接受被屏蔽的分类列表的有效文件路径。脚本的输出airpg_analyze.py.是一个以标签分隔的表格,包含关于每个质体基因组记录的IRs存在、长度和位置的基于注释的信息。它包含9个数据栏(登录号;存在的价值\({\文本{IR}} _ {B} \);起始位置\({\文本{IR}} _ {B} \);最终位置\({\文本{IR}} _ {B} \);的长度\({\文本{IR}} _ {B} \);存在的价值文本\({\{红外}}_ {}\);起始位置文本\({\{红外}}_ {}\);最终位置文本\({\{红外}}_ {}\);的长度文本\({\{红外}}_ {}\)),以及在此脚本的输入中列出的质体基因组记录的行数(加上一个列名)。

第三个脚本被命名为airpg_update_blocklist.py,生成在质体基因组中自然缺乏IRs的类群的基本blocklist,或通过NCBI PubMed的自动查询,将现有的blocklist添加到额外的类群。该脚本接受一个强制性和两个可选的命令行参数作为输入。范围-f / - file_blocklist是必需的,需要指向空的或以前生成的分类单元块列表的有效文件路径。参数q /——查询-m / - 邮件是可选的,并分别接受一个Entrez搜索字符串和一个有效的电子邮件地址。搜索字符串是NCBI PubMed查询的基础,旨在识别豆科IRL分支之外的质体基因组中自然缺乏IRs的分类群。默认情况下,该搜索字符串被设置为检索PubMed文章摘要中的所有植物属的名称,这些文章摘要的标题包含“倒置”、“重复”和“丢失”三个关键字。

第四个脚本,命名airpg_confirm.py.,自动化完整调查的步骤11的操作,从而协调通过使用序列自比较通过序列自我比较来确认每个基因组记录的IR注释爆炸+.通过自爆基因组序列识别出的任何IRs的长度和位置,都将作为脚本生成的表的扩展版本与原始IR注释信息一起保存airpg_analyze.py..脚本airpg_confirm.py.接受三个必需的和两个可选的命令行参数作为输入。参数- / - infn是强制性的,并且需要一个有效的文件路径到脚本生成的表airpg_analyze.py.,表示此脚本的一个输入。范围- o /——outfn是强制性的,并且需要到其输入表的扩展版本被写入作为输出一个有效的文件路径。范围- d /——datadir是强制性的,要求托管包含FASTA格式的完整基因组序列的特定记录子目录的目录的有效路径。参数-n / - minlength-x / - maxlength是可选的,并接受最小和最大长度分别将被识别为质IR任何重复区;默认情况下,这些参数被分别设置为10 kb和50 kb的,以覆盖几乎所有开花植物的质体IR长度[13.].脚本的输出airpg_confirm.py.是一个以制表符分隔的表,与输入表相比,它包含额外的8个数据列,并指定通过自爆破基因组序列确定的IRs的存在、长度和位置。

在每四个脚本airpg,可以通过调用参数来显示所有可用的命令行参数,它们的默认值和每个参数的简短说明-h / - 帮助airpg可以通过Python包索引访问http://pypi.python.org/pypi/airpg并且可以安装包括使用命令的所有Python依赖项PIP安装airpg.该软件已经在Arch Linux 5.9.14, Debian 10.6和Ubuntu 20.10上测试成功。

基于经验数据的软件评价

来说明的功能airpg关于大型经验数据,所述的进修和开花植物的质体基因组中IR注释的正确性的一个完整的调查进行。本次调查针对所有完整和验证开花2000年1月开始,2020年12月结束,并且表现出50 KB和250 KB之间的序列长度之间在20年间已提交NCBI核苷酸,植物的质体基因组,这表示光合活性开花植物的质体基因组的经验长度范围[214.].每个基因组记录的IR注释的完整性由是否存在IRs序列注释决定,并分别对这些注释之间的长度相等进行评估。通过自爆基因组序列,确定每个基因组记录的IR注释是否存在、等长和位置。我们调查的目的是评估(i)所研究的所有基因组记录中关于完整性、等长和正确性的IR注释的频率,以及(ii)完整IR注释的频率与与基因组记录相关的四个描述性因素中的任何一个之间的潜在影响。具体来说,我们通过(a)发布年份、(b)出版状况、(c)记录版本号和(d)植物科分类位置来评估完整和等长IR注释的存在。发布年份、出版状况和记录版本号的统计效果在R .4.0.3中进行了评估[42]使用广义线性模型(GLM)。完整和等长IR注释的存在/不存在作为二进制响应变量,发布年份,发布状态和记录版本号作为预测器变量。评估了预测变量对响应变量对响应变量的影响的重要性\ \ (p < 0.05)。.列出了不同科植物的完整等长IR标注频率,并与每个科的绝对记录数以及所有开花植物的总记录数进行对比。我们使用了一个标准的区块列表来排除自然缺乏IRs的质体基因组。为了参考和重现性,调查期间产生的所有文件都存放在泽诺多https://zenodo.org/record/4772615.除了指定正确的电子邮件地址外,在终端/shell中调用以下命令进行调查:

figurea

结果

完整和正确的IR注释

对NCBI核苷酸开花植物的独特和完整的质体基因组的数量在过去十年中显着增加,但低于这些基因组的一半包含完整的IR注解。我们使用脚本的输出airpg_identify.py与脚本相结合airpg_analyze.py.在研究下的20年期间的下半年(即,2010年1月至12月20日)的下半年(即,2010年1月至12月20日)可视化塑体基因组的积累(图。1).在这下半年,质体基因组记录的数量从99个增加到9483个,几乎增加了100倍。仅在2019年,记录数量就增加了60%,从3822条增加到6132条。此外,截至2020年12月底,NCBI核苷酸上唯一和完整的质体基因组记录的数量几乎是NCBI RefSeq上的等同数量的两倍(https://ftp.ncbi.nlm.nih.gov/refseq/release/plastid/;(发布于2020年11月07日),涵盖了294个不同的开花植物科。然而,相当一部分基因组记录存在不完整的IR注释:2010年1月,65%的记录不包含显性或隐性IR注释,46%的记录在2020年12月继续不包含显性或隐性IR注释(图1)。1).同样,具有完整IR注释的基因组记录的数量不可忽略,表明IR长度不等:所有具有完整IR注释的记录中有9%暗示了两者之间的长度差异文本\({\{红外}}_ {}\)\({\文本{IR}} _ {B} \)在2014年,所有记录中有类似比例的记录暗示了2020年的IR长度不等(图3)。2).

图1
图1

有和没有完整IR注释的开花植物质体基因组的积累。显示的是2010年1月至2020年12月间质体基因组的积累,不同的灰色阴影突出了完整的IR注释的存在(浅灰色)或不存在(深灰色)

图2
figure2

有和没有等长IR注释的开花植物质体基因组的积累。显示的是2010年1月至2020年12月间具有完整IR注释的质体基因组的积累,不同的灰色阴影突出了每个基因组中等长IR注释的存在(浅灰色)或不存在(深灰色)

我们的分析还表明,有相当数量的质体基因组记录报告的IR注释是不正确的,即使这些注释是完整的和隐含的平等IR长度。具体而言,我们采用脚本的输出airpg_identify.py与脚本相结合airpg_confirm.py.想象有和没有这些重复的完整的注释质体基因组之间的正确和不正确IR注释的频率。我们发现,15%和2014年至2020年间提交给NCBI核苷酸所有年度质体基因组的24%的报道完全且等长的,但不正确IR注解(图3.a).此外,我们发现,在同一时期提交给NCBI Nucleotide的所有未完成IR注释的年度质体基因组中,89%至94%的基因组都显示出来文本\({\{红外}}_ {}\)\({\文本{IR}} _ {B} \)在序列;相反,在没有完整IR注释的质体基因组中,只有6% - 11%的基因组真正缺乏IR(图2)。3.b)。

图3
图3

具有校正IR注释的开花植物的塑性基因组频率。显示的是2014年和2020年之间的基因组记录的年频率。一个与既定的基因组序列,其中这些注解是正确的(浅灰色)和完全等长IR注释或不正确的(深灰色)的记录的频率。b基因组序列中有(浅灰色)或不存在(深灰色)没有完整IR注释的基因组记录的频率

IR注释完整性和元数据

发现与研究中的质体基因组记录相关联的有两个因素会对这些记录中完整且等长的IR注释的频率显著影响。我们GLM测试的结果表明,发行年份出版的记录状态完全和等长的IR注释的存在下显著相关(表1).相比之下,我们无法拒绝记录版本号与此类IR注释的存在无关的null假设。Factor-specific分析表明,完整的年度频率和等长红外注释每释放自2014年以来一直呈稳定的上升态势,和这样的红外注释被发现在不到一半的年度提交之前,包括2018,但是在超过一半的年度提交2018年之后(图。4.a).我们的因子特异性分析还表明,已发表的质体基因组记录比未发表的记录更多地包含完整和等长IR注释:52%的已发表记录,而只有37%的未发表记录包含此类IR注释(图。4.b).因子特异性分析进一步表明,版本号的增加(即更高的记录修订数)与完整等长的IR注释的频率呈负相关(图。4.C);然而,在NCBI核苷酸上仅在研究下进行了体积基因组记录的72(即,不到1‰),使比较高度不平衡。

图4
装具

具有和无完整和平等的IR注释的开花植物的塑性基因组的频率一个释放,b出版状态,和c记录版本号。不同的灰色阴影突出了存在(浅灰色)或不存在(深灰色)的完整和等长IR注释。在(一个),给出了2013年至2020年的年频率

表1完整等长IR标注次数与发布年份、出版状态、记录版本号的统计效应和置信区间

我们对植物家庭的完整和等长IR注释频率的评估表明了频率差异强:在NCBI核苷酸上具有最多的塑性基因组记录的开花植物的十个家庭中,记录的百分比具有完全和等分的百分比IR注释在Melastomataceae中的85.7%之间,茄科酸盐的17.9%(表2).Poaceae代表了NCBI核苷酸的最多独特的体积基因组记录的开花植物家庭,占所有开花植物塑性基因组记录的13.3%,直到2020年底,但其记录的展会展出不到三分之一。和相等的IRS注释。

表2有花植物各科质体基因组记录的绝对数和相对数以及各科内完整等长的IR注释记录的份额。只显示绝对记录数排名前十的家庭,并按该数字排序

讨论

我们对VIA通过塑体基因组记录的IR注释的完整和正确性的调查airpg强调了以自动化方式评估序列注释质量的软件工具的重要性。我们的调查结果使我们能够识别出发布年份和发表状态对存档质体基因组IR注释完整性的显著影响。具体来说,我们发现,作为科学出版物的一部分发布的质体基因组中,完整和等长IR注释的频率比仅仅上传到数据库的基因组更高。这种频率的增加可能是对面临同行评审和科学审查的基因组记录的序列注释更加勤勉的结果。同样,我们发现2014年以来发布的质体基因组中完整的等长IR注释数量有所增加,而此前发布的记录则有所增加。这种频率的增加可能表明,研究人员越来越意识到正确注释基因组记录的重要性[2425],以及对细胞细胞基因组的注释过程自动化的软件工具的上升可用性[15.43].相比之下,减少具有任一它们的序列或序列的注释的经历修改,而不是未经修改的记录可能表示统计伪影,由于所有记录小于1‰下质体基因组的记录中识别出完整的和相等长度IR注释的频率研究表示修改后的基因组记录。该标注质量有更大数量的记录修订提高了合乎逻辑的假设可能,因此,保持为真,即使目前的数字并不能佐证它。总之,这些发现强调了软件工具,可自动计算和处理细胞器基因组序列的注释持续发展的需要,为更大量的基因组序列数据的科学调查产生,需要质量评估。

结论

近年来,保存到NCBI核苷酸中的质体基因组数量急剧增加,在未来十年内可能会提交数千个额外的质体基因组。质体基因组的IRs代表了一个典型的基因组特征,但NCBI核苷酸上超过一半的质体基因组记录没有显示完整的注释。Python包airpg使研究人员能够自动访问和调查存档在NCBI核苷酸上的塑性基因组的IR注释,从而进行了对注释质量的重要评估和影响质量的因素。在经验调查中,我们发现,发布年份,出版状态和可能的分类立场会影响塑性基因组记录中完全和等分的IR注释的存在。应进一步调查这些和类似效果背后的原因,airpg为此类分析提供了一个有用的工具。

可用性和需求

  • 项目名称airpg

  • 项目主页欧宝直播官网apphttp://pypi.python.org/pypi/airpghttps://github.com/michaelgruenstaeudl/airpg

  • 操作系统Linux

  • 编程语言Python (\(> = \)3.6)

  • 其他需求命令行工具Entrez的直接爆炸+;Python库biopython> = 1.72,entrezpyete3,熊猫;一个相当快的互联网连接

  • 许可证GNU通用公共许可证

  • 对非学者使用的任何限制没有一个

数据和材料的可用性

airpg在GNU通用公共许可证下,可通过位于http://pypi.python.org/pypi/airpg.支持这项调查结果的数据集可在泽诺多https://zenodo.org/record/4772615. CodeOcean上提供了该软件包的交互式版本和四种不同示例调查的命令行代码,具体如下:https://codeocean.com/capsule/6723913/tree/v1

缩写

英国石油公司:

碱基对

全球语言监测机构:

广义线性模型

IR:

反向重复

IRL:

倒置重复缺乏

kb:

公斤碱基对

LSC:

大单副本

NCBI:

国家生物技术信息中心

SC:

单副本

SSC:

小单拷贝

参考文献

  1. 1。

    鲁尔曼·塔(Ruhlman TA,Jansen RK)。开花植物的质体基因组。作者:MaligaP,编辑。叶绿体生物技术。方法采用分子生物学方法(方法和协议),第1132卷,托托瓦:Humana出版社;2014年,第页。3–38.https://doi.org/10.1007/978-1-62703-995-6

    谷歌学者

  2. 2.

    陆生植物质体基因组的结构多样性。Adv Bot Res. 2018; 85:263-92。https://doi.org/10.1016/bs.abr.2017.11.013

    CAS.文章谷歌学者

  3. 3.

    朱安,郭伟,顾磊杰,范伟,Mower JP。质体反向重复的进化动力学:扩张、收缩和损失对替代率的影响。新植醇。2016;209:1747-56。https://doi.org/10.1111/nph.13743

    CAS.文章PubMed.谷歌学者

  4. 4.

    Jansen RK, Ruhlman TA种子植物质体基因组。见:叶绿体和线粒体的基因组学,第35卷。施普林格:多德雷赫特;2012.p . 103 - 126。https://doi.org/10.1007/978-94-007-2920-9_5

  5. 5。

    张俊,Blazier JC, Sabir JSM, Jansen RK。重组依赖的复制和基因转换使重复序列均质,使质体基因组结构多样化。Am J Bot. 2017; 104:559-72。https://doi.org/10.3732/ajb.1600453

    CAS.文章PubMed.谷歌学者

  6. 6。

    马雷查尔A,布里森N。重组与植物细胞器基因组稳定性的维持。新植物醇。2010;186:299–317.https://doi.org/10.1111/j.1469-8137.2010.03195.x

    CAS.文章PubMed.谷歌学者

  7. 7。

    Goulding SE, Wolfe KH, Olmstead RG, modern CW。叶绿体的涨落倒转重复。摩尔Gen Genet 1996; 252:195-206。https://doi.org/10.1007/BF02173220

    CAS.文章PubMed.谷歌学者

  8. 8.

    哈克洛娃O,博克R。通过基因转化消除质体基因组中的有害突变。植物J。2006;46:85–94.https://doi.org/10.1111/j.1365-313X.2006.02673.x

    CAS.文章PubMed.谷歌学者

  9. 9

    Kim KJ, Lee HL。陆生植物叶绿体基因组中广泛存在的小反转现象。摩尔细胞。2005;19:104-13。

    CAS.PubMed.谷歌学者

  10. 10。

    Turmel M,Otis C,Lemieux C.乌洛弗骨绿藻叶绿体基因组中的大倒置重复的发散副本。SCI REP。2017; 7:994。https://doi.org/10.1038/s41598-017-01144-1

    CAS.文章PubMed.公共医学中心谷歌学者

  11. 11.

    Dempewolf H, Kane NC, Ostevik KL, Geleta M, Barker MS, Lai Z, Stewart ML, Bekele, Engels JMM, Cronk QCB, Rieseberg LH。建立基因组工具和资源Guizotia abyssinica(L.f)。卡斯。-表达序列标签库的建立、微卫星位点及其叶绿体基因组的测序。生态学报2010;10:1048-58。https://doi.org/10.1111/j.1755-0998.2010.02859.x

    CAS.文章PubMed.谷歌学者

  12. 12.

    郑世平,唐建平,郑世平,等。一种用于细胞器基因组绘制的在线程序。麝猫。2020;11:1123。https://doi.org/10.3389/fgene.2020.576124

    文章谷歌学者

  13. 13.

    OrganellarGenomeDRAW (OGDRAW) 1.3.1版本:用于细胞器基因组图形可视化的扩展工具包。核酸Res. 2019; 47:59-64。https://doi.org/10.1093/nar/gkz238

    CAS.文章谷歌学者

  14. 14.

    3 .陈志强,陈志强,陈志强,等。PACVr技术在生物医学工程中的应用。中国生物医学工程学报。2017;https://doi.org/10.1186/s12859-020-3475-0

    CAS.文章谷歌学者

  15. 15.

    曲晓军,摩尔MJ,李德志,易廷生。PGA:一种用于质体快速、准确、灵活批量注释的软件包。工厂方法。2019;十五12。https://doi.org/10.1186/s13007-019-0435-7

    文章谷歌学者

  16. 16。

    王志强,王志强,王志强,王志强。绿色植物叶绿体系统基因组学分析:10亿年的进化历史。Am J Bot. 2018; 105:291-301。https://doi.org/10.1002/ajb2.1048

    文章PubMed.谷歌学者

  17. 17。

    黄波,梁强,黄波,等。茄属植物202个质体基因组的系统发育分析Petota.SCI REP。2019; 9:7。https://doi.org/10.1038/s41598-019-40790-5

    CAS.文章谷歌学者

  18. 18。

    李海涛,Yi T- s,高丽梅,Ma P-F,张涛,杨建斌,gitendanner Ma, Fritsch PW, Cai J,罗勇,Wang H, van der Bank M, Zhang S-D, Wang Q-F, Wang J, Zhang Z-R, Fu C-N, Yang J, Hollingsworth PM, Chase MW, Soltis DE, Soltis PS, Li D-Z。被子植物的起源与侏罗纪裂谷之谜。Nat植物。2019;5:461 - 70。https://doi.org/10.1038/s41477-019-0421-0

    文章PubMed.谷歌学者

  19. 19

    Tonti-Filippini J, Nevill PG, Dixon K, Small I.我们能用1000个质体基因组做什么?植物j . 2017; 90:808-18。https://doi.org/10.1111/tpj.13491

    CAS.文章PubMed.谷歌学者

  20. 20.

    特威福德,奈斯。质体全基因组测序策略。摩尔生态资源。2017;17:858-68。https://doi.org/10.1111/1755-0998.12626

    文章PubMed.谷歌学者

  21. 21.

    花若虫的质体基因组结构和系统基因组学:保守的基因顺序和关系的新认识。植物生态学报。2017;303:1251-70。https://doi.org/10.1007/s00606-017-1436-5

    CAS.文章谷歌学者

  22. 22。

    苦甜酵母叶绿体基因组序列分析茄属植物dulcamara):茄科质体基因组结构演变。PLoS ONE。2018; 13:0196069。https://doi.org/10.1371/journal.pone.0196069

    CAS.文章谷歌学者

  23. 23。

    卡拉曼,卢卡斯。不同注释工具的比较特征的叶绿体完整基因组Corylus Avellana.托姆布尔。基诺姆。2019;20:874.https://doi.org/10.1186/s12864-019-6253-5

    CAS.文章谷歌学者

  24. 24.

    Prada CF, Boore JL。在哺乳动物线粒体基因组数据库中,基因注释错误是常见的。BMC染色体组。2019;20:73。https://doi.org/10.1186/s12864-019-5447-1

    文章谷歌学者

  25. 25.

    陈志刚,陈志刚,陈志刚,陈志刚。叶绿体基因组注释工具在咖啡物种进化分析中的应用。PLoS ONE。2019; 14:1-20。https://doi.org/10.1371/journal.pone.0216347

    CAS.文章谷歌学者

  26. 26.

    植物科学中的大数据:植物基因组学和蛋白质组学的资源和数据挖掘工具。方法:中华医学杂志。2016;1415:533-47。https://doi.org/10.1007/978-1-4939-3572-7_27

    CAS.文章PubMed.谷歌学者

  27. 27.

    tatusova t,dicuccio m,badretdin a,chetvernin v,ciufo s,li w. ncbi手册。国家生物技术信息中心,贝塞斯达,马里兰州,美国。2013年。https://www.ncbi.nlm.nih.gov/books/NBK174280

  28. 28。

    凤蝶类豆科植物“温带草本部落”的分子系统发育:一种超树方法。Adv . 2000; 9:277-98。

  29. 29。

    蔡志,Guisinger M, Kim H-G, Ruck E, Blazier JC, McMurtry V, Kuehl JV, Boore J, Jansen RK。的质体基因组的广泛重组三叶草subterraneum(豆科)与大量重复序列和新的DNA插入有关。中国科学(d辑:地球科学)2008;https://doi.org/10.1007/S00239-008-9180-7

    CAS.文章PubMed.谷歌学者

  30. 30.

    Sanderson MJ, Copetti D, Burquez A, Bustamante E, Charboneau JLM, Eguiarte LE, Kumar S, Lee H, Lee J, McMahon M, Steele K, Wing R, Yang T-J, Zwickl D, Wojciechowski M.仙人掌质体基因组的异常减少(Carnegiea gigantea): NDH基因组缺失和反向重复。[J] .中国生物医学工程学报,2015;https://doi.org/10.3732/ajb.1500184

    CAS.文章PubMed.谷歌学者

  31. 31.

    崔是,詹森R,鲁尔曼T。失物招领:豆科植物分支中由其缺失所定义的反向重复的返回。基因组生物进化。2019;11:1321–33.https://doi.org/10.1093/gbe/evz076.

    CAS.文章PubMed.公共医学中心谷歌学者

  32. 32.

    科勒男,雷吉纳托男,索萨-Chies TT,Majure LC。洞察整个圆扇仙人掌亚科(仙人掌)叶绿体基因组进化揭示了强大而有时是相互冲突的系统发育拓扑结构。前植物SCI。2020; 11:729。https://doi.org/10.3389/fpls.2020.00729

    文章PubMed.公共医学中心谷歌学者

  33. 33.

    NCBI:Entrez的帮助。国家生物技术信息中心,贝塞斯达,马里兰州,美国。2005年。https://www.ncbi.nlm.nih.gov/books/NBK3837

  34. 34。

    凯恩斯J。Entrez Direct:UNIX命令行上的电子实用程序。美国马里兰州贝塞斯达国家生物技术信息中心,2019年。https://www.ncbi.nlm.nih.gov/books/NBK179288

  35. 35。

    Cock PJA、Antao T、Chang JT、Chapman BA、Cox CJ、Dalke A、Friedberg I、Hamelryck T、Kauff F、Wilczynski B、De Hoon MJL。Biopython:用于计算分子生物学和生物信息学的免费Python工具。生物信息学。2009;25:1422–3.https://doi.org/10.1093/bioinformatics/btp163

    CAS.文章PubMed.公共医学中心谷歌学者

  36. 36.

    McKinney W. Python中的统计计算数据结构。in:Van der Walt S,Millman J,编辑。2010年科学会议第9届Python的诉讼程序;p。56-61。https://doi.org/10.25080/majora-92bf1922-00a.

  37. 37.

    布克曼太平绅士,霍尔姆斯EC。Entrezpy:一个与NCBI的Entrez数据库动态交互的Python库。生物信息学。2019;35:4511-4。https://doi.org/10.1093/bioinformatics/btz385

    CAS.文章PubMed.公共医学中心谷歌学者

  38. 38.

    Mcentee J,Lipman D. Pubmed:弥合信息差距。Can Med Assoc Assoc j. 2001; 164:1317-9。

    CAS.谷歌学者

  39. 39.

    系统基因组数据的重建、分析和可视化。摩尔生物学报2016;33:1635-8。https://doi.org/10.1093/molbev/msw046

    CAS.文章PubMed.公共医学中心谷歌学者

  40. 40.

    Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, Madden TL. BLAST+:建筑与应用。BMC Bioinform。2009;10:421。https://doi.org/10.1186/1471-2105-10-421

    CAS.文章谷歌学者

  41. 41.

    Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL。基因库。核酸学报2006;34:16-20。https://doi.org/10.1093/nar/gkj157

    CAS.文章谷歌学者

  42. 42.

    R核心团队。统计计算的语言和环境。统计计算基础,维也纳,奥地利。2020。http://www.r-project.org.

  43. 43.

    蒂利希M, Lehwark P, Pellizzer T, Ulbricht-Jones ES, Fischer A, Bock R, Greiner S. geseq -细胞器基因组的通用和准确注释。核酸学报2017;45:6-11。https://doi.org/10.1093/nar/gkx391

    CAS.文章谷歌学者

下载参考

确认

作者感谢两位匿名审稿人对手稿的批判性阅读,并提出了有价值的改进意见。作者感谢柏林自由网(Freie Universität Berlin)的ZEDAT的高性能计算服务提供计算时间的分配。这个Python包的一些代码的开发构成了TM攻读理学学士学位论文的一部分。

资金

开放访问资金支持,由Projekt交易组织。该调查由Deutsche Forschungsgemeinschaft(DFG,德国研究基金会)资助 - 兼弗赖斯大学(Initiativmittel der Forschungskommission)的启动授权,均为MG。资金机构在研究设计,数据收集和分析中没有发挥作用,决定发布或准备稿件。

作者信息

从属关系

作者

贡献

概念化与方法论:MG;软件:TM,MG;可视化:mg,tm;监督:mg;资金收购:MG;写作原稿草案:TM,MG;写作审查和编辑:MG。两位作者都读过并批准了最终手稿。

相应的作者

对应于迈克尔Gruenstaeudl

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1

.三个不同流程的工作流程airpg:倒置重复序列的识别(图S1),脚本的操作airpg_identify.py(图S2),以及脚本的操作airpg_analyze.py.(图S3)。

附加文件2

.对NCBI基因组和NCBI核苷酸上存储的开花植物质体基因组记录的数量进行了比较。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过交叉标记验证货币和真实性

引用这篇文章

自动访问归档质体基因组的反向重复序列。欧宝娱乐合法吗22,413(2021)。https://doi.org/10.1186/s12859-021-04309-y

下载引用

关键字

  • 数据挖掘
  • 倒置重复
  • NCBI核苷酸
  • 质体基因组
  • 序列的注释