跳转到主要内容gydF4y2Ba

FINDER:一个自动软件包注释真核基因的RNA-Seq数据和相关的蛋白质序列gydF4y2Ba

摘要gydF4y2Ba

背景gydF4y2Ba

真核生物中的基因注释是一种非琐碎的任务,需要细致地分析累积的转录数据。挑战包括含有重叠基因的基因组的转录活性区域,产生许多转录物,转换元件和许多不同序列重复的基因。目前可用的基因注释软件应用程序依赖于预构建的全长基因序列组件,这些组件不保证无差错。这些序列的起源通常不确定,使得难以识别和纠正它们中的误差。这阻碍了在多种组织类型和实验条件下创建转录组景观的准确和整体表示。因此,为了衡量基因结构的多样性,对基因组表达数据的综合分析是必要的。gydF4y2Ba

结果gydF4y2Ba

我们提出了Finder,一种全自动计算工具,可优化注释基因和转录结构的整个过程。与当前的最先进的管道不同,发现者通过直接用原料序列加工,通过补充与相关蛋白质的读取来从Bradaker2中加工基因预测来自动化RNA-SEQ预处理步骤。Finder pipeline(1)报告转录物并识别在特定条件下表达的基因,(2)从表达的RNA-SEQ数据产生所有可能的剪接转录物,(3)分析读取覆盖范围以修改现有的成绩单模型并创建新的(4)基于多个数据集的可用证据,评分基因为高或低置信度。我们展示了Finder自动注释了八种种类不同基因组的能力。gydF4y2Ba

结论gydF4y2Ba

FINDER采用一种完全自动化的方法直接从原始表达数据注释基因。它能够处理各种大小的真核生物基因组,不需要人工监督,是处理计算工具经验有限的实验室研究人员的理想选择。gydF4y2Ba

背景gydF4y2Ba

测序技术的最新进展使得甚至是非模型生物的染色体级组件的构建能够构建。截至2020年12月,16,108个真核生物的基因组,295,784个原核生物,41,936病毒,26,079个质粒和17,820个细胞器通过GenBank进行测序[gydF4y2Ba1gydF4y2Ba,比20年前报告的1500个序列有了相当大的增长(见附加文件gydF4y2Ba1gydF4y2Ba:图。S1)。因此,为了注释升高的基因组序列数量,注释软件应用需要快速,准确,并且旨在处理大量表达数据,以便于在不同条件下发现新的基因[gydF4y2Ba2gydF4y2Ba那gydF4y2Ba3.gydF4y2Ba那gydF4y2Ba4.gydF4y2Ba那gydF4y2Ba5.gydF4y2Ba]。通过分析来自多种组织和条件的样品,可以通过分析来自多种组织和条件的样品来实现令人遗憾的基因发现的关键,避免了另外测序的需要。gydF4y2Ba

基因组注释是鉴定基因组的转录活性区域和定义基因结构的过程。解码基因的正确结构是必不可少的,因为几个下游应用依赖于准确的注释:检测蛋白质之间的相互作用[gydF4y2Ba6.gydF4y2Ba那gydF4y2Ba7.gydF4y2Ba那gydF4y2Ba8.gydF4y2Ba那gydF4y2Ba9.gydF4y2Ba那gydF4y2Ba10.gydF4y2Ba那gydF4y2Ba11.gydF4y2Ba那gydF4y2Ba12.gydF4y2Ba那gydF4y2Ba13.gydF4y2Ba那gydF4y2Ba14.gydF4y2Ba],识别翻译后修改[gydF4y2Ba15.gydF4y2Ba那gydF4y2Ba16.gydF4y2Ba那gydF4y2Ba17.gydF4y2Ba那gydF4y2Ba18.gydF4y2Ba那gydF4y2Ba19.gydF4y2Ba那gydF4y2Ba20.gydF4y2Ba那gydF4y2Ba21.gydF4y2Ba那gydF4y2Ba22.gydF4y2Ba那gydF4y2Ba23.gydF4y2Ba],采矿效果[gydF4y2Ba24.gydF4y2Ba那gydF4y2Ba25.gydF4y2Ba那gydF4y2Ba26.gydF4y2Ba那gydF4y2Ba27.gydF4y2Ba那gydF4y2Ba28.gydF4y2Ba,并确定蛋白质结构[gydF4y2Ba29.gydF4y2Ba那gydF4y2Ba30.gydF4y2Ba那gydF4y2Ba31.gydF4y2Ba那gydF4y2Ba32.gydF4y2Ba]。尽管我们已经看到了基因组测序技术的显著进步,但注释方法仍然表现不佳[gydF4y2Ba33.gydF4y2Ba那gydF4y2Ba34.gydF4y2Ba]。获得准确的基因注释是具有挑战性的,特别是在最近测序的非模型生物中。通过水平基因转移在这种基因组中交换的序列的存在和碎片组件的存在使得难以预测基因结构[gydF4y2Ba35.gydF4y2Ba]。在同一物种上工作的多个群体具有不同的和预期的矛盾的注释,这很难合并为共同的共识。gydF4y2Ba

2000年代初看到初始基因组注释试图在引入帕萨[gydF4y2Ba36.gydF4y2Ba]开发的是映射全长转录物并表达序列标签(EST)以注释基因组。与fgenesh并行[gydF4y2Ba37.gydF4y2Ba那gydF4y2Ba38.gydF4y2Ba] Genegenerator [gydF4y2Ba39.gydF4y2Ba], mGene [gydF4y2Ba40gydF4y2Ba]和geneseqer [gydF4y2Ba41.gydF4y2Ba],直接从基因组序列预测基因结构。工具如MAKER [gydF4y2Ba42.gydF4y2Ba那gydF4y2Ba43.gydF4y2Ba那gydF4y2Ba44.gydF4y2Ba那gydF4y2Ba45.gydF4y2BaPasa [gydF4y2Ba36.gydF4y2Ba]密切依赖于预装配的全长成绩单以产生注释。ests和/或de novo组装的转录om通常被提供为对这些工具的输入来生成注释[gydF4y2Ba46.gydF4y2Ba那gydF4y2Ba47.gydF4y2Ba那gydF4y2Ba48.gydF4y2Ba那gydF4y2Ba49.gydF4y2Ba那gydF4y2Ba50gydF4y2Ba那gydF4y2Ba51gydF4y2Ba那gydF4y2Ba52gydF4y2Ba]。通过从头构建的转录本[gydF4y2Ba53gydF4y2Ba那gydF4y2Ba54gydF4y2Ba那gydF4y2Ba55gydF4y2Ba那gydF4y2Ba56gydF4y2Ba那gydF4y2Ba57gydF4y2Ba或基因组引导[gydF4y2Ba58gydF4y2Ba那gydF4y2Ba59gydF4y2Ba那gydF4y2Ba60.gydF4y2Ba那gydF4y2Ba61.gydF4y2Ba那gydF4y2Ba62.gydF4y2Ba那gydF4y2Ba63.gydF4y2Ba]方法对汇编器的性质及其参数设置敏感。这种汇编程序报告彼此高度相似的序列,使得从难以从伪影中筛选正确的组件的过程。Braker2中度缓解了这个问题[gydF4y2Ba64.gydF4y2Ba那gydF4y2Ba65.gydF4y2Ba,它使用读取剪接信息而不是全长组装来预测基因结构,而且已经被证明比从头开始的方法表现得更好[gydF4y2Ba66.gydF4y2Ba]。BRAKER2需要使用GeneMark-ET进行一轮无监督的基因预测[gydF4y2Ba67.gydF4y2Ba]生成gydF4y2Ba从头开始gydF4y2Ba基因预测之后由AUGUSTUS进行第二轮训练[gydF4y2Ba68.gydF4y2Ba]使用GeneMark-ET创建的基因模型子集[gydF4y2Ba64.gydF4y2Ba]。MAKER的所有变体(MAKER、MAKER2和MAKER- p)都使用AUGUSTUS [gydF4y2Ba68.gydF4y2Ba]并按[gydF4y2Ba69.gydF4y2Ba]产生基因预测。与BRAKER2或PAS不同,用户需要运行MAKER进行多个轮换以改善注释。没有标准技术来优化轮次的数量,用户经常进行试用和错误方法来决定每个执行轮换的制造商提供的数据。这些无人指导的选择可以基于相同的数据集创建不同的注释。因此,当前方法报告不完全的基因和/或缺少缺少的剪接转录物的注释。除了制造商,Braker,PASA还有另一个基因注释器 - Gemoma [gydF4y2Ba70gydF4y2Ba利用参照基因组中的蛋白质编码基因并将其转移到目标基因组。由于它没有最优地利用表达数据的信息,它还没有与本手稿中讨论的其他基因注释者进行比较。gydF4y2Ba

为了克服上述缺点,我们开发了FINDER,一种新的自动注释管道,可以从NCBI SRA下载RNA-Seq数据[gydF4y2Ba71.gydF4y2Ba],进行基因组引导的短读片段组装,预测基因结构,并对基因进行注释。FINDER对基因的非翻译区和编码区进行注释,根据转录本表达的组织/条件对转录本进行分类,并输出一套完整的选择性剪接转录本。FINDER分析每个转录本的空间表达轮廓,重新定义其边界和/或甚至创建新的转录本,并采用优化的策略来定位包含微外显子的转录本。最后,将BRAKER2预测的基因模型与PsiCLASS生成的程序集合并到注释中[gydF4y2Ba63.gydF4y2Ba]。我们在用相同的表达数据执行时,我们表明查找器优于构建精确的基因结构的最先进的注释工具。gydF4y2Ba

实现gydF4y2Ba

查找器的详细工作流程在图2中概述。gydF4y2Ba1gydF4y2Ba。管道通过逗号分隔的值(CSV)文件接受元数据(请参阅其他文件gydF4y2Ba2gydF4y2Ba:表S1)。用户可以使用' verifyInputsToFINDER '实用程序验证输入数据(请检查附加文件第1.5.1节gydF4y2Ba9.gydF4y2Ba)。可以接受单端和对端数据。该管道自动从NCBI SRA下载RNA-Seq数据,或者可以在本地访问样本。使用STAR进行多轮对准[gydF4y2Ba72.gydF4y2Ba那gydF4y2Ba73.gydF4y2Ba),从而确保捕获组织特异性剪接连接,并最终生成最全面的选择性剪接转录本。FINDER使用PsiCLASS [gydF4y2Ba63.gydF4y2Ba]在组织级别生成转录物并将其整合以产生共识注释。如果需要,它将使用覆盖数据使用覆盖点检测(CPD)进行覆盖点检测(CPD)。然后将抛光的转录物提供给Genemarks-T [gydF4y2Ba74.gydF4y2Ba]来预测蛋白质编码区。除了从表达数据构建基因外,FINDER还使用BRAKER2 [gydF4y2Ba65.gydF4y2Ba来预测基因的新生。最后,基因模型被分配分数来反映不同数据集的预测和证据的置信度。在整个管道运行过程中,将删除中间临时数据以优化空间使用。正确的执行日志是通过ruffus [gydF4y2Ba75.gydF4y2Ba]。gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

Finder工作流程。Finder组装来自RNA-SEQ表达数据的短读,从多个组织和条件收集,使用PSIClass生成全长转录物。短读覆盖概况用于抛光成绩单的结构,以提高注释的质量。Genemarks-T用于预测转录物的编码区域。由Braker2预测的基因模型和通过将蛋白质获得的模型添加到由RNA-SEQ数据构成的基因模型中。此外,发现者输出表达每个转录物的组织,允许用户使用组织特异性转录物。Finder根据可用的支持证据和覆盖深度对成绩单分为两个置信水平。gydF4y2Ba(使用Microsoft PowerPoint v16.47生成)gydF4y2Ba

读取到基因组的对齐gydF4y2Ba

从每个样本读取的数据用STAR与基因组对齐[gydF4y2Ba73.gydF4y2Ba]。FINDER接受基因组STAR指数的位置。如果没有提供索引,则FINDER将在本地生成索引。FINDER实现多种策略来检测尽可能多的正确拼接连接。一些研究使用了多步骤的方法,即在第一个通道中检测剪接连接,然后这些连接用于指导未来通道的对齐[gydF4y2Ba76.gydF4y2Ba那gydF4y2Ba77.gydF4y2Ba]。发现者采用类似的策略来对准读取并通过在四次通过中进行映射来对准读取并获得每个组织类型和/或条件的最自定的接头结(请检查Sect。1.3附加文件gydF4y2Ba9.gydF4y2Ba更多的细节)。gydF4y2Ba

用微外显子注释转录物gydF4y2Ba

真核生物中的某些基因具有微外显子(即核苷酸少于50个的外显子)[gydF4y2Ba78.gydF4y2Ba那gydF4y2Ba79.gydF4y2Ba那gydF4y2Ba80gydF4y2Ba那gydF4y2Ba81.gydF4y2Ba赋予植物重要的生物学特性[gydF4y2Ba82.gydF4y2Ba那gydF4y2Ba83.gydF4y2Ba那gydF4y2Ba84.gydF4y2Ba那gydF4y2Ba85.gydF4y2Ba那gydF4y2Ba86.gydF4y2Ba和动物[gydF4y2Ba87.gydF4y2Ba那gydF4y2Ba88.gydF4y2Ba那gydF4y2Ba89.gydF4y2Ba那gydF4y2Ba90gydF4y2Ba那gydF4y2Ba91gydF4y2Ba]。Finder使用Olego [gydF4y2Ba92gydF4y2Ba),因为OLego在没有发现种子序列(~ 14 nt)时,通过检查内含子的签名来优化微外显子敏感性。它的配置是将reads对齐到最小长度为2的外显子,最小和最大的内含子大小分别为20和10 K。gydF4y2Ba

用PsiCLASS生成外显子外显子转录结构注释gydF4y2Ba

星形和OLEGO报告的对齐组合并作为输入到PSICLASS的输入提供[gydF4y2Ba63.gydF4y2Ba]。与传统汇编程序不同,PSIClass同时接受来自多个样本的对齐。它为每个样品产生注释,以及所有样品的一个整合基因注释。Finder使用已启用的BamGroup选项运行Psiclass,这指示Psiclass保留组织/条件特定功能。它是一个快速的元汇编器,在不到3小时内产生350个输出样本,同时在30个核心上运行并消耗小于50 GB的存储器。gydF4y2Ba

抛光基因结构优化基因发现gydF4y2Ba

对PsiCLASS报告的基因结构注释进行抛光,得到最佳的组装。汇编器生成的注释通常有三种影响准确性的错误:(1)存在作为其他转录本适当子集的冗余转录本,(2)同一链上的多个转录本合并为一个,以及(3)外显子边界不明确的转录本。大多数汇编程序忽略这种情况以提高操作速度。开发解决方案来处理这类错误增加了正确的结构注释的数量,从而改进了下游分析。gydF4y2Ba

Finder使用不同的算法和统计方法来处理上述情况。为了消除冗余的转录物,所有转录物的外显子性结构相互比较,以保留仅为独特的转录物。尽管真核生物具有大型基因组,但某些基因/转录物也紧密填充并重叠(图。gydF4y2Ba2gydF4y2Ba)。源自其中一个基因的读取经常映射到附近的重叠基因,使得任务明显识别成绩单非常具有挑战性。gydF4y2Ba

图2gydF4y2Ba
图2.gydF4y2Ba

Finder实现读取覆盖范围的变换点分析,以修改现有基因模型和/或生成新的。ChangePoint分析是一种统计技术,可以随着时间的推移评估趋势中的改变。相同的方法已经用于分析基因组的读取覆盖图案,其中数据在空间上分布。gydF4y2Ba一个gydF4y2Ba两个gydF4y2Ba拟南芥gydF4y2BaAT1G42960.1和AT1G42970.1基因存在于正链上50个碱基对内。来自任何一个基因的末端外显子的Reads彼此渗入,导致PsiCLASS合并两个基因模型。变更点分析识别读取覆盖率的下降,并报告槽存在的外显子内的位置。这些信息被用来拆分基因模型。gydF4y2BabgydF4y2Ba类似的问题也存在于相对链上的紧密间隔的基因中。一个转录的末端外显子(用红色框标出)延伸到邻近转录的最近的内含子。变更点分析用于根据读取覆盖率确定文本的实际结束/开始。gydF4y2Ba(截图来自Integrative Genomics Viewer,图形使用Microsoft PowerPoint v16.47生成)gydF4y2Ba

FINDER被配置为使用变更点检测(CPD)分析来检测两个重叠转录本连接处读取覆盖率的下降。统计CPD是一种检测随机过程概率分布变化的程序。通常,CPD被广泛用于检测时间序列的变化[gydF4y2Ba93gydF4y2Ba那gydF4y2Ba94gydF4y2Ba那gydF4y2Ba95gydF4y2Ba那gydF4y2Ba96gydF4y2Ba那gydF4y2Ba97gydF4y2Ba,但也可扩展至其他应用[gydF4y2Ba98gydF4y2Ba那gydF4y2Ba99gydF4y2Ba]。我们发现,即使CPD是在常态假设下发展的,它也可以在违反常态的情况下使用。gydF4y2Ba

在Finder的CPD中的第一步中,使用BedTools将基因组的短读取对齐转换为每个核苷酸的读数数[gydF4y2Ba100.gydF4y2Ba]。定制Python脚本用于将每个核苷酸覆盖数据从基因组转移到由PSIClass报道的转录组。如果在所有三个帧翻译中存在过早的阻止密码子,则每个内部外显子被视为存在变换点的潜在部位。CPD仅考虑具有高机会的外显子,从而减少操作持续时间。探测每个外显子的覆盖图案以检测变换点。数据已经使用指数分布建模,并且二进制分段已被用于使用“ChangePoint”包来确定解除覆盖中的ChangePoints [gydF4y2Ba101.gydF4y2Ba]。读取外显子模拟的时间序列,其中外显子的每个核苷酸位置可以假设是单一的单位时间。怀疑合并的外显子的覆盖范围含有信号中的特征凹陷以分割基因模型(图。gydF4y2Ba2gydF4y2Ba一种)。与相对股线上的重叠转录物有时共享共同的外显子(图。gydF4y2Ba2gydF4y2Bab)。这对精度产生了负面影响,因为预测转录物的界限超过了参考注释中的转录物的边界。Finder使用变换点来修剪脚本边界,以更好地模拟RNA-SEQ覆盖(图。gydF4y2Ba2gydF4y2Bab)。这些策略通过增加转录F1分数来改善注释(表gydF4y2Ba1gydF4y2Ba)。gydF4y2Ba

表1三种模型生物的多基因注释管道产生的转录性的敏感性,特异性和F1分数 -gydF4y2Ba拟南芥,奥雅萨·萨蒂瓦gydF4y2Ba和gydF4y2Ba玉米gydF4y2Ba

从密切相关的物种中的表达数据和蛋白质的De Novo基因预测gydF4y2Ba

某些基因仅在特定组织和条件下表达[gydF4y2Ba102.gydF4y2Ba]。然而,由于潜在的表达数据量巨大,构建一组在所有可能的组织和条件下表达的详尽的基因是一项艰巨的任务。因此,需要利用从已知基因中获得的信息来预测未知基因结构的方法。在FINDER框架中,我们使用BRAKER2 [gydF4y2Ba103.gydF4y2Ba]预测蛋白质编码基因的结构。管道提供由星星生成的对齐文件和可选的用户提供的蛋白质数据文件。如果先前的执行失败,则会在没有蛋白质信息的情况下启动第二次BRAKER2。将BRAKER2预测的基因与从表达数据中获得的基因进行比较。为了防止太多的假阳性,仅当通过表达水平或蛋白质水平证据支持那些时,Braker2的预测被认为是高置信度。gydF4y2Ba

除了RNA-Seq数据,FINDER还使用蛋白质数据(当提供时),以两种方式(1)评估BRAKER2生成的转录模型的准确性,(2)对齐那些未被BRAKER2或PsiCLASS识别的蛋白质。从表达数据中获得并经BRAKER2预测的蛋白编码基因为blast [gydF4y2Ba104.gydF4y2Ba]到用户提供的蛋白质集。没有受到任何攻击的蛋白质用exonerate [gydF4y2Ba105.gydF4y2Ba]的最小相似度阈值为90%。这些比对被补充到最终的基因预测中。由于这些转录本仅从蛋白质中获得,它们缺乏UTR序列。gydF4y2Ba

编码区预测gydF4y2Ba

我们利用了Genemarks-t [gydF4y2Ba74.gydF4y2Ba]来预测由表达数据构建的基因的蛋白质编码区域。首先使用提供的基因组将GTF文件转换为FASTA文件。这些FASTA文件作为输入提供给genmarks - t。genmarks - t输出转录本的编码序列。通过将转录组坐标转换为基因组坐标,CDS注释被合并到最终的GTF文件中。gydF4y2Ba

组织/条件特定转录本/基因模型gydF4y2Ba

大多数真核基因有多个亚型,这些亚型来自于替代转录本。不同转录本的表达可以在不同条件下、不同时间点、不同组织中发生。FINDER比较来自每种条件的汇编转录本,并打印出每个转录本与提供的组织/条件之间的关联(附加文件gydF4y2Ba9.gydF4y2Ba:教派。1.5)。gydF4y2Ba

得分基因模型gydF4y2Ba

根据支持证据,查找剂组基因分为多个类别。通过Braker2预测的RNA-SEQ数据集中表达的基因,并含有蛋白质证据,进入高置信基因集。BRAKER2预测基因没有表达和/或蛋白质的证据被视为低置信基因。Finder期望一个软掩蔽基因组,因为它是Braker2的要求。位于重复区域中的基因被标记为这样并移动到一组低置信基因。gydF4y2Ba

结果和讨论gydF4y2Ba

选择供比较的物种gydF4y2Ba

我们测试了FINDER的性能,主要是在三种有良好注释的植物生物上gydF4y2Ba拟南芥gydF4y2Ba(gydF4y2Ba106.gydF4y2Ba]gydF4y2Ba,栽培稻gydF4y2Ba(gydF4y2Ba107.gydF4y2Ba那gydF4y2Ba108.gydF4y2Ba那gydF4y2Ba109.gydF4y2Ba),gydF4y2Ba玉米gydF4y2Ba(gydF4y2Ba110.gydF4y2Ba那gydF4y2Ba111.gydF4y2Ba]gydF4y2Ba。gydF4y2Ba这些模式生物的基因组组装经常更新,并且端粒到端粒的序列几乎完整,有较少的间隙和未知的核苷酸。此外,通过挖掘文献中大量可用的RNA-Seq数据集,他们的基因注释也经历了定期的改进。此外,拟南芥信息资源(TAIR)根据每个基因的可用证据提供了一个五星评级系统。该系统为基因注释软件的质量检测提供了一个平台。为了进一步评估,并确保FINDER能够注释更广泛的基因组类型,我们选择了以下额外的物种进行测试:CgydF4y2Baaenorhabditis线虫gydF4y2Ba(gydF4y2Ba112.gydF4y2Ba]gydF4y2Ba,果蝇黑胶gydF4y2Ba(gydF4y2Ba113.gydF4y2Ba那gydF4y2Ba114.gydF4y2Ba]gydF4y2Ba,homo sapiens.gydF4y2Ba(gydF4y2Ba115.gydF4y2Ba那gydF4y2Ba116.gydF4y2Ba]gydF4y2Ba、大麦gydF4y2Ba(gydF4y2Ba117.gydF4y2Ba]gydF4y2Ba那gydF4y2Ba和gydF4y2BaTriticum Aestivum.gydF4y2Ba(gydF4y2Ba117.gydF4y2Ba那gydF4y2Ba118.gydF4y2Ba那gydF4y2Ba119.gydF4y2Ba那gydF4y2Ba120.gydF4y2Ba])。这些物种的基因组范围从小(gydF4y2Ba秀丽隐杆线虫gydF4y2Ba那gydF4y2BaD. Melanogaster,A. ThalianagydF4y2Ba), 中等的 (gydF4y2Bao .漂白亚麻纤维卷gydF4y2Ba),大(gydF4y2BaH. Sapiens,Z.MaysgydF4y2Ba那gydF4y2BaH.Vulgare,gydF4y2Ba和gydF4y2Bat . aestivumgydF4y2Ba)。最后,我们在三个不同版本上评估了FINDERgydF4y2Baz梅斯gydF4y2Ba注释 - Refseq [gydF4y2Ba121.gydF4y2Ba], AGPv3 [gydF4y2Ba111.gydF4y2Ba那gydF4y2Ba122.gydF4y2Ba]和AGPv4 [gydF4y2Ba110.gydF4y2Ba那gydF4y2Ba123.gydF4y2Ba]。gydF4y2Ba

评估注释质量的指标gydF4y2Ba

我们使用四个指标来比较每个管道生成的注释的质量:(1)注释编辑距离(AED) [gydF4y2Ba42.gydF4y2Ba那gydF4y2Ba43.gydF4y2Ba那gydF4y2Ba124.gydF4y2Ba],(2)敏感性,(3)特异性,(4)F1评分。虽然这些指标可以在核苷酸水平和外显子水平上计算,但我们选择在转录水平上进行比较,因为它包括碱基、外显子和内含子。AED得分为0表示预测注释与参考文献完全一致,得分为1表示标注中未识别出参考文献。只有当一个转录本的所有内含子定义与预测集合中的至少一个转录本一致时,该转录本才被认为是“被识别的”。我们使用Mikado“compare”实用程序将预测与参考注释进行比较[gydF4y2Ba125.gydF4y2Ba]。高度敏感的注释是可以正确认识更多参考转录物的注释。当报告最小不正确的成绩单时,一组注释具有很高的特异性。对于质量良好的注释,敏感性和特异性都应该高。平衡度量是F1分数,这是灵敏度和特异性的谐波平均值。虽然AED提供了一个良好的数字评估,但是在注释中,当单独使用时,在注释中呈现的良好数字评估,但在单独使用时,它无法捕获报告误报的程度。因此,F1评分AED融合了特异性和敏感性。为了评估目的,我们假设通过社区努力实现的注释是实地真理并没有错误。gydF4y2Ba

FINDER生成的基因模型比BRAKER2、MAKER2和PASA更精确gydF4y2Ba

查找器利用表达数据来构建成绩录模型,采用统计变换点检测来增强它们的结构(参见“gydF4y2Ba实现gydF4y2Ba”一节)。MAKER2和PASA均用PsiCLASS报告的转录序列进行检测。gydF4y2Ba

为了评估查找器的性能,我们比较了Finder产生的成绩单模型的AED分数与其他常用的注释方法产生的那些。如图1所示。gydF4y2Ba3.gydF4y2BaA,D,G,Finder的小提琴图在基础上更宽,表明与Braker2,Maker和Pasa相比,具有较低的AED分数的数量增加的转录物。我们将Finder AED分数与其他管道报告的AED分数进行了比较,使用Wilcoxon签名的等级测试(在附加文件中有更多细节gydF4y2Ba9.gydF4y2Ba:教派。2.5)。对所有生物体(图。gydF4y2Ba3.gydF4y2Ba额外的文件gydF4y2Ba1gydF4y2Ba:无花果。S2-S5和其他文件gydF4y2Ba3.gydF4y2Ba:表S2), FINDER报告的AED评分显著降低(gydF4y2BapgydF4y2Ba_value < 0.01)。数字gydF4y2Ba3.gydF4y2Bac, f, i,显示了一个堆叠条形图来表示转录本在每一类AED值中的比例。在所有的案例中,FINDER报告的较高百分比的成绩单具有较低的AED分数(附加文件gydF4y2Ba1gydF4y2Ba:无花果。S2-S5)。这表明FINDER能够构建更好地符合参考注释的基因结构。gydF4y2Ba

图3gydF4y2Ba
图3.gydF4y2Ba

三种模式物种的预测注释性能比较gydF4y2Ba一个gydF4y2Ba-gydF4y2BacgydF4y2Ba答:芥gydF4y2Ba那gydF4y2BadgydF4y2Ba-gydF4y2BafgydF4y2Bao .漂白亚麻纤维卷gydF4y2Ba和gydF4y2BaggydF4y2Ba-gydF4y2Ba我gydF4y2Baz梅斯。gydF4y2Ba注释编辑距离(AED)是对预测注释与证据的一致性程度的评估,并被用作质量控制度量。值为0表示两个注释完全一致,值为1表示未检测到“黄金标准”参考注释。来自“黄金标准”参考注释的没有在任何预测注释中检测到的转录本将从分析中删除。gydF4y2Ba一个gydF4y2Ba那gydF4y2BadgydF4y2Ba那gydF4y2BaggydF4y2Ba分批分配。小提琴图在底座上更宽,表示具有较低AED的注释密度。发现者能够创建具有最低AED的基因模型,从而产生宽底座。通过添加制剂制造的预测并包括蛋白质证据来增强由发现器产生的基因模型。Wilcoxon的签名等级测试用于比较查找器和其他注释管道之间的AED分数。“***”符号意味着Fineer基因模型的AED得分显着较低(P_Value <0.01),而不是其他管道报道的基因模型的AED分数。gydF4y2BabgydF4y2Ba那gydF4y2BaegydF4y2Ba那gydF4y2BahgydF4y2Ba条形图F1评分的多种注释方法。具有高核苷酸F1(基极F1)或高外显子F1得分不足以得出良好的注释。转录物F1评分的高值表明具有高灵敏度和高特异性的良好基因模型。gydF4y2BacgydF4y2Ba那gydF4y2BafgydF4y2Ba那gydF4y2Ba我gydF4y2Ba堆叠条形图显示四组aed中每组转录本的百分比。转录本数量越高,AED越低,表示标注越好。在这三个物种中,与其他注释技术相比,FINDER能够以较低的AED生成更高百分比的转录本。(gydF4y2Ba使用GGPLOT2 V3.3.3生成gydF4y2Ba)gydF4y2Ba

高质量的详尽注释预测最少的假阳性,从而提高转录本F1得分。由FINDER所报道的基因模型的转录F1得分gydF4y2Ba答:芥gydF4y2Ba那gydF4y2Bao .漂白亚麻纤维卷gydF4y2Ba和gydF4y2Baz梅斯gydF4y2Ba高于Braker2,Maker和Pasa产生的模型(图。gydF4y2Ba3.gydF4y2Bab,e,h)。对于探测器在检测核苷酸,外显子,内含子,转录物和基因中成功的其他测试生物中观察到相同的趋势gydF4y2Ba1gydF4y2Ba额外的文件gydF4y2Ba1gydF4y2Ba:无花果。S2-S5和其他文件gydF4y2Ba3.gydF4y2Ba:表S2)。MAKER2和BRAKER2对大多数生物都具有高特异性,因为报告的转录本比FINDER少。MAKER2和BRAKER2的F1得分也较低,表明其敏感度低于FINDER。此外,我们将FINDER所报道的基因CDS区与BRAKER2的CDS区进行了比较。对于大多数生物体,FINDER生成具有较高F1分数的转录模型(附加文件gydF4y2Ba4.gydF4y2Ba:表S3)。这些结果表明,FINDER更好的性能不仅是由于utr的存在,而且由于基因模型的CDS结构的增强。gydF4y2Ba

最后,包括BRAKER2预测和蛋白质序列,用于提高基因模型预测。在最终的注释中包含约15%的Braker2,具有高序列相似性的基因模型,包括在最终注释中(表gydF4y2Ba2gydF4y2Ba)。如表所示gydF4y2Ba1gydF4y2Ba和额外的文件gydF4y2Ba5.gydF4y2Ba:表S4,包括蛋白质水平的证据导致鉴定更多基因。gydF4y2Ba

表2添加BRAKER2预测的基因模型,并对蛋白序列进行比对,整体基因识别的改善情况gydF4y2Ba

与BRAKER2不同,FINDER并不假定基因组的核苷酸组成是同质的[gydF4y2Ba103.gydF4y2Ba]。发现者优于Brukaper2,同时构建像复杂生物中的基因模型gydF4y2Ba智人,庸俗人,gydF4y2Ba和gydF4y2Baz梅斯gydF4y2Ba因为通过比对产生转录组的组装器不需要基因组具有同质的核苷酸组成。gydF4y2Ba

Finder本身通常仅限于在基因组的区域内注释基因,这些基因是转录活性的。认识到BRAKER2,作为基因预测器,可以构建基因组的转录静音区域中的基因模型,旨在将BRAKER2预测的基因模型掺入最终注释中。gydF4y2Ba

用探测器准确地注释不同的基因组gydF4y2Ba

虽然真核基因在位置、结构和编码的异构体上彼此不同,但大多数注释管道都用全局统一的方法注释和评估基因预测。当这些差异促使每个管道在不同的基因组上表现不同时,问题就出现了。为了避免这个陷阱,我们根据不同的标准创建了一组基因和转录本(表gydF4y2Ba3.gydF4y2Ba),并比较了FINDER与BRAKER2、MAKER和PASA的性能。gydF4y2Ba

表3基于其相对位置的基因模型对不同群体的分类,对其他基因,同种型数量和其他标准gydF4y2Ba

在一组包含utr的转录本中,FINDER报告了最佳转录本F1得分(图。gydF4y2Ba4.gydF4y2Ba额外的文件gydF4y2Ba1gydF4y2Ba:无花果。S6、S7)。与BRAKER2不同,FINDER使用GeneMark S/T从PsiCLASS组装的转录序列中预测CDS,从而可以注释UTR区域。对于大多数生物体,BRAKER2和MAKER2基因模型在这类基因中登记低转录F1分数。接下来,我们测试了位于基因组中靠近转录本的注释管道的性能。在这组成绩单中,FINDER报告了最佳F1成绩单分数gydF4y2BaA. Thaliana,O. Sativa,gydF4y2Ba和gydF4y2Baz梅斯gydF4y2Ba(无花果。gydF4y2Ba4.gydF4y2Ba)和可比分数gydF4y2BaD. Melanogaster.gydF4y2Ba(附加文件gydF4y2Ba1gydF4y2Ba:图S6),gydF4y2BaH.Vulgare.gydF4y2Ba(附加文件gydF4y2Ba1gydF4y2Ba:图S8),和gydF4y2Ba秀丽隐杆线虫gydF4y2Ba(附加文件gydF4y2Ba1gydF4y2Ba:图。S7)用Braker2。大多数真核基因具有多种同种型,其通过外显子内定义彼此不同。接头位点和覆盖信息提供了构造这种可换切的转录物的线索。我们选择了具有多个成绩单的基因,以检查每个注释管道是否能够检测到转录同种型的程度。对于这种情况,Finder能够在所有管道基因注释软件应用中产生具有最高转录物F1得分的最佳转录结构(图。gydF4y2Ba4.gydF4y2Ba和额外的文件gydF4y2Ba1gydF4y2Ba:无花果。S6-S9)。令人惊讶的是,尽管BRAKER2接受了RNA-Seq数据中检测到的所有剪接位点的训练,但在这一类别中表现不佳。这表明FINDER能够利用内含子剪接位点和阅读覆盖率来报告最佳转录本结构。为gydF4y2Ba智人gydF4y2Ba,PASA能够在所有类别的转录物上产生最佳的成绩单结构。添加来自Braker2和蛋白质证据的转录物改善了所有生物体的成绩单F1分数,这表示掺入De Novo基因模型和蛋白质证据的重要性。gydF4y2Ba

图4gydF4y2Ba
装具gydF4y2Ba

FINDER与其他管道在不同的基因组在三个模式物种-gydF4y2Ba一个gydF4y2Ba答:芥gydF4y2Ba那gydF4y2BabgydF4y2Bao .漂白亚麻纤维卷gydF4y2Ba那gydF4y2BacgydF4y2Baz梅斯gydF4y2Ba。F1得分为敏感性与特异性的调和平均值。F1得分越高,说明与参考转录本模型的一致性越好。我们创建了一组具有类似y轴图例所示特征的转录本。我们创建了一个包含多外显子转录本预测的转录本库,从每个管道中都有一个完整的内含子链与至少一个参考注释匹配。如果至少80%的核苷酸与一个参考注释重叠,则考虑单外显子转录本。每个注释管道的Transcript F1分数都被绘制成条形图。尽管所有注释管道都被设计为用于注释基因组的相同目的,但每个管道都采用不同的策略。每种策略都有自己的优缺点,可以更好地对某一类基因进行注释。此图有助于理解不同类别上每个注释管道的性能。 The symbol “#” denotes the best annotator in each gene group. (使用GGPLOT2 V3.3.3生成gydF4y2Ba)gydF4y2Ba

BRAKER2产生具有单个外显子的一组转录物的最佳转录注释(图。gydF4y2Ba4.gydF4y2Baa, b和附加文件gydF4y2Ba1gydF4y2Ba:无花果。S6-S9)。这种没有任何内含子的转录本很难仅从RNA-Seq中构建。同时,剪接位点的方向也决定了转录本的方向。在没有任何内含子的情况下,这种单外显子转录本必须探测CDS序列的存在以推断其方向性。BRAKER2被配置为只对基因的CDS区进行最佳预测,因此,对于具有小和中等基因组的生物体,它与缺少utr的转录本集表现良好(图。gydF4y2Ba4.gydF4y2Baa, b和附加文件gydF4y2Ba1gydF4y2Ba:图S6-S9)。BRAKER2报告的每个基因平均转录本数低于FINDER。虽然这提高了特异性,但它影响了回忆,因为BRAKER2对检测选择性剪接转录本不敏感。因此,当对一组单转录基因进行测试时,BRAKER2的F1得分最高,但在一组多转录基因上表现较差(图1)。gydF4y2Ba4.gydF4y2Baa, b和附加文件gydF4y2Ba1gydF4y2Ba:无花果。S6-S9)。gydF4y2Ba

TAIR 5星系统的性能比较gydF4y2Ba

为了评估从不同证据水平构建的基因组上的注释管道的性能,我们使用了Tair10 5星系统。TAIR将质量分数与每个人联系在一起gydF4y2Ba答:芥gydF4y2Ba基于用于构建模型的证据的成绩单,有五个星星指定最佳证据和零明星最少[gydF4y2Ba126.gydF4y2Ba]。证据有限的三个类别(< 3星)的记录都少于3000份。BRAKER2在这三类基因上的表现略好于其他注释管道(图1)。gydF4y2Ba5.gydF4y2Ba)。另外两类(五星级和四星)分别有9,067和18,374份转录物。在这两个类别中,发现者能够检测更多的成绩单,而不是任何其他注释管道。5-星级和4星类别的51.5%和86.4%分别是多偏振的。在这两个类别中,与任何其他注释管道相比,查找器正确地构建了更多的基因模型(图。gydF4y2Ba5.gydF4y2Ba)。FINDER报告80%的基因模型属于4星类,比BRAKER2多18%(图。gydF4y2Ba5.gydF4y2Ba)。因此,从这一分析中可以明显看出,FINDER可以重建大多数有充分证据支持的基因的结构。gydF4y2Ba

图5gydF4y2Ba
figure5gydF4y2Ba

基因组注释管道的表现gydF4y2Ba拟南芥gydF4y2Ba由Tair10生成。拟南芥信息资源(TAIR)组创建了质量排名系统,以指示注释基因/转录物中的置信水平。排名系统有五个级别(由星星表示)。较高数量的恒星表示更多信息以产生基因结构的可用性。在这里,我们在每个类别中显示由特定注释管道识别的每个类别中的转录物的百分比。高比例的鉴定的转录物表明较高的灵敏度,因此更好的注释。X轴中的每个图例下方的数字表示该相应组中的基因数。“#”表示预测器,其检测每个组内的最大转录物数。(gydF4y2Ba使用GGPLOT2 V3.3.3生成gydF4y2Ba)gydF4y2Ba

使用变更点分析改进文本注释gydF4y2Ba

多重重叠基因对基因组股线的共同位置使得难以正确注释它们的结构(参见“gydF4y2Ba抛光基因结构优化基因发现gydF4y2Ba”一节)。查找器采用ChangePoint检测(CPD)[gydF4y2Ba101.gydF4y2Ba]分割Psiclass报告的合并转录物(图。gydF4y2Ba2gydF4y2Ba)。为了衡量CPD应用带来的转录组结构的改善程度,我们基于阅读覆盖率比较了CPD实施前后预测转录组的准确性。如表所示gydF4y2Ba4.gydF4y2Ba和额外的文件gydF4y2Ba6.gydF4y2Ba:表S5,实施CPD改善了具有小或中型基因组的生物体的特异性和敏感性。在gydF4y2Ba答:芥gydF4y2Ba,转录物F1分数从40.78增加到45.95(表gydF4y2Ba4.gydF4y2Ba和额外的文件gydF4y2Ba6.gydF4y2Ba:表S5)和ingydF4y2Ba秀丽隐杆线虫gydF4y2Ba它从40到50增加。在大型基因组中,改善并不显着,主要是因为只有几个基因彼此重叠。gydF4y2Ba

表4草莓、扇贝、Stringtie、PsiCLASS和FINDER生成的转录本组件对三种模式生物-的特异性、敏感性和F1评分比较gydF4y2BaA. Thaliana,O. SativagydF4y2Ba和gydF4y2Baz梅斯gydF4y2Ba

PsiCLASS元装配比其他方法工作得更好gydF4y2Ba

我们探索了三种普遍使用的软件应用程序,用于合并转录数组汇编-Sringtie-Merge [gydF4y2Ba77.gydF4y2Ba那gydF4y2Ba127.gydF4y2Ba那gydF4y2Ba128.gydF4y2Ba那gydF4y2Ba129.gydF4y2Ba那gydF4y2Ba130.gydF4y2Ba那gydF4y2Ba131.gydF4y2Ba那gydF4y2Ba132.gydF4y2Ba那gydF4y2Ba133.gydF4y2Ba],炸玉米饼[gydF4y2Ba134.gydF4y2Ba那gydF4y2Ba135.gydF4y2Ba那gydF4y2Ba136.gydF4y2Ba那gydF4y2Ba137.gydF4y2Ba那gydF4y2Ba138.gydF4y2Ba那gydF4y2Ba139.gydF4y2Ba]和袖口[gydF4y2Ba140.gydF4y2Ba那gydF4y2Ba141.gydF4y2Ba那gydF4y2Ba142.gydF4y2Ba那gydF4y2Ba143.gydF4y2Ba那gydF4y2Ba144.gydF4y2Ba那gydF4y2Ba145.gydF4y2Ba[常用词组结合gydF4y2Ba答:芥gydF4y2Ba由stringtie构建的装配块[gydF4y2Ba59gydF4y2Ba], 扇贝 [gydF4y2Ba61.gydF4y2Ba]和草莓[gydF4y2Ba60.gydF4y2Ba](请查看附加文件第三节gydF4y2Ba9.gydF4y2Ba更多的细节)。StringTie-merge报告了最好的组合,因此用于所有其他生物体。我们比较了StringTie-merge生成的共识转录模型与PsiCLASS报告的转录模型的准确性[gydF4y2Ba63.gydF4y2Ba]。如表所示gydF4y2Ba4.gydF4y2Ba和额外的文件gydF4y2Ba6.gydF4y2Ba:表S5, PsiCLASS生成了所有生物体的最佳转录模型,记录了最高的转录F1分数,比StringTie模型提高了高达15%。因此,FINDER仅使用PsiCLASS从短读数据生成程序集。gydF4y2Ba

未翻译区缺失对转录本注释的影响gydF4y2Ba

通过基因的启动子区域中的转录因子粘附来触发基因转录。促进剂通常位于基因转录开始部位(TSS)上游的1,000bp内[gydF4y2Ba146.gydF4y2Ba那gydF4y2Ba147.gydF4y2Ba那gydF4y2Ba148.gydF4y2Ba]。从测序数据中确定TSS最方便RAMPAGE [gydF4y2Ba149.gydF4y2Ba那gydF4y2Ba150gydF4y2Ba]或笼子-SEQ [gydF4y2Ba151gydF4y2Ba]但是由于成本和时间所施加的约束,这种数据通常是不可用的。然而,通过假设组装基因的开始坐标作为TSS,可以通过RNA-SEQ数据获得良好的估计。因此,研究人员经常将他们的调查定位在假定的TSS上游第500-1000 BP的调查[gydF4y2Ba152gydF4y2Ba那gydF4y2Ba153gydF4y2Ba]。没有5'UTR注释,不可能推断出TSS的良好近似。这导致在完全不正确的基因组位置进行启动子挖掘。为了评估5'UTR注释的质量,我们绘制了参考基因与Braker2和Finders的基因之间的TSS的差异,使用小提琴图(图。gydF4y2Ba6.gydF4y2Ba)。进一步,我们应用Wilcoxon秩和检验,发现FINDER报告的TSS距离显著小于BRAKER2gydF4y2Ba答:芥gydF4y2Ba和gydF4y2Baz梅斯gydF4y2Ba。有趣的是,对gydF4y2Bao .漂白亚麻纤维卷gydF4y2Ba,BRAKER2为更多转录物产生了更好的基因模型。超过25%的参考基因模型gydF4y2Bao .漂白亚麻纤维卷gydF4y2Ba没有UTRS注释,与15%的UTR少的基因模型相比较高gydF4y2Ba答:芥gydF4y2Ba和gydF4y2Baz梅斯gydF4y2Ba。该结果说明了与由Braker2报道的转录物的TSS相比,更多的发现者转录物具有更接近证据的TSS。这是预期的结果,因为Braker2被配置为仅注释转录物的CDS区域。桌子gydF4y2Ba5.gydF4y2Ba突出显示与Finder和Braker2的参考TS更好的成绩单数量。gydF4y2Ba

图6.gydF4y2Ba
figure6gydF4y2Ba

Braker2和Finder预测的基因模型转录开始网站之间的距离比较。实际转录起始网站(TSS)与预测转录开始站点之间距离分布的小提琴图。在一组井注释完全基因结构中,预期较高的基因部分与实际TSS具有较低的偏差。我们考虑了在这种分析中在任何Braker或Finder中报道的基因。Wilcoxon的等级和测试用于比较Finder和Braker2之间的TSS距离。“***”符号意味着finder基因模型的TSS距离显着低于Braker2基因模型。(gydF4y2Ba使用GGPLOT2 V3.3.3生成gydF4y2Ba)gydF4y2Ba

表5使用RNA-SEQ证据来改善未翻译区域的注释,以帮助启动子挖掘和表观遗传学研究gydF4y2Ba

通过延长未经翻译的地区加强地面真相注释gydF4y2Ba

几种模型生物的官方注释,用作本研究的基础事实,含有缺失的UTR序列的成绩单。尽管UTRS没有代码蛋白质,它们是在MRNA翻译中涉及几个重要的生物方法中涉及的成绩单的相关细分[gydF4y2Ba154gydF4y2Ba那gydF4y2Ba155gydF4y2Ba那gydF4y2Ba156gydF4y2Ba],表达的调节[gydF4y2Ba157gydF4y2Ba那gydF4y2Ba158gydF4y2Ba那gydF4y2Ba159gydF4y2Ba那gydF4y2Ba160gydF4y2Ba那gydF4y2Ba161gydF4y2Ba]和一些疾病[gydF4y2Ba162gydF4y2Ba那gydF4y2Ba163gydF4y2Ba那gydF4y2Ba164gydF4y2Ba那gydF4y2Ba165gydF4y2Ba那gydF4y2Ba166gydF4y2Ba]。在gydF4y2Ba答:芥gydF4y2BaTAIR10注释,有7888个转录本缺失;其中50%的用户的评分低于2星。gydF4y2Ba

PacBio (Menlo Park, CA)提供同时包含CDS和utr的长读测序。因此,我们使用PacBio注释代替不完整的TAIR10转录本来评估FINDER在缺少utr的转录本上的性能(请参阅附加文件中的2.6节gydF4y2Ba9.gydF4y2Ba更多的细节)。在7,888个Tair10转录中,缺乏UTRS,PACBIO数据和116个短读RNA-SEQ样品中发现了113种转录物。我们将查找器注释与这些113转录物进行比较。Finder注释能够记住Tair10的113名转录物的91.55%和PacBio转录物的97.86%。与TAIR10转录物相比,PACBIO转录物(79.67%)的发现者注释的特异性显着较高(72.14%)。这表明发现者增强并改善了现有的注释。gydF4y2Ba

的TRITEXgydF4y2BaH.Vulgare.gydF4y2Ba注释(Morex version r2) [gydF4y2Ba117.gydF4y2Ba[由国际大麦测序联盟(IBSC)发布的,缺乏UTR。我们使用Finder来更新并通过两侧使用UTR的CDS区域来更新和丰富现有的注释。为了验证Finder报道的基因模型的准确性,我们使用PacBio全长MRNA序列来自粉末状霉菌受感染的大麦叶组织的时间过程[gydF4y2Ba167gydF4y2Ba那gydF4y2Ba168gydF4y2Ba]。来自IBSC,Finder和PACBIO共有7,352种基因模型,彼此具有完整的内部链条。与PACBIO全长序列相比(附加档案,GENE结构超过93%(7,352分中的6,886分)的发现模型(附加文件gydF4y2Ba7.gydF4y2Ba:表S6)。F1最高得分为87.16。这表明FINDER能够构建构成CDS和utr的精确基因结构。gydF4y2Ba

的不同注释评估性能gydF4y2BaZea May.gydF4y2Ba年代gydF4y2Ba

z梅斯gydF4y2Ba是一种重要的作物模式生物,是几个不同领域的研究人员对遗传学研究最多的植物之一[gydF4y2Ba169gydF4y2Ba那gydF4y2Ba170.gydF4y2Ba那gydF4y2Ba171.gydF4y2Ba那gydF4y2Ba172.gydF4y2Ba]。基因已使用不同类型的数据以多种方式注释,从而导致基因结构的显着差异[gydF4y2Ba122.gydF4y2Ba]。在这里,我们比较三个替代的注释集gydF4y2Baz梅斯gydF4y2Ba-refseq,AGPv3和AGPv4以及Finder的性能超过了所有三种方法。针对NCBI基因模型比较的Finder基因模型的转录物F1分数为43.48,而AgPv3和AgPv4的F1分别分别为26.69和22.51。我们观察到其他注释管道的相同趋势,并报告了NCBI的更高转录物F1得分而不是AGP注释(表gydF4y2Ba1gydF4y2Ba和额外的文件gydF4y2Ba3.gydF4y2Ba:表S2)。因此,查找剂产生高质量的基因结构,具有高转录物F1分数的不同gydF4y2Baz梅斯gydF4y2Ba注释。gydF4y2Ba

评价FINDER在不同进化枝上的报道gydF4y2Ba

每个生物体的基因可以根据它们的进化史进行分类[gydF4y2Ba173.gydF4y2Ba那gydF4y2Ba174.gydF4y2Ba]。我们使用了系统进化器[gydF4y2Ba175.gydF4y2Ba把基因分类到进化的层次。本文介绍了三种模式生物的研究结果gydF4y2BaA. Thaliana,O. Sativa,gydF4y2Ba和gydF4y2Baz梅斯gydF4y2Ba。对于所有三个,发现者能够在高度填充的地层中准确地检测更多的基因(图。gydF4y2Ba7.gydF4y2Ba)。Finder和Pasa的性能在具有少量基因的地层中可比较。令人惊讶的是要注意,Braker2无法识别高度保守的基因(来自“细胞生物”地层的那些),因为这些比那些比生物特异性基因更容易预测。这证明了发现者能够有效地构建来自不同进化背景的基因。gydF4y2Ba

图7.gydF4y2Ba
figure7gydF4y2Ba

从三种模型物种中评估来自每种诸至关重要的基因基因的注释管道 -gydF4y2Ba一个gydF4y2Ba拟南芥gydF4y2Ba那gydF4y2BabgydF4y2Ba栽培稻gydF4y2Ba和gydF4y2BacgydF4y2Ba玉米gydF4y2Ba,用系统进化器将其划分为进化类。每个管道正确构建的基因数量被计算出来并绘制成条形图。每个地层下面的数字表示分配给该地层的基因数量。基因少于500的阶层没有显示在图中。(gydF4y2Ba使用GGPLOT2 V3.3.3生成gydF4y2Ba)gydF4y2Ba

FINDER为多倍体基因组构建基因模型gydF4y2Ba

作为通用基因组注释器,除了二倍体生物外,发现者还可以注释多倍体生物的基因组。我们生成了基因结构gydF4y2Ba小麦,gydF4y2Ba一个含有120,744个注释基因和146,597个转录本的六倍体[gydF4y2Ba117.gydF4y2Ba]。FINDER能检出48,129个转录本(39.9%)。在FINDER预测的130582份转录本中,48104份(36.83%)与至少一个参考注释完美匹配。gydF4y2Ba

结论gydF4y2Ba

从大量证据中识别染色体上的基因并推断其结构的方法有多种,每种方法都有其优缺点。在这里,我们提出了finder -一个完全自动化的、通用的管道来注释真核基因组中的基因。FINDER(1)实现了一种优化的映射策略,减少了假映射的数量,(2)在识别带有微外显子的转录本时产生包含utr的完整全长转录本,(3)使用统计CPD来修改基因边界并构建新基因,(4)与其他最先进的注释管道相比,报告更多的选择性拼接的转录本,(5)根据用于构造这些转录本的证据为每个转录本分配置信类。gydF4y2Ba

FINDER的性能优于其他基因注释软件,并对FINDER报告的所有基因模型进行了预测。因此,验证是必要的,以确保假阳性被检测和消除。此外,FINDER的未来版本将提供功能来利用来自CAGE-Seq和Ribo-Seq的数据来更好地分别注释转录起始位点和翻译起始位点。gydF4y2Ba

由于可用于注释的数据种类繁多,研究人员往往难以管理和优化它们的使用。一些基因注释软件也为用户提供了复杂的配置,但没有提供实质性的指导。FINDER通过自动化从RNA-Seq数据处理到基因预测的整个过程,使bench科学家的基因注释工作变得容易。由于FINDER不假定基因组的倍性或核苷酸组成,它可以应用于衍生广泛的物种的基因结构,包括非模式生物。FINDER主要从RNA-Seq数据构建基因模型,因此能够构建仅从ESTs无法获得的组织和/或条件特异性亚型。FINDER通过利用读取覆盖信息来微调基因模型边界,取代了现有软件应用程序的性能。FINDER不是删除低质量的转录本,而是将它们标记为低信心——让用户选择使用它们,因为它们看起来合适。作为一种概念证明,我们提供了使用读取覆盖信号确实可以增强多种生物的基因结构的证据。因此,我们相信FINDER将为未来改进基因结构注释铺平道路。gydF4y2Ba

可用性和需求gydF4y2Ba

项目名称:仪。gydF4y2Ba

项目主页:欧宝直播官网appgydF4y2Bahttps://github.com/sagnikbanerjee15/finder.gydF4y2Ba。gydF4y2Ba

操作系统:Linux、MacOS。gydF4y2Ba

编程语言:Python,C,C ++,Perl,shell。gydF4y2Ba

许可证:麻省理工学院。gydF4y2Ba

其他软件需求:列出所有软件需求gydF4y2Bahttps://github.com/sagnikbanerjee15/Finder/blob/master/environment.ymlgydF4y2Ba。gydF4y2Ba

非学者使用的任何限制:麻省理工学院许可限制适用。gydF4y2Ba

可用性数据和材料gydF4y2Ba

搜索机可以从gydF4y2Bahttps://github.com/sagnikbanerjee15/finder.gydF4y2Ba。用于注释的RNA-Seq样本包含在附加文件中gydF4y2Ba8.gydF4y2Ba:表S7。大麦PACBIO序列已在NCBI(项目ID:GSE165730)中存放。gydF4y2Ba

缩写gydF4y2Ba

est序列:gydF4y2Ba

表达序列标签gydF4y2Ba

门店:gydF4y2Ba

新一代测序gydF4y2Ba

NCBI:gydF4y2Ba

国家生物技术信息中心gydF4y2Ba

SRA:gydF4y2Ba

序列读取存档gydF4y2Ba

UTR:gydF4y2Ba

未翻译区gydF4y2Ba

CSV:gydF4y2Ba

逗号分隔值gydF4y2Ba

AED:gydF4y2Ba

注释编辑距离gydF4y2Ba

CPD:gydF4y2Ba

Changepoint检测gydF4y2Ba

TSS:gydF4y2Ba

转录开始网站gydF4y2Ba

CD:gydF4y2Ba

编码序列gydF4y2Ba

中央处理器:gydF4y2Ba

中央处理单元gydF4y2Ba

互补脱氧核糖核酸:gydF4y2Ba

互补DNAgydF4y2Ba

参考文献gydF4y2Ba

  1. 1。gydF4y2Ba

    基因组列表 - 基因组-NCBI。gydF4y2Bahttps://www.ncbi.nlm.nih.gov/genome/browse/# !/overview/gydF4y2Ba。访问2021年1月12日。gydF4y2Ba

  2. 2。gydF4y2Ba

    Morganti S,Tarantino P,Ferraro E,D'Amico P,Viale G,Trapani D等人。基因组测序和报告的复杂性:下一代测序(NGS)技术和实际精密药物的实施。Crit Rev ovcol Hematol。2019; 133:171-82。gydF4y2Ba

    PubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  3. 3。gydF4y2Ba

    Koboldt Dc,Steinberg km,Larson de,Wilson Rk,Mardis Er。下一代测序革命及其对基因组学的影响。细胞。2013; 155:27-38。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  4. 4.gydF4y2Ba

    道格拉斯议员菲利普斯·卡下一代测序测试的全球市场继续保持着火热的步伐。临床医学杂志;2018:4。gydF4y2Ba

    谷歌学术gydF4y2Ba

  5. 5.gydF4y2Ba

    Kulski JK。下一代测序——历史、工具和“Omic”应用的概述。新一代测序技术进展、应用与挑战。2016;3-60。gydF4y2Ba

  6. 6.gydF4y2Ba

    在蛋白质糖基化预测方面,氨基酸的相关物理化学性质的鉴定。见:计算与通信(IEMCON), 2015国际会议与研讨会。IEEE;2015. p。1-7.。gydF4y2Ba

  7. 7。gydF4y2Ba

    Banerjee S,Basu S,Nasipuri M.大数据分析及其在计算蛋白质组学中的前景。在:信息系统设计和智能应用程序。施普林格;2015. p。591-8。gydF4y2Ba

  8. 8。gydF4y2Ba

    Banerjee S, Velásquez-Zapata V, Fuerst G, Elmore JM, Wise RP, Elmore M. NGPINT:下一代蛋白质交互软件。短暂的Bioinform。2020;2020:1-14。gydF4y2Bahttps://doi.org/10.1093/bib/bbaa351gydF4y2Ba。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  9. 9。gydF4y2Ba

    Rao vs,Srinivas k,Sujini Gn,Kumar Gn。蛋白质 - 蛋白质相互作用检测:方法和分析。in j proteom。2014; 2014:147648。gydF4y2Ba

    谷歌学术gydF4y2Ba

  10. 10。gydF4y2Ba

    Patel S,Tripathi R,Kumari V,Varadwaj P. Deepinteract:基于深神经网络的蛋白质 - 蛋白质相互作用预测工具。Curr Bioinform。2017; 12:551-7。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  11. 11.gydF4y2Ba

    陈敏,琚长涛,周刚,陈旭,张涛,张克伟,等。基于siamese残差rcnn的多面蛋白-蛋白相互作用预测。生物信息学。2019;35:305-14。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  12. 12.gydF4y2Ba

    杨氏,李H,何H,周Y,张Z。植物病原体蛋白质 - 蛋白质相互作用预测方法的关键评价与性能提高。简短生物形式。2019; 20:274-87。gydF4y2Ba

    PubMedgydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  13. 13。gydF4y2Ba

    Li Y,Ilie L. Sprint:超自行蛋白质 - 蛋白质 - 蛋白质 - 蛋白质 - 蛋白酶互动预测。BMC生物素。2017; 18:485。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  14. 14。gydF4y2Ba

    Velásquez-zapata v,Elmore Jm,Banerjee S,Dorman Ks,Wise Rp。下一代酵母二杂化分析与Y2H分数识别MLA免疫受体的新型交互式。PLOS计算BIOL 2021。gydF4y2Ba

  15. 15.gydF4y2Ba

    Banerjee S,Ghosh D,Basu S,Nasipuri M.Jupred_mlp:使用MLP分类器共有预测磷酸化位点。2016年。gydF4y2Ba

  16. 16.gydF4y2Ba

    Banerjee S,Ghosh D,Basu S,Nasipuri M.Jupred_SVM:使用SVM分类器共有预测磷酸化位点。in:第五届软资金问题解决问题解决方案。施普林格;2016. p。1-8。gydF4y2Ba

  17. 17。gydF4y2Ba

    Banerjee S,NAG S,Tapadar S,Ghosh S,Guha S,Bakshi S.通过选择氨基酸的合适的理化性质来改善蛋白质蛋白质相互作用预测。见:计算与通信(IEMCON), 2015国际会议与研讨会。IEEE;2015. p。1-8。gydF4y2Ba

  18. 18。gydF4y2Ba

    Banerjee S, Basu S, Ghosh D, Nasipuri M. PhospredRF:使用一致的随机森林分类器预测蛋白质磷酸化位点。见:计算与通信(IEMCON), 2015国际会议与研讨会。IEEE;2015. p。1-7.。gydF4y2Ba

  19. 19。gydF4y2Ba

    关键词:深度学习,蛋白质磷酸化位点,深度学习,深度学习生物信息学。2019;35:2766 - 73。gydF4y2Bahttps://doi.org/10.1093/bioinformatics/bty1051gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  20. 20.gydF4y2Ba

    Li F, Li C, Marquez-Lago TT, Leier A, Akutsu T, Purcell AW等。短尾矮袋鼠:一个全面的工具,快速、准确的激酶family-specific磷酸化位点预测人类蛋白质组。生物信息学。2018;34:4223-31。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  21. 21.gydF4y2Ba

    宋j,王h,王j,leier a,marquez-lago t,杨b等。磷脂:通过整合异质特征选择来预测人激酶特异性磷酸化基材和位点的生物信息学工具。SCI批准。2017; 7:1-19。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  22. 22.gydF4y2Ba

    Chen H,Xue Y,Huang N,Yao X,Sun Z.备忘:用于预测蛋白质甲基化修饰的网格工具。Nucl酸res。2006; 34 SUPPL_2:W249-53。gydF4y2Ba

  23. 23.gydF4y2Ba

    从氨基酸序列预测蛋白质的翻译后修饰。In:生命科学的数据挖掘技术。施普林格;2010.p . 365 - 84。gydF4y2Ba

  24. 24.gydF4y2Ba

    Elmore MG, Banerjee S, Pedley KF, Ruck A, Whitham SA。厚根棘鼠的从头转录组揭示了感染过程中假定的效应库。Physiol Mol Plant Pathol. 2020;110:101464。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  25. 25.gydF4y2Ba

    Frantzeskakis L,Kracher B,Kusch S,Yoshikawa-Maekawa M,Bauer S,Pedersen C,等。宿主专业的签名和最近在真菌大麦粉状霉菌病原体的动态单速基因组中的转置元素爆发。BMC基因组学。2018; 19:381。gydF4y2Bahttps://doi.org/10.1186/s12864-018-4750-6gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  26. 26.gydF4y2Ba

    植物-病原体相互作用中的机器学习:从田间规模到基因组规模的生物学预测。新植物学家。2019;nph.15771。gydF4y2Bahttps://doi.org/10.1111/3ph.15771gydF4y2Ba。gydF4y2Ba

  27. 27.gydF4y2Ba

    Sperschneider J,Dodds Pn,Singh Kb,Taylor JM。Apoplastp:使用机器学习预测Apoplast中的效果和植物蛋白。新的植物学家。2017年。gydF4y2Ba

  28. 28.gydF4y2Ba

    Sperschneider J, Gardiner DM, Dodds PN, Tini F, Covarelli L, Singh KB等。利用机器学习预测分泌组的真菌效应蛋白。新植醇。2016;210:743 - 61。gydF4y2Bahttps://doi.org/10.1111/nph.13794gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学术gydF4y2Ba

  29. 29.gydF4y2Ba

    利用轮廓、机器学习和结构相似性,几乎完美地预测蛋白质二级结构和相对溶剂可及性。生物信息学。2014;:btu352。gydF4y2Ba

  30. 30.gydF4y2Ba

    McGuffin LJ,Bryson K,Jones Dt。Psipred蛋白质结构预测服务器。生物信息学(牛津,英格兰)。2000; 16:404-5。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  31. 31.gydF4y2Ba

    拉斯科夫斯基,华生JD,桑顿JM。使用局部3D模板预测蛋白质功能。中国生物医学工程杂志。2005;351:614-26。gydF4y2Bahttps://doi.org/10.1016/j.jmb.2005.05.067gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  32. 32。gydF4y2Ba

    通过头脑风暴共识改进蛋白质紊乱预测。见:计算与通信(IEMCON), 2015国际会议与研讨会。IEEE;2015. p。1-7.。gydF4y2Ba

  33. 33。gydF4y2Ba

    下一代基因组注释:我们仍在努力获得正确的结果。欧宝体育2021足球欧洲杯买球平台生物医学中心;2019.gydF4y2Bahttps://doi.org/10.1186/s13059-019-1715-2gydF4y2Ba。gydF4y2Ba

  34. 34。gydF4y2Ba

    del Angel VD, Hjerde E, Sterck L, Capella-Gutierrez S, Notredame C, Pettersson OV等。开始基因组组装和注释的十个步骤。F1000Research。2018; 7。gydF4y2Ba

  35. 35。gydF4y2Ba

    充分披露:基因组组装仍然是困难的。公共科学图书馆杂志。2018;16:e2005894。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  36. 36。gydF4y2Ba

    Haas Bj,Delcher Al,Mount Sm,Wortman Jr,Smith Rk Jr,Hannick Li等。利用最大转录对准组件改善拟南芥基因组注释。Nucl酸res。2003; 31:5654-66。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  37. 37。gydF4y2Ba

    Salamov A, Solovyev V. Fgenesh多基因预测程序;1998.gydF4y2Ba

  38. 38。gydF4y2Ba

    Solovyev V,Kosarev P,Seledsov I,Vorobyev D.自动注释真核基因,假序和启动子。基因组Biol。2006; 7:S10。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  39. 39.gydF4y2Ba

    关键词:遗传算法,玉米序列,基因预测,遗传算法生物信息学(牛津大学)。1998; 14:232-43。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  40. 40。gydF4y2Ba

    Schweikert G, Zien A, Zeller G, Behr J, Dieterich C, Ong CS, et al. mGene:基于支持向量机的准确基因发现及其在线虫基因组中的应用。基因组研究》2009;19:2133-43。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  41. 41。gydF4y2Ba

    Schlueter Sd,Dong Q,Brendel V.GeneseQer @ PlantGDB:植物基因组中的基因结构预测。Nucl酸res。2003; 31:3597-600。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  42. 42.gydF4y2Ba

    Cantarel BL, Korf I, Robb SMCC, Parra G, Ross E, Moore B,等。一个易于使用的注释管道设计的新兴模式生物基因组。基因组研究》2008;18:188 - 96。gydF4y2Bahttps://doi.org/10.1101/gr.6743907gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  43. 43.gydF4y2Ba

    Holt C,Yandell M. Maker2:用于第二代基因组项目的注释管道和基因组数据库管理工具。BMC生物素。2011; 12:491。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  44. 44.gydF4y2Ba

    Campbell Ms,Law M,Holt C,Stein Jc,Moghe Gd,Hufnagel de等,努力。Maker-P:用于植物基因组注释的快速创造,管理和质量控制的工具套件。植物理性。2014; 164:513-24。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  45. 45.gydF4y2Ba

    Campbell MS, Holt C, Moore B, Yandell M. Genome annotation and cur策using MAKER and MAKER- p。生物信息学。2014;48:4-11。gydF4y2Bahttps://doi.org/10.1002/0471250953.bi0411s48gydF4y2Ba。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  46. 46.gydF4y2Ba

    Vonk FJ, Casewell NR, Henkel CV, Heimberg AM, Jansen HJ, mcleary RJR等。眼镜王蛇的基因组揭示了蛇毒系统中动态的基因进化和适应。2013; 110:20651-6。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  47. 47.gydF4y2Ba

    李毅,李毅,李毅,等。从露脊鲸的基因组中洞悉长寿的进化。细胞众议员2015;10:112-22。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  48. 48.gydF4y2Ba

    张杰,付祥祥,李荣清,赵旭,刘勇,李明辉,等。角苔的基因组和早期陆地植物的进化。自然植物。2020; 6:107-18。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  49. 49.gydF4y2Ba

    灰色mw,汉堡,derelle r,klimešv,leger mm,sarrasin m等。核基因组序列草案和预测的安达卢西亚哥约益蛋白质蛋白质,一种具有最基本的细菌和细菌的线粒体基因组的蛋白质。BMC BIOL。2020; 18:1-35。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  50. 50。gydF4y2Ba

    PENG C,REN J-L,DENG C,JIANG D,Wang J,Qu J等。Shaw's Sea Snake(Hydrophis Curtus)的基因组揭示了对其海洋环境的二次适应。mol Biol Evol;2020.gydF4y2Ba

  51. 51。gydF4y2Ba

    Weitemier K,Straub Sck,Fishbein M,Bailey CD,Cronn RC,Cannon A.作为乳草和Apocynaceae中进化,生态和分子研究的资源作为资源的基因组和转录组。peerj。2019; 7:E7649。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  52. 52.gydF4y2Ba

    张j,张x,唐h,张q,hua x,ma x等。等位基因定义的自动聚合物甘蔗Saccharum Spontaneum L. Nat Genet的基因组。2018; 50:1565-73。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  53. 53.gydF4y2Ba

    Zerbino DR, Birney E. Velvet:基于de Bruijn图的从头短读汇编算法。基因组研究》2008;18:821-9。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  54. 54.gydF4y2Ba

    Grabherr Mg,Haas Bj,Yassour M,Levin Jz,Thompson Da,Amit I等。三位一体:在没有来自RNA-SEQ数据的情况下重建全长转录组。NAT BIOTECHNOL。2011; 29:644。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  55. 55.gydF4y2Ba

    Grabherr Mg,Haas Bj,Yassour M,Levin Jz,Thompson Da,Amit I等。来自RNA-SEQ数据的全长转录组件没有参考基因组。NAT BIOTECHNOL。2011; 29:644-52。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  56. 56。gydF4y2Ba

    Bankevich A,Nurk S,Antipov D,Gurevich AA,Dvorkin M,Kulikov As等。黑桃:一种新的基因组装配算法及其在单细胞排序的应用。j计算biol。2012; 19:455-77。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  57. 57。gydF4y2Ba

    谢y,wu g,唐j,罗r,帕特森j,liu s等。SOAPDENOVO-TRANS:DE Novo转录组合体与短RNA-SEQ读数。生物信息学。2014; 30:1660-6。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  58. 58。gydF4y2Ba

    Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ等。转录本组装和定量的RNA-Seq揭示了在细胞分化过程中未注释的转录本和亚型转换。生物科技Nat》。2010;28:511。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  59. 59。gydF4y2Ba

    Pertea M, Pertea GM, Antonescu CM, Chang T-C, Mendell JT, Salzberg SL. StringTie能够改进从RNA-seq reads重建转录组。生物科技Nat》。2015;33:290-5。gydF4y2Bahttps://doi.org/10.1038/nbt.3122gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  60. 60.gydF4y2Ba

    Liu R,Dickerson J. Strawberry:从RNA-SEQ的快速准确的基因组导脚转录和定量。PLOS计算BIOL。2017; 13:E1005851。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  61. 61.gydF4y2Ba

    关键词:转录本,相位保持图分解,转录本,精确装配生物科技Nat》。2017;35:1167-9。gydF4y2Bahttps://doi.org/10.1038/nbt.4020gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  62. 62.gydF4y2Ba

    Kovaka S,Zimin Av,Pertea Gm,Razaghi R,Salzberg SL,Pertea M.转录组组件从长读RNA-SEQ与StringTie2对齐。基因组Biol。2019; 20:1-13。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  63. 63。gydF4y2Ba

    Song L, Sabunciyan S ., Yang G ., Florea L. .Nat Commun。2019;10:5000。gydF4y2Bahttps://doi.org/10.1038/s41467-019-12990-0.gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  64. 64。gydF4y2Ba

    Hoff KJ,Lange S,Lomsadze A,Borodovsky M,Stanke M. Braker1:无监督的RNA-SEQ基因组与Genemark-et和Augustus的基因组注释:表1.生物信息学。2016; 32:767-9。gydF4y2Bahttps://doi.org/10.1093/bioinformatics/btv661gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  65. 65。gydF4y2Ba

    Hoff KJ,Lomsadze A,Borodovsky M,Stanke M.全基因组与Braker注释。在:基因预测。施普林格;2019. p。65-95。gydF4y2Ba

  66. 66.gydF4y2Ba

    Steijger T, Abril JF, Engström PG, Kokocinski F, Akerman M, Alioto T,等。rna序列转录本重建方法的评估。Nat方法。2013;10:1177 - 84。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  67. 67.gydF4y2Ba

    Lomsadze A,Burss Pd,Borodovsky M.映射RNA-SEQ的集成读入真核基因发现算法的自动训练。Nucl酸res。2014; 42:E119-E119。gydF4y2Bahttps://doi.org/10.1093/nar/gku557gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  68. 68.gydF4y2Ba

    Stanke M, Diekhans M, Baertsch R, Haussler D.使用天然和syntenically定位cDNA比对改进de novo基因的发现。生物信息学。2008;24:637-44。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  69. 69.gydF4y2Ba

    Korf I.基因在新型基因组中发现。BMC生物素。2004; 5:59。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  70. 70。gydF4y2Ba

    Keilwagen J,Hartung F,Grah J. Gemoma:利用内含子位置保护和RNA-SEQ数据的同源性基因预测。在:分子生物学中的方法。2019.gydF4y2Ba

  71. 71。gydF4y2Ba

    Leinonen R, Sugawara H, Shumway M,协作INSD。该序列读取归档文件。《核科学进展》2010;39 suppl_1: D19-21。gydF4y2Ba

  72. 72。gydF4y2Ba

    Dobin A,Gingeras Tr,Spring C,Flores R,Sampson J,Knight R等。用明星映射RNA-SEQ。Curr Protoc生物素。2016; 51:586-97。gydF4y2Ba

    谷歌学术gydF4y2Ba

  73. 73。gydF4y2Ba

    Dobin A,Davis Ca,Schlesinger F,Drenkow J,Zaleski C,JH​​A S等人。星:超快通用RNA-SEQ对齐器。生物信息学。2013; 29:15-21。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  74. 74。gydF4y2Ba

    唐S,Lomsadze A,Borodovsky M. RNA转录物中蛋白质编码区的鉴定。核酸RES。2015; 43:E78。gydF4y2Bahttps://doi.org/10.1093/nar/gkv227gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  75. 75。gydF4y2Ba

    Goodstadt L. Ruffus:用于计算管道的轻量级Python库。生物信息学。2010;26:2778-9。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  76. 76.gydF4y2Ba

    Engströmpg,Stejger T,Sipos B,Grant Gr,Kahles A,Alioto T等人。RNA-SEQ数据的拼接对准程序的系统评估。NAT方法。2013; 10:1185-91。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  77. 77.gydF4y2Ba

    acta Rapazote-Flores P, Bayer M, Milne L, Mayer C-D, Fuller J, Guo W,等。BaRTv1.0:一种改进的大麦参考转录本数据集,利用RNA-seq确定大麦转录组的准确变化。BMC基因组学。2019;20:1-17。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  78. 78.gydF4y2Ba

    关键词:微外显子,发现,调控,功能威利跨学科Rev RNA。2017; 8: e1418。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  79. 79.gydF4y2Ba

    微外显子:转录组的新调控因子。J Hum Transcript. 2018; 2:1-6。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  80. 80。gydF4y2Ba

    Wen F,Li F,Xia H,Lu X,张X,Li Y.非常短的替代剪接对人类基因组蛋白质结构和功能的影响。趋势类型。2004; 20:232-6。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  81. 81.gydF4y2Ba

    人类基因组中外显子和内含子的分布。计算机生物学。2004; 4:387 - 93。gydF4y2Ba

    CASgydF4y2Ba谷歌学术gydF4y2Ba

  82. 82.gydF4y2Ba

    Mano F,Aoyanagi T,Kozaki A.非典型剪接伴随着跳过保守的微外显子产生独特的碎片1,在水稻植物中的AP2结构域转录因子。植物。2019; 8:207。gydF4y2Ba

    CASgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学术gydF4y2Ba

  83. 83.gydF4y2Ba

    宋Q,LV F,Tahir Ul Qamar M,xing F,周R,Li H,等。水稻基因组中微外显子基因的鉴定与分析。int j mol sci。2019; 20:2685。gydF4y2Ba

    CASgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学术gydF4y2Ba

  84. 84.gydF4y2Ba

    李永强,李永强,李永强,李永强。芸苔虫胞内植物中富含内含子的基因结构。原生生物。2007;158:423-33。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  85. 85.gydF4y2Ba

    王X.植物的植物蛋白质和蛋白质组地图集为应力:后基因组学时的综合OMIC的新亮点和方式;2019.gydF4y2Ba

  86. 86.gydF4y2Ba

    郭玲,刘昌明。拟南芥中发现的单核苷酸外显子。Sci众议员2015;5:18087。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  87. 87。gydF4y2Ba

    Gonatopoulos-Pournatzis T, Wu M, Braunschweig U, Roth J, Han H, Best AJ, et al.;全基因组CRISPR-Cas9对剪接网络的询问揭示了自闭症失调神经元微外显子的识别机制。摩尔细胞。2018;72:510-24。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  88. 88。gydF4y2Ba

    Consortium GTE。人类基因组学。人体转录组织跨组织和个体。科学。2015; 348:660-5。gydF4y2Ba

  89. 89。gydF4y2Ba

    irimia m,weatheritt rj,ellis jd,parikshak nn,gonatopoulos-pournatzis t,babor m等。高度保守的神经元微娱乐计划在自闭症脑中被误导。细胞。2014; 159:1511-23。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  90. 90.gydF4y2Ba

    Torres-MéndezA,Bonnal S,Marquez Y,Roth J,Iglesias M,Permanyer J等人。祖先拼接因子中的一种新型蛋白质结构域推动了神经微水的演变。NAT ECOL EVOL。2019; 3:691-701。gydF4y2Ba

    PubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  91. 91。gydF4y2Ba

    Parras A,Anta H,Santos-Galindo M,Swarup V,Elorza A,Nieto-GonzálezJL,等。CPEB4错误剪接,自闭症状的表型和风险基因mRNA硬化化。自然。2018; 560:441-6。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  92. 92。gydF4y2Ba

    吴俊,anczukow o,krainer ar,张mq,张c. olego:使用小种子的剪接MRNA-SEQ读取的快速和敏感映射。核酸RES。2013; 41:5149-63。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  93. 93。gydF4y2Ba

    基于直接密度比估计的时间序列数据变点检测。见:2009年SIAM数据挖掘国际会议论文集。暹罗;2009.p . 389 - 400。gydF4y2Ba

  94. 94。gydF4y2Ba

    Lund R,Wang XL,Lu QQ,Reeves J,Gallagher C,Feng Y.周期性和自相关时间序列的变换点检测。j爬升。2007; 20:5178-90。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  95. 95。gydF4y2Ba

    基于子空间识别的时间序列数据变化点检测。见:第七届IEEE数据挖掘国际会议。IEEE;2007.p . 559 - 64。gydF4y2Ba

  96. 96。gydF4y2Ba

    Takeuchi J,Yamanishi K.一个统一的框架,用于检测异常值和时间序列的变化点。IEEE Trans Knowl Data Eng。2006; 18:482-92。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  97. 97。gydF4y2Ba

    基于监督滑动窗口的多变量时间序列变点检测方法2020.gydF4y2Ba

  98. 98。gydF4y2Ba

    一种基于自适应序列和批序列变化点检测的计算机网络入侵检测方法。IEEE信号处理技术。2006;54:372 - 82。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  99. 99。gydF4y2Ba

    Klanderman MC,Newhart KB,Cath Ty,Hering As。复杂分散水处理设施的故障隔离。J R STAT SOC SER C. 2020; 69:931-51。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  100. 100。gydF4y2Ba

    Quinlan AR. BEDTools:基因组特征分析的瑞士军队工具。生物信息学学报,2014;gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  101. 101.gydF4y2Ba

    变更点:一个用于变更点分析的R包。统计软件。2014;58:1-19。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  102. 102.gydF4y2Ba

    acta photonica sinica, 2011, 38(5): 759 - 762 .向松,黄智,王涛,韩智,Christina YY,倪丹,等。条件特异性基因共表达网络挖掘识别了阿尔茨海默病患者脑组织中的关键通路和调控因子。BMC Med Genomics. 2018;11:115。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  103. 103.gydF4y2Ba

    基于GeneMark-EP+和AUGUSTUS的真核生物基因组自动注释。bioRxiv。2020.gydF4y2Ba

  104. 104.gydF4y2Ba

    altschul sf,gish w,miller w,myers ew,lipman dj。基本的局部比对搜索工具。J Mol Biol。1990; 215:403-10。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  105. 105.gydF4y2Ba

    Slater GSC, Birney E.生物序列比较启发式自动生成。BMC Bioinform。2005;航班。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  106. 106。gydF4y2Ba

    程C,Krishnakumar V,Chan AP,Thibaud-Nissen F,Schobel S,Town CD。Araport11:Arapidopsis Thaliana参考基因组的完整速度。工厂J. 2017; 89:789-804。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  107. 107。gydF4y2Ba

    关键词:水稻,3000基因组计划,水稻,遗传多样性Gigascience。2014;3:2047 - 217。gydF4y2Ba

    谷歌学术gydF4y2Ba

  108. 108。gydF4y2Ba

    Duitama J,Silva A,Sanabria Y,Cruz DF,Quintero C,Ballen C等人。精英水稻品种的全基因组测序作为标记辅助选择的综合信息资源。Plos一个。2015; 10:E0124617。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  109. 109。gydF4y2Ba

    Zhao K, Wright M, Kimball J, Eizenga G, McClung A, Kovach M,等。基因的多样性和渐渗gydF4y2Bao .漂白亚麻纤维卷gydF4y2Ba揭示驯化和育种对水稻基因组的影响。Plos一个。2010; 5:E10780。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  110. 110.gydF4y2Ba

    王b,tseng e,scallski m,clark ta,hon t,jiao y等。通过单分子长读取测序揭示玉米转录组的复杂性。NAT Communce。2016; 7:11708。gydF4y2Bahttps://doi.org/10.1038/ncomms11708gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  111. 111。gydF4y2Ba

    Schnable PS,Ware D,Fulton Rs,Stein JC,Wei F,Pasternak S等人。B73玉米基因组:复杂性,多样性和动态。科学。2009; 326:1112-5。gydF4y2Ba

  112. 112。gydF4y2Ba

    the_c_elegans_sequencing_consortium。Nematode C.秀丽隐线虫的基因组序列:调查生物学的平台。科学。1998年; 282:2012-8。gydF4y2Ba

  113. 113。gydF4y2Ba

    关键词:真菌,无监督训练,从头算,基因预测基因组研究》2008;18:1979 - 90。gydF4y2Bahttps://doi.org/10.1101/gr.081612.108gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  114. 114。gydF4y2Ba

    Drosophila_consortium。基因和基因组在果蝇系统发育中的进化。大自然。2007;450:203。gydF4y2Ba

  115. 115。gydF4y2Ba

    International_human_genome_Sequencing_consortium。人类基因组的初始测序与分析。自然。2001; 409:860-921。gydF4y2Ba

  116. 116。gydF4y2Ba

    引擎盖L,Rowen L.人类基因组项目:大科学转变生物学和医学。Genome Med。2013; 5:79。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  117. 117。gydF4y2Ba

    Monat C,Padmarasu S,Lux T,柳条T,Gundlach H,Himmelbach A等人。Tritex:带有开源工具的Triticea Genomes的染色体级序列组装。基因组Biol。2019; 20:284。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  118. 118。gydF4y2Ba

    等。利用完全注释的参考基因组改变小麦研究和育种的限制。科学。2018;361年。gydF4y2Ba

  119. 119.gydF4y2Ba

    Krasileva KV, Vasquez-Gross HA, Howell T, Bailey P, Paraiso F, Clissold L等。揭示多倍体小麦的隐性变异。国家自然科学学报2017;114:E913-21。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  120. 120.gydF4y2Ba

    Clavijo BJ,Venturini L,Schudoma C,Accinelli Gg,Kaithakottil G,Wright J等人。Allohexaploid小麦基因组的改进组装和注释鉴定了农艺基因的完整系列,并为染色体易位提供基因组证据。Genome Res。2017; 27:885-96。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  121. 121.gydF4y2Ba

    Pruitt KD,Brown Gr,Hiatt SM,Thibaud-NiSen F,Astashyn A,Ermolaeva O等。Refseq:哺乳动物参考序列的更新。Nucl酸res。2014; 42:D756-63。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  122. 122。gydF4y2Ba

    Tello -Ruiz MK,Naithani S,Stein JC,Gupta P,Campbell M,Olson A等。Gramene 2018:植物研究的统一比较基因组学和途径资源。Nucl酸res。2018; 46:D1181-9。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  123. 123。gydF4y2Ba

    acta photonica sinica, 2011, 40(5): 762 - 768 .焦勇,裴鲁索,史静,梁涛,Stitzer MC,王斌,等。利用单分子技术改进玉米参考基因组。大自然。2017;546:524-7。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  124. 124.gydF4y2Ba

    关键词:基因组,定量分析,基因组管理,比较BMC Bioinform。2009;10:67。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  125. 125.gydF4y2Ba

    文图里尼(Venturini), Caim S, Kaithakottil GG, Mapleson DL, Swarbreck D.利用多转录组组装方法改进基因结构注释。GigaScience。2018; 7。gydF4y2Bahttps://doi.org/10.1093/gigascience/giy093gydF4y2Ba。gydF4y2Ba

  126. 126.gydF4y2Ba

    Tair。TAIR基因模型和外显子置信度排名系统的文档。2009年。gydF4y2Bahttp://plantta.jcvi.org/gydF4y2Ba。2020年10月9日通过。gydF4y2Ba

  127. 127.gydF4y2Ba

    Sreenivasamurthy SK, Madugundu AK, Patil AH, Dey G, Mohanty AK, Kumar M等。蚊子传播的疾病和组学:组织限制表达和选择性剪接通过转录组分析显示的斯蒂芬按蚊。组学J整合生物学。2017;21:488-97。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  128. 128.gydF4y2Ba

    关键词:登革热,埃及伊蚊,血清型,转录组,lncRNABioRxiv。2018: 422170。gydF4y2Ba

  129. 129.gydF4y2Ba

    关键词:再生扁形虫,长基因间非编码rna,基因组鉴定基因组学。2020;112:1273 - 81。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  130. 130。gydF4y2Ba

    齐S,Akter S,Li S.使用RNA测序数据在植物中使用RNA测序数据的鉴定和共同表达网络分析。在:植物长期非编码RNA。施普林格;2019. p。207-21。gydF4y2Ba

  131. 131。gydF4y2Ba

    Beisel NS, Noble J, Barbazuk WB, Paul A-L, Ferl RJ。空间飞行诱导拟南芥幼苗发育过程中的选择性剪接。NPJ Micrograv。2019;5:1-5。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  132. 132.gydF4y2Ba

    Wang C, Wallerman O, Arendt M-L, Sundstrom E, Karlsson A, Nordin J, et al.;一个新的长读狗装配揭示了数千外显子和功能元件在以前的参考文献中缺失。bioRxiv。2020.gydF4y2Ba

  133. 133.gydF4y2Ba

    关键词:社交蜘蛛,DNA甲基化,甲基化模式Stegodyphus dumicola基因。2019;10:137。gydF4y2Ba

    CASgydF4y2Ba谷歌学术gydF4y2Ba

  134. 134.gydF4y2Ba

    吴S,Gao S,Wang S,Meng J,Wickham J,Luo S等人。Bursaphelenchus Mucronatus的参考基因组提供了新的资源,用于揭示Pinewood Nematode的排放。基因。2020; 11:570。gydF4y2Ba

    CASgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  135. 135。gydF4y2Ba

    王鹏,罗勇,黄杰,高胜,朱刚,党卓,等。热带水果芒果的基因组进化与驯化。基因组医学杂志。2020;21:1-17。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  136. 136。gydF4y2Ba

    Cieślik M, Chinnaiyan AM。临床翻译时刻的癌症转录组分析。Nat Rev Genet. 2018;19:93。gydF4y2Ba

    PubMedgydF4y2Ba文章gydF4y2BaCASgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  137. 137。gydF4y2Ba

    Lorenzi L,Avila Cobos F,Drocock A,Everaert C,Helsmoortel H,Lefever S等人。癌症中长的Noncoding RNA表达分析:挑战和机遇。基因染色体癌。2019; 58:191-9。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  138. 138。gydF4y2Ba

    杨杰,Moeinzadeh M-H,Kuhl H,Helmuth J,Xiao P,Haas S等人。单倍型分辨的红薯基因组迹象追溯其六翻来的历史。自然植物。2017; 3:696-703。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  139. 139。gydF4y2Ba

    孙卓,王静,陈旭。UClncR:从RNA-seq超快速全面的长链非编码RNA检测。Sci众议员2017;7:1-10。gydF4y2Ba

    文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  140. 140.gydF4y2Ba

    Trapnell C,Roberts A,Goff L,Pertea G,Kim D,Kelley Dr,等。TOPHAT和袖扣RNA-SEQ实验的差异基因和转录物表达分析。NAT PROTOC。2012; 7:562-78。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  141. 141.gydF4y2Ba

    Arrigoni A,Ranzani V,Rossetti G,Panzeri I,Abrignani S,Bonnal RJP等。分析RNA-SEQ和非分量RNA。在:Polycomb组蛋白。施普林格;2016. p。125-35。gydF4y2Ba

  142. 142.gydF4y2Ba

    gosh S, Chan C-KK。使用TopHat和Cufflinks分析RNA-Seq数据。:植物生物信息学。施普林格;2016. p。33.9.-6.1。gydF4y2Ba

  143. 143.gydF4y2Ba

    齐X,谢S,刘y,yi f,yu J.基因组的基因分析和福克尾部的非编码RNA响应于深度测序的模拟干旱胁迫。植物mol biol。2013; 83:459-73。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  144. 144.gydF4y2Ba

    Marchant A,Mougel F,MendonçaV,Quartier M,Jacquin-Joly E,Da Rosa Ja,等。将De Novo和基于参考的转录组合组装策略应用于血液吸血虫Rhodnius咯咯笑。昆虫生物化学Mol Biol。2016; 69:25-33。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  145. 145.gydF4y2Ba

    李安,张继,周Z,王L,刘y,刘y。aldb:一种家畜长期无量子RNA数据库。Plos一个。2015; 10:E0124003。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  146. 146。gydF4y2Ba

    Cooper SJ,Trinklein Nd,Anton Ed,Nguyen L,Myers RM。转录启动子结构综合分析及其在1%人基因组中的作用。Genome Res。2006; 16:1-10。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  147. 147。gydF4y2Ba

    Brown RH, Gross SS, Brent先生在开头:预测5 ' utr基因。基因组研究》2005;15:742-7。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  148. 148.gydF4y2Ba

    关键词:果蝇,启动子,启动子,基因组分析基因组医学杂志。2002;3:research0087-1。gydF4y2Ba

  149. 149.gydF4y2Ba

    Batut P, Gingeras TR. RAMPAGE: 5 ' -complete cdna的启动子活性分析。2013;104:25B-B11。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  150. 150。gydF4y2Ba

    Adiconis X,Haber Al,Simmons Sk,Levy Moonshine A,Ji Z,Busby Ma,等。综合对比分析5'-末端RNA测序方法。NAT方法。2018; 15:505-11。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  151. 151。gydF4y2Ba

    白木等[1]研究了一种新型的生物信息学方法。Cap分析基因表达用于高通量分析转录起始点和识别启动子使用。自然科学学报,2003;100:15776-81。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  152. 152。gydF4y2Ba

    等。关键词:激光;激光;体内UV交联揭示了转录后调控因子Hfq和CsrA的全局RNA识别模式。EMBO j . 2016; 35:991 - 1011。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  153. 153。gydF4y2Ba

    Hickman R, van Verk MC, van Dijken AJH, Mendes MP, Vroegop-Vos IA, carl L等。茉莉酸基因调控网络的结构与动态。Plant Cell Online. 2017;:tpc-00958。gydF4y2Ba

  154. 154。gydF4y2Ba

    poly (A)尾巴和3 '非翻译区控制mRNA的翻译吗?细胞。1990;62:15-24。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  155. 155。gydF4y2Ba

    Meijer HA, Thomas AAM。通过mRNA 5 ' -非翻译区上游的开放阅读框控制真核蛋白质的合成。j . 2002; 367:1-11。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  156. 156.gydF4y2Ba

    Miller Gm,Madras BK。人和猴子多巴胺转运蛋白基因的3'-未翻译区域的多态性影响报告基因表达。Mol Psychiattry。2002; 7:44-55。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  157. 157.gydF4y2Ba

    吴S,Huang S,Ding J,Zhao Y,Liang L,Liu T等。通过直接瞄准其3'未转换区域调节多个MicroRNA调制P21CIP1 / WAF1表达。oncogene。2010; 29:2302-8。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  158. 158.gydF4y2Ba

    Dixon DA, Kaplan CD, McIntyre TM, Zimmerman GA, Prescott SM。cyloxygenase -2基因表达的转录后控制3 ' -非翻译区域的作用。生物化学杂志。2000;275:11750-7。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  159. 159。gydF4y2Ba

    顾胜,金磊,张飞,马凯。哺乳动物mrna中microRNA靶点限制在3 '非翻译区的生物学基础。中国生物医学工程学报。2009;16:144。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  160. 160。gydF4y2Ba

    Eberle AB, Stalder L, Mathys H, Orozco RZ, Mühlemann通过空间重排3 '非翻译区来调控转录后基因。公共科学图书馆杂志。2008;6:e92。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  161. 161。gydF4y2Ba

    Halterman da,Wise Rp。大麦MLA13粉末状霉菌抗性基因函数的上游开放读数框架合作下调翻译。莫尔植物途径。2006; 7:167-76。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  162. 162.gydF4y2Ba

    Watanabe M, Inukai K,等。VEGF基因5 ' -非翻译区的一种常见多态性与2型糖尿病的糖尿病视网膜病变有关。糖尿病。2002;51:1635-9。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  163. 163.gydF4y2Ba

    Rogers JT, Randall JD, Cahill CM, Eder PS, Huang X, Gunshin H等。阿尔茨海默氏淀粉样前体蛋白转录物5 ' -非翻译区的铁反应元件II型。生物化学杂志。2002;277:45518-28。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  164. 164.gydF4y2Ba

    Chin LJ, Ratner E, Leng S, Zhai R, Nallur S, Babar I,等。KRAS 3 '非翻译区let-7 microRNA互补位点的一个SNP增加了非小细胞肺癌的风险。可以研究》2008;68:8535-40。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  165. 165.gydF4y2Ba

    Halterman da,Wei F,Wise Rp。粉末状霉菌诱导的MLA mRNA或含有多个上游开放阅读框架。植物理性。2003; 131:558-67。gydF4y2Bahttps://doi.org/10.1104/pp.014407gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  166. 166.gydF4y2Ba

    c、c、d、d。信使RNA的3 '非翻译区:病理学的分子热点?Nat医学。2000;6:637-41。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  167. 167.gydF4y2Ba

    Hunt M,Banerjee S,Surana P,Liu M,Fuerst G,Mathioni S等人。小RNA发现在大麦与白粉病病原体之间的相互作用中。BMC基因组学。2019; 20:610。gydF4y2Ba

    PubMedgydF4y2Ba公共医学中心gydF4y2Ba文章gydF4y2BaCASgydF4y2Ba谷歌学术gydF4y2Ba

  168. 168.gydF4y2Ba

    Chapman Ave,Matthew H,Surana P,Velásquez-zapata v,Xu W,Fuerst G,等。在必需蛋白SGT1中,在框架内Leu缺失中缺少大麦免疫粉末状疫苗的破坏。牛津遗传学。2020.gydF4y2Ba

  169. 169.gydF4y2Ba

    戴X,Xu Z,梁Z,涂X,Zhong S,Schnable JC。基于非同源性的基因函数预测。2019; 1-18。gydF4y2Ba

  170. 170.gydF4y2Ba

    duvick dn。育种对玉米产量的贡献(gydF4y2Ba玉米gydF4y2Bal .)。adv农学。2005; 86:83-145。gydF4y2Ba

  171. 171.gydF4y2Ba

    阿格拉玛有,穆萨有。玉米抗旱性育种的qtl定位(gydF4y2Ba玉米gydF4y2Bal .)。Euphytica。1996; 91:89-97。gydF4y2Ba

  172. 172。gydF4y2Ba

    马祖A-RS,涂军,邱军,刘铮(玉米抗旱性的选育)gydF4y2Ba玉米gydF4y2Bal .)。植物科学学报,2016;gydF4y2Ba

  173. 173。gydF4y2Ba

    BHANDARY P,SEETHARAM AS,ARENDSEE ZW,HUR M,Wurtele ES。从Metadata MOLASS中养殖孤儿:研究人员可以重复使用公共'OMICS数据。植物SCI。2018年。gydF4y2Bahttps://doi.org/10.1016/j.plantsci.2017.10.014gydF4y2Ba。gydF4y2Ba

    文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  174. 174。gydF4y2Ba

    Arendsee Zw,Li L,Wurtele es。年龄的来源:植物中的孤儿基因。趋势植物SCI。2014; 19:698-708。gydF4y2Bahttps://doi.org/10.1016/J.TPLANTS.2014.07.003gydF4y2Ba。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学术gydF4y2Ba

  175. 175。gydF4y2Ba

    Arendsee Z,Li J,Singh U,Seetharam A,Dorman K,Wurtele es。Phylostratr:文学系统的框架。生物信息学。2019; 35:3617-27。gydF4y2Ba

    CASgydF4y2BaPubMedgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

下载参考gydF4y2Ba

确认gydF4y2Ba

本研究利用美国农业部农业研究局sciinet项目、ARS项目No. 0500-00093-001-00-D提供的资源。作者还感谢Karin Dorman博士(爱荷华州立大学统计学系教授),他为比较注释提供了深刻的反馈,并实现了变更点检测。作者感谢Gregory Fuerst为NCBI提供数据。最后,作者感谢Eve Wurtele博士(爱荷华州立大学遗传、发育和细胞生物学系教授)允许她的学生Priyanka Bhandari在这项工作上进行合作。gydF4y2Ba

资金gydF4y2Ba

这项研究得到了美国的支持。农业部农业研究服务中心项目编号:(5030-21000-068-00D)和(3625-21000-067-00D);(2030-21000-024-00D)。该研究部分由橡树岭科学与教育研究所(ORISE)支持,合同号为DE-SC0014664的美国能源部给SB和国家科学基金会-植物基因组研究计划赠款13-39348给RPW。PB获得了国家科学基金资助(IOS 1546858,部分);孤儿基因(Orphan Genes),“一个未开发的新性状基因库”。资助者在研究设计、数据收集和分析、决定出版或手稿准备方面没有任何作用。本出版物中对商品名称或商业产品的提及仅为提供特定信息的目的,并不意味着美国农业部、农业研究所、能源部、ORAU/ORISE或国家科学基金会的推荐或认可。美国农业部是一个机会均等的提供者和雇主。gydF4y2Ba

作者信息gydF4y2Ba

从属关系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

SB:概念化、数据管理、形式分析、调查、方法学、软件设计、验证、可视化、支持人员、撰写原稿准备、撰写评审和编辑。PB:形式分析、写作评审和编辑。MGW:概念、资源、监督、写作审查和编辑。TZS:概念、资源、监督、写作审查和编辑。RPW:概念、调查、资源、监督、写作审查和编辑。CMA:概念、资金获取、调查、项目管理、资源、监督、写作审查和编辑。所有作者均已阅读并批准最终稿件。gydF4y2Ba

通讯作者gydF4y2Ba

对应到gydF4y2Ba卡森M. andorf.gydF4y2Ba。gydF4y2Ba

伦理宣言gydF4y2Ba

伦理批准和同意参与gydF4y2Ba

不适用。gydF4y2Ba

同意出版物gydF4y2Ba

不适用。gydF4y2Ba

利益争夺gydF4y2Ba

作者声明没有相互竞争的利益。gydF4y2Ba

附加信息gydF4y2Ba

出版商的注意gydF4y2Ba

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。gydF4y2Ba

补充信息gydF4y2Ba

附加文件1。gydF4y2Ba

补充数据(S1-S9)。gydF4y2Ba

额外的文件2。gydF4y2Ba

输入finder。gydF4y2Ba

额外的文件3。gydF4y2Ba

注释编辑每个基因注释管道报告的参考转录物的距离。gydF4y2Ba

附加文件4。gydF4y2Ba

转录本编码区基因注释管道的性能。gydF4y2Ba

额外的文件5。gydF4y2Ba

对各种不同物种的其他基因注释管道的发现性能比较。gydF4y2Ba

附加文件6。gydF4y2Ba

不同物种转录组组装软件的比较。gydF4y2Ba

附加文件7。gydF4y2Ba

增加非翻译区后的内参基因注释改进,用PacBio长读组件验证。gydF4y2Ba

附加文件8。gydF4y2Ba

用于执行Finder,Braker2,Maker2和PAS的RNA-SEQ数据的描述。gydF4y2Ba

附加文件9。gydF4y2Ba

补充文本文件概述方法和一些结果更多详细信息。gydF4y2Ba

权利和权限gydF4y2Ba

开放访问gydF4y2Ba本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba。Creative Commons公共领域奉献豁免(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文提供的数据,除非在数据的信用额度中另有说明。gydF4y2Ba

重印和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过十字标记验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

Banerjee,S。,Bhandary,P.,Woodhouse,M.gydF4y2Baet al。gydF4y2BaFINDER:一个自动软件包注释真核基因的RNA-Seq数据和相关的蛋白质序列。gydF4y2Ba欧宝娱乐合法吗22日,gydF4y2Ba205(2021)。https://doi.org/10.1186/s12859-021-04120-9gydF4y2Ba

下载引用gydF4y2Ba

关键字gydF4y2Ba

  • 基因组学gydF4y2Ba
  • 转录组学gydF4y2Ba
  • 真核基因注释gydF4y2Ba
  • 基因预测gydF4y2Ba
  • 优化RNA-Seq对齐gydF4y2Ba
  • Changepoint检测gydF4y2Ba
\gydF4y2Ba