跳过主要内容

二倍体和同源四倍体非模式植物中转录组组装工具的比较

摘要

背景

多倍体在植物中非常普遍,是作物驯化和重要农艺性状建立的关键驱动因素之一。它可能是基因组重模式的主要来源,并引入基因重复,影响基因表达和选择性剪接。由于包括农作物在内的许多植物还没有完全测序的基因组,从头转录组组装是理解分子和功能机制的基础。然而,在复杂的多倍体植物中,重新转录组组装是具有挑战性的,导致融合或冗余转录本的比率增加。由于组装器主要是为二倍体生物开发的,因此它们可能不适合于多倍体生物。此外,这些工具在高等多倍体植物上的比较评价极为罕见。因此,我们的目的是填补这一空白,并提供一个基本的指导方针,以选择最优从头组装策略的同源四倍体,这类多倍体的科学兴趣正在稳步上升。

结果

我们对这两个属的二倍体和同源四倍体物种的两种常见(SOAPdenovo Trans,Trinity)和一种最近发表的转录组组装器(TransLiG)进行了比较宏碁疫苗使用拟南芥作为参考。组合的转录本数量高达11倍和14倍,短转录本数量增加宏碁疫苗,分别地,与…相比A.拟南芥。在二倍体样本中,三位一体和翻译在自身传递中同时进行类似的良好,Translig组装的最完整的转录om,平均为1916年组装的Buscos与Trinity的Buscos平均。在所有三个装配商中,SOAPDenovo-Trans最差(1133个完整的Buscos)。

结论

当处理模型有机体时,所有三种装配工具都产生完整的装配答:芥,与倍性水平无关,但对于非模式同源四倍体,它们的表现差异极大,特别是TransLiG和Trinity产生了大量冗余转录本。最近发表的汇编程序TransLiG尚未在任何植物有机体上进行测试,但显示了最高的完整性和全长转录组,特别是在同源四倍体中。由于许多重要作物是多倍体的,因此高度赞赏并推荐在开发和测试新装配工具期间包括这些物种。

同行评审报告

背景

多倍体(Polyploidy,简称WGD)指一个细胞或生物体中存在两套以上同源染色体,在高等植物中很常见,在植物进化、物种形成和适应中发挥着重要作用。人们发现,所有开花植物都经历了至少两次古代多倍体化事件[1从而产生具有新功能的新基因[2].此外,最近在蕨类、石松和许多开花植物中发生的多倍体化事件导致了新多倍体的形成,这在一定程度上确立了自己作为新物种的地位[3.].多倍化不仅是天然群体和物种中发生的关键过程,而且在作物繁殖中发挥着重要作用。像马铃薯,小麦,棉花,花生或草莓等重要作物是多倍体生物[4567].多倍体有两大类:同源多倍体和异源多倍体。第一种是WGD在一个具有多组同源染色体的基因组内产生的结果(例如在同源四倍体的情况下产生AAAA),异源多倍体是通过WGD产生的,WGD是基于物种之间的杂交产生的具有多组同源染色体的基因组(每组染色体来自一个单独的亲本亚基因组,例如异源四倍体中的AABB) [8].

除了随WGD而来的基因组重排外,众所周知,过去的WGD事件以及随后在整个进化过程中保持成对重复基因的高比率导致了植物基因组中重复基因的稳定更高比率,从而改变了基因产物的浓度,导致基因剂量失衡[910].最近的多倍体化事件可以有直接的表型效应,如增加细胞大小导致生物量的增加。特别是在异源多倍体中,最近的基因复制可以诱导额外的积极效应,这对植物育种有利,如杂种优势和基因冗余[1112].第一种效应使个体更具活力,而后者则保护多倍体免受突变的有害影响[12].但是,已知有更多的机制受到WGD的影响,正如它所描述的那样,每个细胞的基因表达水平在多倍体中增加[13与二倍体物种相比,与压力相关的基因可以改变多倍体物种的表达模式[1415].关于多重化化的转录变化的其他假设在Doyle和Cyeate(2019)中有很好的审查[16].还受到多倍化影响的另一机制是替代剪接(AS)[17].在植物中,超过60%的含内含子基因为[1819],由此可知,环境压力会导致更多的剪接事件[20.].As作为基因表达的调节剂,在植物生长发育的多个生物学过程中发挥着重要作用。

通过RNA测序(RNA-seq)分析基因表达是一种成熟的、常用的方法,在基础和应用研究中解释基因组的功能要素,了解表型的形成、性状以及对疾病和气候变化的反应[21].以上所述的多倍体效应(基因组复杂性高、基因重复、剂量不平衡、AS受影响)带来了主要的挑战,尤其是在没有参考基因组的非模式生物中普遍应用的新生转录组组装。除了在二倍体中从头组装已经是一项复杂的任务之外,这是由于转录本的序列相似性,这些转录本是异构体,或者是等位变异的产物,接近的同源物或同源物[22,这在多倍体中就更具有挑战性了。而在异源多倍体中,通过同源基因的存在增加了额外的复杂性[23,同源多倍体通常具有较高的杂合度,这是由于多染色体遗传的性质,例如,在一个给定的位点上有四个不同的等位基因,四个染色体之间的任意配对可以产生19个基因型。相反,异源多倍体通常表现为二体遗传,导致二价染色体形成,导致后代中给定位点最多有9种组合[2425].所有这些结构(例如,复制,多等位基因)会在de Bruijn图中产生额外的分支和气泡,现在主要用于构建从头转录组组装。因此,图结构可能是模糊的,而表示的异构体可能是具有挑战性的解决。因此,属于一个基因家族的转录本的崩溃(同源)、嵌合(两个或多个可能相关或不相关的转录本的连接)或冗余(例如,等位序列作为单独的位点)可能会更频繁地发生[2627].

在模型生物体中开发和测试了现有技术转录组汇编器,其缺乏高基因复制率或多倍体水平[282930.因此,在多倍体中对它们的评价很少。只有少数研究关注多倍体物种转录组组装策略的比较,其中只有一项研究包括同源四倍体[313233]. 尽管有这些研究,但缺乏跨物种分析来比较这些工具在多个二倍体和多倍体物种上的性能。为了填补这一空白,并为选择最佳从头组装策略提供基本指南,我们对二倍体和同源四倍体非模式植物物种进行了两种常见(SOAPdenovo Trans,Trinity)和一种最近发布的转录组组装器(TransLiG)的比较,随着对这种多倍体的科学兴趣的增加[34],但“有关同源多倍体的四条同源染色体上的基因调控的研究仍然很少受到关注”[16].

在选择生物方面,我们主要研究植物属的二倍体和同源四倍体宏碁Vaccinium。宏碁是一个极其多样化的群体,包括超过120种不同的大小,习性和倍性水平。我们的宏碁选择的树种有枫树(宏碁pseudoplatanusL., 4×)和挪威枫树(挪威枫树L.,2×)。这两个树种在欧洲的分布模式相似,都是珍贵的阔叶树种[3536].更远,疫苗是一个年轻且分布广泛的属,近几十年来物种形成率上升,导致约450个物种形成[37].该属包括蓝莓,蔓越莓或越橘,由非常复杂的多倍体物种组成,如Vaccinium corymbosumL.是一种在食品部门具有高度经济相关性的物种[3738].此外,为了有一个被证实的参考,一个二倍体和一个同源四倍体拟南芥L基因型包括在我们的研究中。在测试过的工具中,SOAPdenovo Trans是一种基于基因组组装器构建的转录组组装器[2939],而三位一体[2839特别是为转录组组件开发的。首先在水稻和小鼠的转录组数据上实施和测试,后者使用裂变酵母的转录组数据建立。Translig是最近开发的汇编程序,于2019年发布,在人为转录组数据中审核,特别考虑到集成序列深度和配对结束信息,以检索拼接图中的所有抄本代表路径[30.].据我们所知,到目前为止,TransLiG还没有在任何工厂数据上进行测试。

方法

本研究中使用的数据和工具的工作流程示意图如图所示。1

图1
图1

De Novo转录组装配评估的管道

宏碁取样、RNA提取、文库制备和测序

对于这两个宏碁物种进行调查,答:platanoides挪威枫,二倍体= 2×答:pseudoplatanus选取3个成熟个体进行筛选。这些个体是奥地利维也纳大学植物园木本植物活体收藏的一部分(Hortus Botanicus Vindobonensis, HBV),可以通过以下个体登录号进行识别:挪威枫树IDs 37006、30044和IGF024;sycamore枫树id PP001, 34011,和32074 (cf.附加文件1).收集叶片材料(每个叶片随机选取5片左右),并立即在液氮中冷冻。冷冻叶片组织磨成细粉,使用TRIzol试剂提取约50-60 mg总RNA,如孟和Feldman(2010)所述[40].总RNA被用干冰送到奥地利维也纳生物中心核心设施(VBCF)的下一代测序设施。在那里,使用安捷伦生物分析仪对RNA进行质量和数量检查。使用NEB polyA富集试剂盒进行文库准备,包括滞留信息和300-800 bp之间的切口大小,结果每个文库的个体中值大小在388 - 423 bp之间。所有6个mRNA库在HiSeq2500 PE150的一个通道上快速测序。样本信息和序列数据可在NCBI生物项目PRJNA662197下获得。

额外的数据

原始RNA序列为3诉arboreum和三个诉corymbosum来自Payá-milans等人的研究中对照组(ph 4.5)的个体。(2018)[32]下载自https://www.ebi.ac.uk/ena, PRJNA353989。在该研究中,使用总RNA的Ribo-Zero™rRNA Removal Kit和ScriptSeq v2 RNA- seq文库制备试剂盒制备文库,并以长度为101 bp和fr-链的配对端模式进行进一步测序。的答:芥Zhang等人(2019)生成的RNA-seq数据[14]下载自https://www.ebi.ac.uk/ena, PRJNA473317。在这种情况下,总RNA使用标准Illumina协议进行测序。本研究中使用的所有物种的描述见表1,每个单独的详细元数据都提供在附加文件中1

表1样本说明

从头转录组组装

使用BBMap 37.68版本的BBDuk软件包对原始序列读取进行预处理,以获得基本质量(从左到右的Q20)和适配器内容[41]以及使用SortMerna 3.0.3版过滤的RRNA(Kopylova 2012)。

所有5个物种的从头转录组装配均采用Trinity版本2.6.5进行[2842],Soapdenovo-Trans版1.04 [29]以及TransLiG版本1.3 [30.],使用所有三个生物复制(表1).基于用于测序RNA-seq数据的库协议,使用默认值和-SS_lib_type RF进行Trinity组装宏碁数据,FR疫苗并且没有用于的库类型拟南芥.复制是通过-samples_file参数指定的。TransLiG组装体的链度用-m参数表示。SOAPdenovo-Trans不提供特定链的选项,因此使用默认参数进行分析。SOAPdenovo-Trans配置文件中指出了最大读取长度和估计的平均插入大小。使用原始序列读取和BBMerge估计每个样本的插入大小[41和每个库类型的平均值。对于SOAPdenovo-Trans和TransLiG的输入,将复制的输入文件连接起来。默认情况下,Trinity和TransLiG的最小contig长度为201 bp, SOAPdenovo-Trans的最小contig长度为100 bp。为了更平衡地评估组装质量,并且由于不可能改变SOAPdenovo-Trans的最小contig长度,因此从所有SOAPdenovo-Trans组装中去除小于201 bp的contig。

的遗传变异

本地转录ome汇编issplice版本2.3.1 [4344]在默认模式下,用于调用SNP和短索引,以及使用预处理读取确定每个物种上的as事件。

文本聚类

为了去除冗余和交替剪接的转录本,使用cd-hit-est版本4.8.1对转录本进行聚类[45],序列一致性阈值为95%。为了特别关注AS事件,我们用保存在转录本id中的基因标识符提取了Trinity和TransLiG组合的独特基因数量。为了以更严格的方式研究冗余转录本,cd-hit-est的序列识别阈值为95% (-c参数),长度差异截止值为95% (-S),对较短序列的比对覆盖率为95% (-aS)。为了详细分析生成的集群,使用了集成的perl脚本plot_len1.pl。

转录组性能的措施

基本统计数据使用换频率1.0.3计算[26],使用SNAP序列对准器[46].此外,为拟南芥程序集与Ensembl的比较答:芥参考cDNA集(release 47)和参考蛋白集使用TransRate,包括CRB-BLAST [47].的宏碁组装体与宏碁yangbiense(组装AYv1.1)蛋白质组可在NCBI获得。详细描述了TransRate的各个输出参数https://hibberdlab.com/transrate/metrics.html.使用BUSCO版本4.0.5测量转录组完整性和邻近性[48]的转录组模式。odb10沿袭数据集,包括2326基准通用单拷贝Orthologs。

结果

经过预处理后,每个重复的输入大小从1130万到3050万读取。而重复读入的数量答:platanoides样本约为90%(用FASTQC估算),其他物种的重复数在35%到78%之间(附加文件)1).转录组范围内的GC含量约为42%宏碁超过44%,疫苗为47%拟南芥.检测到并过滤出的RRNA读数的量相当小(1%-4%)除外答:platanoides样品(7% - -15%)。

基本装配评估

图中显示了每个组装器(soapdenvotrans - so, TransLiG-TL, Trinity-TR)和每个物种装配结果的基本统计(TransRate统计)。23.并在附加文件中详细描述2.二倍体装配的接合体的数目答:platanoidesSOAPdenovo-Trans为134,424,TransLiG为190,917,Trinity为235,011。2). 同源四倍体答:pseudoplatanusSOAPdenovo Trans和TransLiG的重叠群数量分别为285625和324177,而Trinity assembly的重叠群数量几乎翻了一番(587214)。二倍体也显示了类似的结果诉arboreum(SO:212,652-T1:171,620-TR:355,230)和四倍体诉corymbosum(SO: 280,852-TL: 361,369-TR: 735,465)2).的contigs的数量拟南芥与其他物种相比,集合体只占十分之一。从SOAPdenovo-Trans的36303到Trinity的51431。在同源四倍体拟南芥从SOAPdenovo-Trans的36,442个到TransLiG的63,137个。开放阅读框架(ORF)的比例为0.11 ~ 0.33宏碁疫苗集合,而它是0.51和0.77之间的所有拟南芥组件(图。2和额外的文件2).特别是TransLiG在其组装体中ORF的比例最高。

图2
figure2

组装成绩单和ORF的数量。组装的转录物的数量和包括每个汇编器的开放阅读框架(ORF)的转录器数量(SO = SOAPDENOVO-TRASS,TL = Translig,TR = Trinity)显示为Genera宏碁疫苗拟南芥在二倍体(2×)和同源四倍体(4×)物种中

图3
图3

基本汇编统计数据。映射回程序集的读(片段)的比例(P片段映射),良好映射的比例,即两个读映射到相同的contig上,具有相同的方向,且不重叠contig的末端(P良好映射),显示了每个组装子(SO = SOAPdenovo-Trans, TL = TransLiG, TR = Trinity)中长度小于300 bp (P contigs < 300 bp)的转录本比例和未被reads覆盖(P contigs未覆盖)的比例宏碁Vaccinium拟南芥在二倍体(2×)和同源四倍体(4×)物种中

N50的尺寸拟南芥组装在2000 bp左右,而其他两个属的N50大小(宏碁疫苗N50的大小在1539 bp (诉arboreum)和2025 bp(答:pseudoplatanus)(附加文件2). 一般来说,较小的N50大小的转录本中,长度小于300 bp的非常短的转录本所占比例较高。而小成绩单的数量答:芥在3% (TransLiG,同源四倍体,4×)和10% (soapdenvo - trans,二倍体和同源四倍体,2×和4×)之间,小于300 bp的转录本数量高达46%疫苗高达57%的组件答:platanoides(Trinity和SOAPdenovo Trans)(图。3.,附加文件7).此外,> = 50%估计被分割概率的contigs的比例(p_segented)在宏碁疫苗组件(15-21%)比较拟南芥(13-15%),具有较低的自身传递物倍增倍增物(图。3.,附加文件2).

According the number of reads (fragments) that mapped back to the assemblies and the number of good mappings (i.e. both of the reads mapped on the same contig, with same orientation and without overlapping the ends of the contig), the highest proportion was seen for Trinity and TransLiG assemblies in all species (Fig.3.和额外的文件2).特别是在同源四倍体物种中,TransLiG (AC: 0.96, VA: 0.90, AT: 0.99)在定位片段的比例和良好定位片段的比例(TL: AC 0.91, VA 0.8, AT 0.96;Tr: ac 0.79, va 0.63,在0.89)。在大多数装配结果中,未发现的contigs的比例是相当小的。超过5%的未发现的contigs(平均每碱基读覆盖率< 1)仅在同源四倍体物种的TransLiG组装中看到(图。3.).

装配完整性

关于完整性,我们在二倍体(AC:1613,VA:1368,AT:2115)和四倍体(AC:2044,VA:1558,AT:2147)物种(附加文件)中看到了大多数完整的装配(完整的单体加上完整的重复的BUSCOs)和易位3.).为自身传递的肥皂沃转化组件组装了最少的完整布线宏碁(833)和同源四倍体疫苗(669). 的完备性答:芥对于所有的汇编程序,从1932到2147个完整的BUSCOs,汇编程序相当相似。在四倍体物种的TransLiG装配体中,完全重复BUSCOs的比例最高(从0.73到0.83,取决于物种),而soapdenvo - trans装配体的比例最低(从0.08到0.29)。另一方面,在SOAPdenovo-Trans程序集中,可以看到大多数碎片化和缺失的BUSCOs宏碁疫苗物种。

与cDNA或蛋白质参考比较

的比较答:芥结果表明,soapdenvo - trans的CRB-Blast转录本与参考基因的比例为0.75,TransLiG的比例为0.93。4). 所有装配的参考转录本命中率在0.47到0.57之间,三位一体装配的参考转录本命中率最高,二倍体的参考转录本命中率为0.56,四倍体的参考转录本命中率为0.57答:芥. 在二倍体和四倍体之间,具有CRB Blast hit的转录本比例和具有转录本hit的参考cDNA比例没有差异答:芥.这对于每个基准参考覆盖率是不同的。在二倍体答:芥与SOAPdenovo-Trans和TransLiG的0.18和0.21相比,Trinity组件的覆盖率最高,为0.25。在四倍体A.拟南芥,TransLiG组件的覆盖率最高,为0.38,高于0.18和0.25(图4)。4和额外的文件2).

图4
装具

的比较拟南芥将参考cDNA集合组件。p contigs与crbb- Crb-blast击中的角色的比例;P参考CRBB- CRB-BLAST击中的参考比例;参考覆盖范围 - CRB-BLAST击中所涵盖的参考碱的比例

比较拟南芥结果表明,在二倍体和四倍体中,SOAPdenovo-Trans的CRB-Blast接合位点的比例均显著降低至0.4以下答:芥(附加文件42).在所有的汇编器中,具有命中转录本的参考文献比例与每个碱基参考文献覆盖率之间的差异都很小,而与之相比宏碁引用的程序集答:yangbiense蛋白质组。为宏碁, CRBB命中的contigs比例在0.09到0.28之间,在TransLiG程序集中值最高(附加文件42).一个比较疫苗由于缺乏合理的蛋白质集,对参考蛋白集是不利的疫苗物种。

的遗传变异

作为事件,SNP和短INDEL被本地转录组组装程序调用。在二倍体和四倍体中,SNP的数量相似答:芥样本中约有23000个SNP,数量为二倍体宏碁疫苗单核苷酸多态性超过10万个,同源四倍体宏碁疫苗571648和351211个单核苷酸多态性(附加文件5).在二倍体中检测到的遗传变异的数量答:芥与同源四倍体的数目可比较吗答:芥.关于事件和短义务(<3nt),最少在二倍体中发现诉arboreum(分别为8,706和6,700),最多的自身传递物答:pseudoplatanus(分别为60,467和88,689)(增加档案5).

文本聚类

为了进一步研究AS事件和冗余转录本,使用cd-hit-est对组装的转录本进行聚类,序列一致性阈值为95%。在同源四倍体的soapdenvo - trans组装体中产生的代表性转录本比例很高(0.95-0.99),而在TransLiG组装体中则非常低(0.60-0.67)6). 与BUSCO进行的完整性进一步分析表明疫苗在大多数情况下(多达6个完整的BUSCOs),程序集的完整性甚至稍微高了一点,而减少拟南芥组装件最高(-4到-36完整BUSCOs)(图。5和额外的文件3.).通常,与非集群程序集中的程序集相比,集群程序集中的重复BUSCOs的数量减少了。复制BUSCOs的比例答:pseudoplatanus在同源四倍体中,TransLiG的组装率从0.83下降到0.52答:芥0.75至0.31(图。5和额外的文件3.).

图5
figure5

为集群组件组装的BUSCOs。cd- hitest聚类的每个组装子的完整BUSCOs数,95%序列同源阈值(SO = soapdenvo - trans, TL = TransLiG, TR = Trinity)显示了组装的属转录组宏碁疫苗拟南芥在二倍体(2×)和同源四倍体(4×)中

可变剪接估计

为了估算组装体中AS形式的数量,Trinity’s和TransLiG的转录本ID内的基因ID综合信息显示,一般来说,同源四倍体(1.5-1.8)中每个基因存在更多的异构体,而二倍体(1.2-1.7)中值最高答:芥.一般来说,Trinity导致了比TransLiG更严格的聚类(附加文件6).

为了研究代表不同等位基因而不是真实AS形式的转录本的数量,cd-hit-est采用了更严格的参数,整合了转录本和比对长度信息。其中,SOAPdenovo-Trans组装体的代表性转录本比例最高,在二倍体和同源四倍体物种中分别为99% ~ 100%,而在同源四倍体的TransLiG组装体中所占比例在83 ~ 85%之间(Additional file)7).

主要发现

对于每个汇编器总结了本研究的关键结果,对所有调查的物种进行平均并在表中提供2. TransLiG为双四倍体和同源四倍体物种产生,具有最高读取量的组装体以充分的方式映射回组装体(分别为0.88和0.90,因此:0.68;0.57,TR:0.82;0.77). 此外,TransLiG的短转录本比例最低(0.24和0.14),完整的BUSCOs数量最高(1699和1916,因此:1266;1133 TR:1615;1705)和最低数量的分段总线(188和132,SO:328;419,TR:240;276). 另一方面,Trinity组装显示出最高的蛋白质参考覆盖率(分别为0.45和0.51),但仅略好于TransLiG(0.42和0.50)。比较答:芥装配到完整的cDNA参考集,最高的参考覆盖率看到二倍体答:芥用Trinity (0.25 vs 0.18和0.21)组装,而参考覆盖率为四倍体答:芥TransLiG组件的最高(0.38 vs 0.18和0.25)。SOAPdenovo-Trans使用两个不同的参数进行聚类,产生的程序集具有最低比例的未覆盖碱基(0.02)和最高比例的代表性转录本(0.97和1.00)。TransLiG的代表性转录本数量在同源四倍体中最低(0.63或0.84,更严格的参数)。SOAPdenovo-Trans和TransLiG的转录本组装数量相似(0.13和20万个转录本),但Trinity的转录本组装数量显著更高(0.21和0.46)。总体而言,同源四倍体物种与二倍体物种的组装体差异更大。

表2每个汇编器的关键发现摘要

讨论

由于缺乏对包括同源四倍体植物物种在内的当前从头转录组组装物的比较研究,我们分析了三个植物属的代表,宏碁疫苗拟南芥使用SOAPdenovo-Trans、Trinity和2019年发布的汇编器TransLiG。

汇编程序独立的转录本数量变异

产生的DE Novo转录组组件与所用的汇编器独立地显示每个属的数量不同的转录物。虽然所有组装器对于两种和自身四倍体产生的少于65,000名转录物答:芥,文本的数量宏碁疫苗二倍体的组装数为134,424 ~ 355,230,同源四倍体的组装数为280,852 ~ 735,465。这种趋势令人惊讶,因为某些基因的数量疫苗宏碁据估计,物种的数量仅在27000个已注释基因的两倍范围内答:芥[37495051].当然,人们应该意识到这只是一个估计,可能会被低估宏碁疫苗由于这些属缺乏完全测序和注释的基因组[52].此外,我们知道,植物物种的基因数量甚至在密切相关的物种之间也可能存在显著差异[29].此外,AS事件伴随着转录本数量的增加,这种相关性可以在这里分析的多倍体样本中看到,但在我们的二倍体中似乎并没有更频繁地发生宏碁疫苗样本与二倍体比较答:芥样本使用不同的算法(KisSplice, Trinity和TransLiG)。复制之间的较大遗传距离理论上也可以增加组装的转录本的数量,但应该避免特别是使用Trinity,因为输入文件中显示了复制。我们进一步观察到在宏碁疫苗最可能的原因是这些物种中存在非常低表达的片段基因。对相似长度和序列相似性较高的转录本进行分析,发现其冗余程度更高宏碁疫苗比在拟南芥。这些结果和使用KisSplice检测到的较高数量的SNPs表明在宏碁疫苗这可能导致使用默认参数在Trinity或TransLiG中出现额外的重叠。然而,一部分较高数量的转录本宏碁疫苗可能仍然可以解释,因为低估了这些物种的蛋白质[52].

非模式物种显示不完全的转录组

当我们调查组装的转录组的完整性和连续性时,有更多的缺失和片段组装的转录组宏碁疫苗.所有的装配工在模型厂的表现都很好拟南芥,无论其倍性水平如何,但不同的汇编器之间的结果差异巨大疫苗尤其是宏碁,只有一个例外:只对同源四倍体答:pseudoplatanus类似数量的完整BUSCOs,如拟南芥,可以由TransLiG组装吗在对程序集进行集群(以减少冗余)之后,完成的(单个 + 与未聚集的组件相比,重复的)BUSCOs没有显著变化。然而,完整单体和完整复制体之间的分布发生了变化,以完整复制体BUSCO为代价整体增加了完整单体。因此,建议对最佳相似阈值进行物种特异性分析,以找到冗余和完整性之间的最佳平衡。

在以前的研究中已经描述了物种内部和物种之间汇编程序性能的差异。与我们的结果类似,Hölzer等人(2019年)表明答:芥大肠杆菌在10个被调查的装配商中,有9个(除了BinPacker)的BUSCOs从930到1119个,255到332个,而在智人(1,682至4,106个完整BUSCOs) [39].根据Payá-Milans et al.(2018)和Li et al.(2019)的结果,SOAPdenovo-Trans组装的完整性小于Trinity组装的完整性[3253].与我们的研究相反,Trinity在完整性方面处于中间,与其他研究的装配工具相比,它显示了六倍体甘薯装配的最低完整性[33].由于Translig是最近开发的汇编程序,它并未集成在任何研究中,但在我们研究的完整性方面表现出物种内部和物种中的所有其他汇编。

比较答:芥装配到参考cDNA集,我们发现与一个转录本相匹配的参考cDNA的数量和每个碱基参考覆盖率之间存在差异,这表明许多转录本不能完整装配。有趣的是,TransLiG比其他组装器组装了更多的全长转录本,但只适用于同源四倍体答:芥. 专注于组装的蛋白质,转录本命中的参考cDNA数量和每碱基参考覆盖率之间的差异消失了。大多数蛋白质都是全长组装的答:芥但总的来说,我们认识到未翻译区域的缺失端。值得注意的是,映射到参考的接触数量较低答:芥SOAPdenovo-Trans蛋白组。由于与参考cDNA集相比没有看到这一点,可以得出结论,发生了更多的局部indel错误,导致了SOAPdenovo-Trans组装中翻译的氨基酸的变化。为宏碁似乎甚至蛋白质均未以全长组装。为翻译组件看到映射到cDNA参考的最高比例的转录物。

Transpig:德诺科转录组组装的良好选择自身传递

根据基本装配统计,每个装配器的性能是相似的跨物种。一般来说,对宏碁尤其是疫苗映射回程序集的片段的比例和良好映射的比例几乎小于for拟南芥.从这两个参数来看,TransLiG总体表现最好,SOAPdenovo-Trans表现最差。在Payá-Milans等人(2018)中还可以看到,soapevo - trans映射回程序集的读的比例低于Trans-ABySS和Trinity [32].

在比较二倍体和同源四倍体的装配性能时,需要指出的是多倍体答:芥本研究中使用的基因型通过碎氯化锡综合产生,并且通过可能成形自动化倍数的时间没有经过任何进化力宏碁疫苗物种。因此,在同源四倍体中,所有的组装程序都具有相似的性能就不足为奇了答:芥与二倍体相比答:芥样品。此外,de Bruijn图中气泡和额外分支的数量没有显著增加。多倍体比较宏碁疫苗所有的组装者都能产生更多的contigs。我们的结果表明,这可能是较高的AS事件发生率以及较高的序列相似性比例(例如杂合度、拟对数)的产物。在多倍体植物进化过程中AS事件的已知增加很好地支持了前一个结果[17]. 就序列相似性而言,TransLiG显示出最高数量的冗余转录物,而SOAPdenovo Trans产生几乎非冗余转录物。特别是TransLiG,即使是人工合成的四倍体,也显示出大量的冗余转录本答:芥.与二倍体生物相比,除了纯合子AA(参考等位基因)和CC(可选等位基因)外,预计只有一类杂合子(AC),而在四倍体中,我们可能预计有三种不同的杂合子AAAC(单倍体),AACC(双倍体)和ACCC(三倍体)[54].除了杂合度的自然增加外,一般来说突变率较高[55]以及加速的压力适应[7也可能增加多倍体的冗余效应。由于多倍体的高序列相似性也可能是由于重复的基因(paralogs)或重复之间的高杂合度[25]需要利用模式生物进行进一步研究,以详细区分多倍体从头组装中这些现象的影响。

更多的片段,特别是短片段,似乎不是多倍体物种中额外的contigs的原因。在同源四倍体物种中,所有装配者的短contigs比例均降低。特别是对于多倍体,TransLiG在良好的映射、完整的和碎片化的BUSCOs方面优于Trinity。一个原因可能是TransLiG更好地将序列深度和对端信息整合到组装过程中,从而能够更准确地组装具有增加AS的复杂基因组[30.].

结论

一般来说,先进的组装者在精确组装具有高基因复制率的复杂植物转录组方面有更多的困难(宏碁疫苗)比标准二倍体模式生物(答:芥).最近发表的汇编器TransLiG还没有在任何植物生物上测试过,但在我们的研究中显示了最高的完整性和全长转录组,尤其是同源四倍体物种。将程序集与引用进行比较宏碁拟南芥蛋白质套装,三位一体组件具有最高的参考覆盖范围,但仅略微好转到Translig。SOAPDENOVO-TRANS组件对于DI-和自身传递体积单纯性的大多数研究指标进行了最差,但具有最低的未覆盖基础和最小冗余。另一方面,三位一体和Translig产生了大量的复杂和自动轻膜单纯素物种,强烈建议在组装后的转录聚类。

我们进一步看到,当处理模型生物时,所有研究的装配工具都产生了完整的装配答:芥但在组装复杂的多倍体非模式植物物种时,它们的表现却大相径庭。在新的装配工具的开发和测试中包括这些物种是高度赞赏和推荐的,因为许多重要的经济作物表现出高序列相似性和不同水平的多倍体。

可用性数据和材料

原始序列数据宏碁样本可在NCBI序列读取档案(SRA,http://www.ncbi.nlm.nih.gov/sra/)生物工程PRJNA662197。本研究分析的其他数据集涉及疫苗拟南芥在生物项目PRJNA353989和PRJNA473317下提供。

参考

  1. 1.

    Amborella基因组项目。琥珀属植物基因组与开花植物的进化。科学。2013;342:1241089。

    文章中科院谷歌学者

  2. 2.

    乔旭,李强,尹华,齐科,李磊,王锐,等。植物多倍体-二倍化循环中的基因复制和进化。基因组医学杂志。2019;38。

    PubMed公共医学中心文章谷歌学者

  3. 3.

    Wood TE, Takebayashi N, Barker MS, Mayrose I, Greenspoon PB, Rieseberg LH。维管植物多倍体形成的频率。美国国家科学院学报。2009; 106:13875-9。

    中科院PubMed文章公共医学中心谷歌学者

  4. 4.

    Corneillie S, De Storme N, Van Acker R, Fangel JU, De Bruyne M, De Rycke R, et al.;多倍体影响植物生长和改变细胞壁组成。植物杂志。2019;179:74 - 87。

    中科院PubMed文章公共医学中心谷歌学者

  5. 5.

    雷尼·比菲尔德S,温德尔·JF。基因组加倍:多倍体和作物。我是J Bot。2014;101:1711–25.

    PubMed公共医学中心文章谷歌学者

  6. 6.

    陈志强,陈志强,陈志强,等。多倍体化对苹果生物和非生物胁迫耐受性的影响。2019年。https://lirias.kuleuven.be/retrieve/544380.Accessed 16 Sep 2020。

  7. 7.

    谭凤琴,屠华,梁文军,龙建明,吴晓明,张宏宇,等。柑橘二倍体及其二倍体砧木的比较代谢和转录分析。紫阳相城)表明其对提高抗逆性有潜在价值。BMC Plant Biol. 2015。https://doi.org/10.1186/s12870-015-0450-4

    文章PubMed公共医学中心谷歌学者

  8. 8.

    Yoo M-J,Liu X,Pires JC,Soltis PS,Soltis DE.多倍体中的非加性基因表达。Genet牧师年鉴。2014;48:485–517.

    中科院PubMed文章公共医学中心谷歌学者

  9. 9.

    N, Lehti-Shiu M, Shiu S-H。植物基因复制的进化。植物杂志。2016;171:2294 - 316。

    中科院PubMed公共医学中心文章谷歌学者

  10. 10.

    Conant GC, Birchler JA, Pires JC。剂量、复制和二倍化:阐明重复基因进化的多种模型的相互作用。植物生态学报。2014;19:91-8。

    中科院PubMed文章公共医学中心谷歌学者

  11. 11.

    Sattler MC, Carvalho CR, Clarindo WR。多倍体及其在植物育种中的关键作用。足底。2016;243:281 - 96。

    中科院PubMed公共医学中心文章谷歌学者

  12. 12.

    关键词:多倍体;Nat Rev Genet, 2005; 6:836-46。

    中科院PubMed文章公共医学中心谷歌学者

  13. 13.

    郭敏,戴维斯D, Birchler JA。剂量对玉米倍性系列基因表达的影响。遗传学。1996;142:1349-55。

    中科院PubMed公共医学中心文章谷歌学者

  14. 14.

    张华,郑瑞,王永强,张永强,洪鹏,方勇,等。拟南芥基因组复制对染色质组织和转录调控的影响。核酸Res. 2019; 47:7857-69。

    中科院PubMed公共医学中心文章谷歌学者

  15. 15.

    陈志强,倪志强。植物多倍体基因组重排与基因表达变化的机制。BioEssays。2006; 28:240-52。

    PubMed公共医学中心文章谷歌学者

  16. 16.

    多伊尔·JJ,科特·杰。多倍性、核类型和新颖性:基因组加倍对细胞生物学的影响。acta botanica yunnanica(云南植物研究),2018;

    文章谷歌学者

  17. 17

    王R,刘H,刘Z,邹J,孟J,王J。芸苔属六倍体及其亲本间选择性剪接差异的全基因组分析。车前草。2019;250:603–28.

    中科院PubMed文章公共医学中心谷歌学者

  18. 18

    Syed NH, Kalyna M, Marquez Y, Barta A, Brown JWS。植物成年期的选择性剪接。植物学报。2012;17:616-23。

    中科院PubMed公共医学中心文章谷歌学者

  19. 19

    查马拉S、冯G、查瓦罗C、巴尔巴祖克WB。开花植物中进化保守的选择性剪接事件的全基因组鉴定。生物工程生物技术公司。2015https://doi.org/10.3389/fbioe.2015.00033

    文章PubMed公共医学中心谷歌学者

  20. 20.

    Cui P,Xiong L.环境应激和前mRNA拼接。莫尔植物。2015; 8:1302-3。

    中科院PubMed文章公共医学中心谷歌学者

  21. 21.

    RNA-Seq:转录组学的革命性工具。Nat Rev Genet, 2009; 10:57-63。

    中科院PubMed公共医学中心文章谷歌学者

  22. 22.

    Góngora-Castillo E, Buell CR.在缺乏参考基因组序列的情况下使用短读序列进行从头转录组组装的生物信息学挑战。Nat Prod众议员2013;30:490-500。

    PubMed文章中科院公共医学中心谷歌学者

  23. 23.

    Voshall A, Moriyama EN。下一代转录组组装和分析:倍性的影响。方法。2020;176:14-24。

    中科院PubMed文章公共医学中心谷歌学者

  24. 24.

    Osborn TC,Chris Pires J,Birchler JA,Auger DL,Jeffery Chen Z,Lee H-S,等。了解多倍体中新基因表达的机制。Genet。2003;19:141–7.

    中科院PubMed文章公共医学中心谷歌学者

  25. 25.

    多倍体植物减数分裂的研究。在:Soltis PS, Soltis DE,编辑。多倍性与基因组进化。柏林:施普林格;2012.33-55页。https://doi.org/10.1007/978-3-642-31442-1_3

    谷歌学者

  26. 26.

    史密斯 - UNNA R,Boursnell C,Patro R,Hibberd JM,Kelly S. Transrate:De Novo转录组合组件的参考质量评估。Genome Res。2016; 26:1134-44。

    中科院PubMed公共医学中心文章谷歌学者

  27. 27.

    Hahn MW,张SV,Moyle LC。使用重组群体测序,组装和校正草案基因组。G3(Bethesda)。2014; 4:669-79。

    文章谷歌学者

  28. 28.

    Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I,等。从RNA-Seq数据中重建一个没有基因组的全长转录组。生物科技Nat》。2011;29:644-52。

    中科院PubMed公共医学中心文章谷歌学者

  29. 29

    谢勇,吴刚,唐建军,罗荣杰,刘胜,等。SOAPdenovo-trans:与短rna序列的从头转录组组装。生物信息学。2014;30:1660-6。

    中科院PubMed文章公共医学中心谷歌学者

  30. 30.

    刘j,yu t,mu z,li g. translig:使用线条图迭代的de novo转录组汇编。基因组Biol。2019; 20:81。

    PubMed公共医学中心文章谷歌学者

  31. 31.

    Chopra R,Burow G,Farmer A,Mudge J,Simpson CE,Burow MD.使用花生的二倍体和多倍体物种中从头转录组组装体的比较(arachis.RNA序列数据。公共科学图书馆一号。2014;9:115055.

    文章中科院谷歌学者

  32. 32.

    Payá-Milans M, Olmstead JW, Nunez G, Rinehart TA, Staton M.二倍体和多倍体物种RNA-seq分析管道的综合评价。Gigascience》2018。https://doi.org/10.1093/gigascience/giy132

    文章PubMed公共医学中心谷歌学者

  33. 33.

    何斌,赵胜,陈勇,曹强,魏超,程欣,等。真核生物倍体相关转录组的最优装配策略。BMC基因组学。2015;16:65。

    PubMed公共医学中心文章中科院谷歌学者

  34. 34.

    纯粹多倍体:填补同源多倍体研究的空白。[J] .地球科学进展,2017;

    文章谷歌学者

  35. 35.

    欧洲platanoides宏碁的分布、栖息地、用途及威胁。在:欧洲森林树种地图集。卢森堡:出版。掉了。欧盟;2016.p . e019159 +。

  36. 36.

    欧洲假platanus槭的分布、生境、用途及威胁。在:欧洲森林树种地图集。卢森堡:出版。掉了。欧盟;2016.p . e01665a +。

  37. 37.

    王毅,聂福,沙希德MQ,俾路支FS。三种蓝莓物种的选择效应和全基因组复制(WGD)事件的分子足迹:通过转录组数据集检测。植物生物学。2020https://doi.org/10.1186/s12870-020-02461-w

    文章PubMed公共医学中心谷歌学者

  38. 38.

    乌山柑属植物Lyrene PM, Vorsa N, Ballington JR.多倍体和性多倍体化。Euphytica。2003;133:27-36。

    文章谷歌学者

  39. 39.

    Hölzer M, Marz M. De novo转录组组装:短读RNA-Seq组装的全面跨物种比较。Gigascience》2019。https://doi.org/10.1093/gigascience/giz039

    文章PubMed公共医学中心谷歌学者

  40. 40.

    基于trizol的两步法快速提取拟南芥和干种子的无dna RNA。Biotechnol j . 2010; 5:183-6。

    中科院PubMed文章公共医学中心谷歌学者

  41. 41.

    Bushnell B. BBMAP:快速,准确,拼接感知对齐器。劳伦斯伯克利国家实验室。(LBNL),伯克利,加利福尼亚州(美国);2014年。https://www.osti.gov/biblio/1241166-bbmap-fast-accurate-splice-aware-aligner.Accessed 10 Aug 2020。

  42. 42.

    Haas BJ,Papanicolaou A,Yassour M,Grabherr M,Blood PD,Bowden J等。使用Trinity平台从RNA seq进行从头转录序列重建,用于参考生成和分析。Nat协议。2013;8:1494–512.

    中科院PubMed文章公共医学中心谷歌学者

  43. 43.

    马志强,马志强,马志强,等。在没有参考基因组的情况下,从RNA-seq数据中调用SNP:鉴定、定量、差异分析和对蛋白质序列的影响。核酸学报2016;44:e148。

    PubMed公共医学中心谷歌学者

  44. 44.

    Sacomoto Ga,Kielbassa J,Chikhi R,Uricaru R,Antoniou P,Sagot M-F等人。科特尼斯:De-novo调用RNA-SEQ数据的替代拼接事件。BMC生物素。2012; 13(4):S5。

    文章谷歌学者

  45. 45.

    李伟,高德泽。Cd-hit:一种用于聚类和比较大组蛋白质或核苷酸序列的快速程序。生物信息学。2006;22:1658-9。

    中科院文章谷歌学者

  46. 46.

    Zaharia M, Bolosky WJ, Curtis K, Fox A, Patterson D, Shenker S, et al.;使用SNAP更快、更准确的序列对齐。arXiv: 11115572 (cs, q-bio]。2011.http://arxiv.org/abs/1111.5572.访问了2020年9月1日。

  47. 47.

    Aubry S, Kelly S, Kümpers BMC, Smith-Unna RD, Hibberd JM。基因表达的深度进化比较确定了C4光合作用的两个独立来源中反式因子的平行募集。公共科学图书馆麝猫》2014。https://doi.org/10.1371/journal.pgen.1004365

    文章PubMed公共医学中心谷歌学者

  48. 48.

    Simão FA, Waterhouse RM, Ioannidis P, Kriventseva EV, Zdobnov EM. BUSCO:用单拷贝同源性评估基因组组装和注释完整性。生物信息学。2015;31:3210-2。

    文章中科院谷歌学者

  49. 49.

    等。通过RNA-Seq分析和注释一个拟蓝莓基因组组装,识别了参与果实成熟、生物活性化合物生物合成和阶段特异性选择性剪接的候选基因。Gigascience。2015;4:5。

    PubMed公共医学中心文章谷歌学者

  50. 50。

    杨X,刘家,徐继,段S,王Q,李G,等。转录组分析揭示了干旱胁迫对二倍体马铃薯基因型P3-198中基因表达的影响。int j mol sci。2019年。https://doi.org/10.3390/ijms20040852

    文章PubMed公共医学中心谷歌学者

  51. 51.

    Swarbreck D,Wilk C,Lamesch P,Berardini TZ,Garcia-Hernandez M,Foerster H,等。拟南芥信息资源(TAIR):基因结构和功能注释。核酸RES。2008; 36数据库问题:D1009。

  52. 52.

    Pertea M Salzberg SL.《在鸡和葡萄之间:估计人类基因的数量》。基因组医学杂志。2010;11:206。

    PubMed公共医学中心文章中科院谷歌学者

  53. 53.

    李方东,童伟,夏恩华,魏传林。优化测序深度和从头组装程序,用于深度重建茶树转录组,茶树是一种重要的经济植物。BMC Bioinform。2019;20:553。

    文章中科院谷歌学者

  54. 54.

    Pereira GS, Garcia AAF, Margarido GRA。一个完全自动化的管道定量基因型调用从下一代测序数据同源多倍体。BMC Bioinform。2018;19:398。

    中科院文章谷歌学者

  55. 55.

    多倍性的进化结果。细胞。2007;131:452 - 62。

    中科院PubMed文章公共医学中心谷歌学者

下载参考

确认

我们感谢A.O.大学教授Michael Kiehn教授,维也纳大学植物园主任(Hortus Botanicus Vindobonensis,https://botanischergarten.univie.ac.at/en/),以及维也纳生物中心核心设施的国家地质调查局(NGS) (www.viennabiocenter.org/facilities)对于我们样本的专业加工和排序。

指导方针植物材料是根据国家和国际法律要求获得的,并在奥地利维也纳大学(HBV)的植物园的收集持有人的许可。在“生物多样性公约”的背景下,奥地利不限制对其遗传资源的访问(https://absch.cbd.int/countries/AT;评估10.03.2021)。这两个研究宏碁物种不在CITES附录中,在奥地利也不属于濒危物种。因此,在奥地利,对采集这些物种的样本没有其他法律限制。HBV,作为维也纳大学生命科学学院的核心设施,提供了访问研究树木的途径,这些树木是花园生活收集的一部分。这些活的收藏品是科学研究的资料来源(https://botanischergarten.univie.ac.at/wissenschaft/,评估于2021年3月10日),并于9日获得书面许可。2016年8月,a.o. university - prof。Michael Kiehn博士采集树叶样本的条件是,核心设施植物园在收集活动产生的任何出版物中被提到为材料来源。这一义务在本文中得到了履行。

资金

这项工作部分由奥地利研究促进局(FFG)资助,项目编号850678。

作者信息

从属关系

作者

贡献

SM进行了所有的生物信息学分析并撰写了手稿。AB负责湿实验室的工作。EMS发起了这个项目,并撰写了手稿。所有作者阅读并批准了最终的手稿。

相应的作者

对应到Eva M. Sehr.

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者声明他们没有相互竞争的利益。

额外的信息

出版说明

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1:

单个样本的详细元数据描述。

额外的文件2:

详细的变速率结果,包括与相应参考数据的比较。

额外的文件3:

每个装配工和品种的详细BUSCO结果。

额外的文件4:

的比较拟南芥宏碁装配到各自的参考蛋白集。

额外的文件5:

用KisSplice计算每个物种的遗传变异数。

附加文件6:

不同聚类方法后转录本的分析

附加文件7:

用cd-hit-est(95%序列一致性(-c), 95%长度差异截止(-S), 95%对齐覆盖率(-aS)生成的簇进行分析

权限

开放获取本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

在二倍体和同源四倍体非模式植物中转录组组装工具的比较。欧宝娱乐合法吗22,146(2021)。https://doi.org/10.1186/s12859-021-04078-8

下载引用

关键词

  • RNA-seq
  • 从头转录组组装
  • 同源四倍体
  • 多倍体
  • 植物
  • 易位
\