跳过主要内容

常见的基于事件的不同的剪接工具计算比较:实验室研究人员的实际考虑

摘要

背景

通过识别和评估差异剪接基因,分析rna测序数据的计算工具促进了选择性剪接研究。然而,常见的替代剪接分析工具在统计分析和一般性能上有很大的不同。该报告比较了三种事件级拼接工具的计算性能(CPU利用率和RAM利用率);rMATS, MISO和SUPPA2。此外,还研究了工具输出之间的一致性。

结果

在所有拼接工具和所有虚拟机(VM)配置中,作业时间和数据集大小之间存在对数线性关系。无论VM大小如何,MISO在所有分析中都有最高的作业时间,而在所有VM大小上,MISO分析也超过了最大CPU利用率。rMATS和SUPPA2的平均负载在大小和复制比较方面都相对较低,在模拟最低计算能力的VM (D2 VM)中没有接近最大CPU利用率。rMATS和SUPPA2中的RAM使用量在大小和复制比较方面都不超过最大RAM的20%,而MISO在D2 VM分析中达到最大RAM使用量,用于输入大小。除rMATS/MISO和rMATS/SUPPA2保留内含子(RI)事件比较(β < 60%)外,差异剪接分析的相关系数显示,不同工具输出之间具有较高的相关性(β > 80%)。

结论

在RNA-seq分析之前,用户应该考虑工作时间、重复次数和剪接事件类型,以确定最佳的替代剪接工具。总的来说,rMATS在计算性能上优于MISO和SUPPA2。除RI事件外,分析输出显示工具之间的高度一致性。

背景

选择性剪接(AS)被认为是基因表达转录后调控的重要细胞内机制[1.,2.].通过将前体信使RNA(前体mRNA)成mRNA的大量的剪接变体,真核基因的蛋白质编码电位膨胀,从而导致增加的蛋白质组的多样性。Over 95% of the human multi-exonic genes are alternatively spliced, and common splice event types include skipped exons (SE), intron retentions (IR), alternative 3’ splice sites (A3SS), alternative 5’ splice sites (A5SS), and mutually exclusive exons (MXE) [3.,4.].当外显子与其侧翼内含子一起被剪接时,外显子跳变就会发生,这构成了AS事件中最常见的类型(占所有AS事件的40%)。A5SS或A3SS通过可变剪接位点来标记事件,可能导致包含或排除可变剪接区域,即外显子的可变部分,而IR则是AS事件,即一个完整的内含子没有被剪接掉[4.].

AS促进基因调控功能的多样性、转录本稳定性或定位的改变以及翻译后修饰位点的移除或合并[5.]. 因此,As在许多涉及正常细胞功能的生物过程中发挥作用,如体内平衡、分化或性别决定[欧宝直播官网app2.,6.,7.],但也与疾病发病机制和潜在耐药性的药理学过程有关[3.,8.,9]. 关于后者,AS已被提议作为潜在生物标记物的来源或药物开发的目标[10,11,12]. 例如,在儿童急性淋巴细胞白血病(ALL)中,叶酸代谢酶叶酸聚谷氨酸合成酶(FPGS)外显子8中的A5SS选择被证明与甲氨蝶呤(MTX)的临床反应相关,MTX是治疗ALL的锚定药物[13]类风湿性关节炎[14].

随着RNA测序的最新进展(RNA-SEQ)技术,全转录的AS曲线分析已成为可行,需要对发展和先进的日期/国家的最先进的计算工具的应用可靠地检测常见和较不常见的差别剪接(DS)的活动[6.]. DS包括AS的分析,在该分析中,在两个或多个条件下比较事件或异构体丰度。在过去的十年中,已经开发和评估了大量不同的DS工具,其中许多工具具有灵敏、准确地检测和量化AS事件的能力[15].虽然大多数工具在执行上是相似的,但区分分析同型DS和事件级DS的工具也很重要,后者提供关于特定事件类型的DS信息,而不是转录本亚型/变体的相对表达。事件级DS工具需要准确量化专门针对可能的as事件类型(SE、IR、A5SS、A3SS、MXE)的读/转录本(由RNA-seq确定)的丰度。虽然在DS工具之间进行了一般的比较,但这些比较往往是在同类水平上,也缺乏对无偏输出一致性的深入分析[16,17,18].

In addition, comparative studies or tools publications can conceivably include limited comparisons (e.g. using only a set of SE events and not comparing relative splicing abundances), comparisons of outdated versions, and/or a biased selection (e.g. handpicking a set of specific genes with a maximum of two isoforms) [19,20.,21].例如,仅用于刀具比较的刚刚SE事件的选择性报告可能会提高事件检测和测量的剪接丰度在事件类型之间相似的错误印象,这可能不反映完整的帐户。这可能导致偏见擅长检测SE的工具,但不是RI / A5SS / A3SS事件。最后,使用接收器操作曲线(ROC)曲线分析来比较DS工具不会通知工具输出或作为事件的量化之间的一致性之间的重叠。

为了解决这些问题,我们在此旨在比较三种常用的事件级DS工具(RMAT[19),味噌(20.]和SUPPA2 [21),并比较一个细胞系的差异剪接(百分数剪接在[PSI],或等价物)与其耐药亚克隆之间的一致性[13].我们之所以选择这三种工具,是因为它们相对流行,在不了解R等单独程序的情况下就可以使用它们,并且能够对拼接事件级别进行分析。此外,我们比较了每种工具检测不同条件下与耐药有关的已证实的AS事件的能力。最后,我们的目标是明确不同DS工具可用性的差异,分析它们在输出上的(不同)相似性,并为(缺乏经验的)生物医学研究人员打算使用可用工具之一调查DS提供实用的见解。

结果

工作时间

使用三种不同的Microsoft Azure云虚拟机(vm)来模拟低(D2)、中(D8)和高(D16)计算能力(表2)1.).

表1微软Azure虚拟机

计算总作业时间,以分析不同大小输入文件(30 M、100 M和300 M读取)的2对2比较(图。1.).无论使用VM类型,MISO都需要为每个尺寸执行作业的最长时间。此外,在增加所有VM中的文件大小时,RMATS和MISO都显示出在作业时的线性增加。由于文件大小,Suppa2的作业时间是一致的,因为PSI计算是对竞争表达式文件的计算,这对于每个分析相同。对于D8或D16的RMAT分析,没有差异。此外,使用300米的筛索分析输入不会在将VM大小从D8到D16增加VM大小时降低作业时间。

图1
图1

每分析工作时间。运行时间不同的分析(大小(A.)和复制(B)比较)每个工具和虚拟机在模拟数据集。A.输入的大小和B重复的数量是不同的(x轴)和时间的秒(y轴)显示。值的刻度为对数。SUPPA2-blue、rMATS-red MISO-green

当分析重复时,在所有rMATS和SUPPA2分析中观察到指数增长。对于10个与10个比较,D8 rMATS分析所花费的时间最少,为6719 s (1.9 h)。对于rMATS,将VM大小从D8增加到D16将大幅增加作业时间,这意味着D16的作业性能比D8 VM的效率要低。无论重复次数多少,SUPPA2的工作时间在所有分析中都是相似的。

CPU负载平均值和RAM

图中显示了2个与2个大小比较的VM性能指标。2..rMATS和SUPPA2的最大负荷平均值都相对较低,在D16 300 M分析中,rMATS的最大负荷平均值为4.4,而SUPPA2的最大负荷平均值为1.25。相反,MISO显示的负载平均值超过了所有VM大小的最大线程数,表明CPU利用率低下。特别是对于D2虚拟机分析,平均负载大大超过了CPU数量,这表明CPU线程需求非常大。当使用更大的vm时,rMATS和SUPPA2中的RAM使用都是相对稳定的,但当增加文件大小时就不稳定了。2.).对于MISO,对于每个文件大小,D2虚拟机的RAM使用量达到最大值(> 95%),而对于D8和D16虚拟机,RAM的绝对使用量随着文件大小的增加而增加,没有达到最大值,并且RAM使用量百分比下降(最大值分别为40%和20%)。2.).在重复分析中,rMATS和SUPPA2显示随着重复大小的增加,RAM和CPU负载平均使用量增加(图2)。3.),在所有分析中,RMAT使用的RAM比SUPPA2更多。类似于图。2., rMATS显示,在所有分析中,RAM使用量有限,不超过总RAM的30%。空闲RAM使用量在1-5%之间变化,这是由于这两种工具中的非线性RAM使用量。

图2
图2.

每次读深度的CPU/RAM性能。A.每个读深度和每个虚拟机(Max vcpu: D2-2(蓝色虚线),D8-8(红色虚线),D16-16(绿色虚线))的最大CPU负载平均值绘制。B最大RAM使用量被绘制成总可用RAM的百分比。单个虚拟机最大内存:d2 ~ 8gb(蓝色虚线)、d8 ~ 32gb(红色虚线)、d16 ~ 64gb(绿色虚线)

图3
图3.

每个复制的CPU负载和RAM使用情况。A.最大CPU负载平均值绘制为每个复制量和VM (Max vcpu: D2-2(蓝色虚线),D8-8(红色虚线),D16-16(绿色虚线))。B每个复制和虚拟机的最大RAM使用量(GB)。单个虚拟机最大内存:d2 ~ 8gb(蓝色虚线)、d8 ~ 32gb(红色虚线)、d16 ~ 64gb(绿色虚线)

一致性

为了评估每个刀具输出的(重要的)事件已经推断,并根据其各自的坐标匹配。通过所有(重要的)匹配事件的线性回归分析来计算相关系数。相关系数如图2所示。4.在用于SE、A3SS和A5SS事件的工具之间显示出一种普遍的一致性模式(R2. > 大多数比较为0.8)。值得注意的是,RMAT与MISO的比较表明,匹配SE事件(R2. > 0.9). However, poor concordance (R2.在MISO与rMATS以及rMATS与SUPPA2的比较中,RI事件的相对PSI值是不同的,如图所示。5..在包含非重要事件(附加文件)时,可以看到类似的模式1.:图。4)。当将拼接工具之间的所有事件(包括非重要性)与拼接工具之间的所有事件(包括非重要事件进行比较时,分别MISO和RMAT和RMAT2和RMATSWERE 0.24和0.23之间的相关系数(图。6.D, E)。

图4
图4.

工具间重要匹配事件一致性的相关矩阵。线性回归系数显示每个读取深度(A.)或重复次数(B)为每个VM每个工具组合(rMATS/MISO, MISO/SUPPA2,和rMATS/SUPPA2)。事件类型:se -剪接外显子,ri -保留内含子,a5 -可变5 '剪接位点,a3 -可变3 '剪接位点。D2-D2虚拟机;D8-D8虚拟机;D16-D16虚拟机

图5
图5.

每个事件类型的D16 300 M分析(显著事件)散点图。散点图显示了每个工具的相对剪接丰度(rMATS-InclusionLevelDifference;MISO-diff;SUPPA2-dPSI)和各事件类型(se -剪接外显子;RI-retained基因内区;A5-alternative 5 '剪接位点;a3 -可选3 '拼接位点)。回归系数用R表示2..线性回归线用黑色表示。5 a-c-se;5 d-f-ri;5 g-i-a5;5 J-L-A3。左列rmats与SUPPA2;中间列- miso和rMATS;右栏:supa2与MISO

图6
图6.

每种事件类型的D16 300 M分析(所有事件)散点图。散点图显示了每个工具的相对剪接丰度(rMATS-InclusionLevelDifference;MISO-diff;SUPPA2-dPSI)和各事件类型(se -剪接外显子;RI-retained基因内区;A5-alternative 5 '剪接位点;a3 -可选3 '拼接位点)。回归系数用R表示2..线性回归线用黑色表示。6 a-c-se事件;6 d-f-ri事件;6 g-i-a5事件;6 j-l-a3事件。左列rmats与SUPPA2;中间列- miso和rMATS;右栏:supa2与MISO

在比较不同VM类型的输出时,没有观察到显著差异。然而,当在不同vm上执行MISO分析时,显著事件的微小差异是可见的,反映在略微不同的R上2.rMATS与MISO和MISO与SUPPA2的值。这在rMATS与SUPPA2的比较中没有观察到。在RI比较中,MISO与SUPPA2 (R2. > 0.7)显示所有大小或重复的一致性最好,而RMAT与MISO和RMAT与SUPPA2的一致性最差(R2.> 0.4)。作为一个生物学相关的例子,一个已知的rt - pcr验证的fpg中差异剪接A5SS事件(fpg 8PR)与CEM/R30dm细胞中的MTX耐药相关[22,已被调查(另附档案1.:图2)和found as significantly differentially spliced in all MISO analyses (Bayes factor > 10) and in the 10 versus 10 rMATS comparisons. The event was found in all other rMATS analyses as well as all SUPPA2 analyses, although statistical significance was not reached (Additonal file1.:表1和表2)。

表2总结了3种剪接分析工具的特征

讨论

在这个报告中,我们比较了三种常用的事件级AS工具的计算性能指标,以及这些工具是否产生类似的输出(表2.).我们的目的是为那些想要开始在这一领域工作的湿实验室研究人员提供信息,并讨论使用常用工具对RNA-seq数据进行剪接分析的可能性和缺陷。显然,还有很多其他工具可以加入到目前的研究中。我们有意不包含基于r的工具,因为这需要独立编程语言的知识来操作。

我们的结果表明,不同的拼接工具通常是一致的,但每种类型的事件显示不同的输出,测量的相对拼接丰度在不同的工具之间可以是不同的。因此,仅提供se分析或代表最丰富和易于检测的剪接事件类型的图,并不能揭示完整的图像。例如,评估rMATS需要SE事件和RI事件,因为据观察,与MISO/SUPPA2相比,RI的相对剪接丰度被低估了(图2)。5.D、 E)。ROC曲线分析中未显示该信息,未来剪接工具的比较应包括调查多个剪接事件类型以及探索相对剪接丰度。

此外,我们的结果表明,RMATS和Suppa2在其性能(工作时间,CPU负载平均值和RAM使用情况下,RMATS和Suppa2都优于Miso。虽然奇异的rmats和suppa2-applies多线程到其分析,但高负荷平均值表示高CPU的需求,而RAM使用率相对较高。

负载平均比CPU占用率的使用是有争议的。我们推断,关于一个工具是否达到最大CPU使用率的信息比所请求的CPU线程是否超过CPU可用性(显示为100% CPU)的信息更有价值。因此,超过最大CPU容量的负载平均值不能通过使用CPU使用率来证明,例如Ding等人的研究[16].在我们的分析中,在D2 VM分析中,MISO的CPU使用率通常为100%,这对实际的CPU使用率提供的信息很少。在评估拼接工具性能时需要注意的一个重要问题是,在性能计算中不考虑预处理作业。特别是,SUPPA2依赖于由Kalisto或Salmon等独立工具执行的转录本表达计算[23,24].

此外,在物理计算机上使用虚拟cpu的一个可能的风险是,对每次分析使用完全相同的VM实例缺乏控制。尽管我们的分析没有遇到不利影响,但众所周知,Azure Cloud用户可以根据要求获得分配不同规格的VM,这可能会影响作业时间/性能。

由于大部分的工作时间和CPU/RAM的使用是在这些之前的计算中必需的,SUPPA2获得了rMATS和MISO的强大优势。然而,当比较10对10的分析和3对3的分析时,SUPPA2的CPU平均负载和RAM的增加明显高于rMATS,这表明在增加样本大小时效率较低。事实上,这在Mehmood等人的一项研究中得到了证实[18,其中SUPPA2显示了当每次分析增加重复数量时,RAM使用量增加最大。

总的来说,我们观察到使用D8虚拟机比使用D2虚拟机的性能有显著提高,而D16虚拟机的性能与D8虚拟机的性能没有太大差别。当然,这在很大程度上取决于样本集的输入大小,更大的数据集(每组50个或更多)很可能从更大的VM使用量中受益。我们考虑了一个类似于标准办公工作站的D8 VM,这样就可以在不使用高端计算机系统或昂贵的云解决方案的情况下进行大多数分析。然而,必须注意的是,一些预处理工具(如STAR)需要大量的RAM,而D8虚拟机中不存在这种内存,甚至更低,而且需要比拼接分析多得多的时间。

每个工具的基本统计框架是不同的,SUPPA2中的p值过滤比rMATS中的FDR过滤更严格(例如,在D16 300M比较中:SUPPA2中的11074个重大事件与rMATS中的14868个重大事件)。此外,如果对rMATS(14069事件)应用FDR截断值< 0.01,它仍然会过滤比SUPPA2的p值过滤更少的事件,并且rMATS中p值和FDR之间的重要事件的差异仅为1%(14868对14068事件)。由于MISO使用了贝叶斯框架,而它根本不使用p值,因此将每个工具的统计截断值对齐到同样严格是一项挑战。因此,在我们的分析中,我们为rMATS和SUPPA2选择了最严格的滤波,alpha值为5%,并使用了各自软件手册中推荐的截止值。虽然在SE、A3SS和A5SS事件类型中,工具间测量的PSI值的一致性较高,但在RI事件类型中,rMATS与supa2和MISO的一致性较差。在这些比较中,哪个工具更接近实际的RI剪接丰度,没有独立的验证是不可能评估的。

另外,在FPGS(FPGS 8PR)一个A5SS事件,并在CEM / R30dm细胞MTX抗性[相关联22],观察到(产生额外的文件1.:图2)as significantly differentially spliced in all MISO analyses (Bayes factor > 10) and in the 10 versus 10 rMATS comparisons (FDR < 0.05). The event was also identified in all other rMATS analyses as well as all SUPPA2 analyses, although statistical significance was not reached (Additonal file1.表1和表2)。然而,应该调查更有效的拼接事件,试图推断拼接工具的优越性,这一结果表明,在使用单个拼接工具进行分析时需要谨慎。

有趣的是,R2.在MISO分析期间增加VM尺寸时,值略微不同(例如D8 30 M MISO与SUPPA2; R2.= 0.81 and D16 30 M MISO vs SUPPA2;R2.= 0.80),但原因尚不清楚。

最后,我们评估了特定工具是否易于使用。根据我们的经验,RMAT的使用相对简单;执行整个分析只需要一个命令。SUPPA2和MISO在预处理步骤中都需要大量的生物信息学知识,并且是多步骤、多命令管道,容易出错。特别是,建立一条工作的MISO管道可能需要大量的时间和精力,并且故障排除可能很困难。

相比之下,rMATS有一个相对活跃的在线故障排除社区,创建者或用户通常反应迅速[25].此外,虽然rMATS和SUPPA2已经在过去几年定期更新,MISO也没有,这反映在其较差的弱适用性改进计算机架构的易于使用和。

结论

比较三种常用的检测/量化工具(RMAT、MISO和SUPPA2),发现与MISO相比,RMAT和SUPPA2相对容易使用,需要标准的计算处理能力。表中列出了这三种工具的特点、优点和缺点的总结概述2..随着广泛使用的高性能计算资源的增加,我们建议有兴趣在RNA-seq的数据集进行拼接分析,研究人员同时结合了rMATS和SUPPA2快速获取立即独立与第二工具验证结果。

方法

RNA-sequencing

为了比较AS工具,我们使用了两种人t细胞急性淋巴母细胞白血病(T-ALL)、CCRF-CEM (ATCC, Manassas, VA)及其亚克隆CEM/R30dm的RNA-seq数据集(由J. McGuire博士提供[26]). 细胞系CEM/R30dm已通过反复暴露于MTX而对MTX产生耐药性,并已证明在FPGS中含有特异性剪接变异体,FPGS是一种关键参与MTX代谢和细胞内滞留的酶[27,28,29].如AS导致的fpg功能丧失与MTX耐药有关[13,30.]选择该细胞系模型进行模拟实验是基于已证实的与(MTX)耐药相关的验证AS事件的临床和病理相关性[13,22,26,29,30.].这些细胞系为实验室研究人员提供了一个实际案例,为工具的适用性和在控制设置下的输出变化提供了观点。使用该细胞系模型,我们能够构建具有相似表达水平的不同大小和重复数量的数据集。

用RNeasy Mini Kit (Qiagen)从这两种细胞系中分离RNA,用TruSeq mRNA strand Kit (Illumina)构建RNA-seq文库。使用单读100碱基对协议在Hiseq2500 RNA-seq系统上的生物副本中运行样本[9,31].结果FASTQ文件使用trimmomatic [32],随后是转录量化(在每千升数百万(TPM)的转录程序中)与stringtie [33].

通量模拟器

使用流量模拟器[34,使用Stringtie生成的transcript表达式文件模拟FASTQ格式的表达式文件。使用Flux Simulator的默认设置,创建了两个不同大小的细胞系的副本(30、100和3亿reads),此外,为了模拟不同的差分剪接实验,还创建了10个副本,每个副本都有3000万reads。

明星

使用STAR(版本2.4)的默认设置执行对齐。35]),除了-alignEndsType EndToEnd删除读取的软剪辑,-outSAMtype BAM产生。BAM文件和-sdjbOverhang 100最佳剪接连接悬垂长度。

rMATS

rmats(版本4.0.2 [19])通过使用以模型的外显子包含水平[表示为ψ,或PSI]分层框架检测差异剪接,并考虑到重复间在每次重复帐户估计不确定性和可变性。rMATS通过首先计算外显子的纳入和排除同级别的短片段的读取计数这一点。的PSI被定义为“从上游外显子剪接到备选外显子然后剪接到下游外显子的外显子包含转录本的百分比,在所有此类外显子包含转录本加上从上游外显子直接剪接到下游外显子的外显子跳过转录本中。“[19]

味噌

miso(版本0.5.4 [20.)从RNA-seq数据计算选择性剪接基因的表达水平,并分析不同样本间的差异表达亚型或外显子。MISO使用贝叶斯推理框架计算映射读取来自特定亚型的概率。MISO有一个多线程选项,并且为每个分析提供了最大的线程数量,通过将作业划分为与线程数相等的批处理作业,可以完全利用这个数量。MISO只能分析单个数据集,因此不可能进行重复分析。

SUPPA2

SUPPA2(版本2.2[21)从. gtf文件生成事件,并查看每个事件的每个记录。对于每个转录本,SUPPA2计算PSI。另外,SUPPA2使用每个转录本的百万分之转录本(TPM)值来计算每个事件的差异拼接。附加文件中提供了这三种工具特性的概述1.: 图。1。

性能

为了对AS工具进行基准测试,我们在不同的管道中跟踪技术性能指标:作业时间、CPU平均负载和RAM使用情况。在整个过程中,负载平均值(1分钟)每10秒从Linux top命令中推断一次,并计算最大负载平均值,以显示每个VM是否能够在该过程中提供所请求的CPU线程。平均负载指示在特定时间段(1分钟、5分钟或15分钟)内请求的CPU利用率。使用平均负载,我们评估一个进程是否需要比当前可用的更多的CPU功率(以及是否有任务等待处理)。对于具有2个虚拟CPU的D2虚拟机,平均负载高于2意味着等待处理的线程比可用的虚拟CPU更多,这意味着低效率的CPU使用(和延迟)。通过检查工具在作业期间是否超过最大平均负载,我们推断整个工具过程中CPU利用率很低。

通过将使用的物理内存参数除以Linux自由命令中的总物理内存参数来类似地获得RAM使用。排除了作为预处理的一部分的管道组件(例如MISO的索引)或使用不同的工具(MISO或SAMOO或SAMPA2的SAMTOOLS),导致定时为每个工具特定于每个工具,每个运行必不可少(Additonal文件1.所有的比较都是在使用微软Azure云服务的Linux虚拟机(虚拟机,具体称为D2, D8和D16)上执行的(表1)2.).对于所有分析,都为每个工具指定了最大线程数,VM和负载平均超过最大线程数被认为是低效的。

一致性

绘制了拼接事件(基于事件坐标)的工具和剪接值(rmats,包含水平差;味噌,diff; suppa2,psi)之间绘制。意义(RMATS,FDR <0.05; MISO,贝叶因子> 10; SUPPA2,P值<0.05)是基于工具各自的手册。虽然RMATS使用多次测试校正来计算FDR,但Suppa2不执行多种测试校正。每个工具都使用最严格的统计信息。针对每个拼接事件类型(SE,RI,A5S和A3SS)的每个工具组合进行线性回归。MXE被排除在外。计算和绘制回归系数。

(RT-)PCR

RNA分离后(根据制造商的协议,RNeasy Mini Kit (Qiagen)),利用Moloney小鼠白血病病毒(M-MLV;英杰公司)。cDNA合成反应混合物(总体积40µl)包含:M-MLV 1.5 μl、RNA 1 μg、随机六聚体引物(Roche) 0.8 μl、25 mM dNTPs (Roche) 1.6 μl、RNAse OUT (Invitrogen) 1 μl。终点PCR时,加入12.5µl GoTaq G2 Master Mix (Promega)、1µl正向引物、1µl反向引物(正向引物5 ' -CGCCTCTACCACCGGCTGGA-3 '和反向引物5 ' -GCTCGGTCCCTCAGCACTGC-3 ')、1µl cDNA和9.5µl H组成样品反应混合物2.共25µl。样品在标准热循环器中使用以下程序:在95°C下运行5分钟,然后31个循环:在95°C下运行1分钟,在退火温度下运行1分钟,在72°C下运行1分钟,然后在72°C下运行10分钟,然后冷却至4°C。

RT-PCR使用罗氏公司LightCycler®480 SYBR Green I Master试剂盒(总反应体积为20 μl),包括10 μl Master Mix 2 ×浓缩,0.25 μM正向/反向引物(引物序列如下:8WT正向:ACTGCACCAACATCATCAGGAA)。8 wt逆转:AGGGACACCTTGCTTAAAGATG。8公关:ACTGCACCAACATCATCAGGAA。8PR反向:AGTCTGCCTGGTCACCTTAAAGAT)和12.5 ng cDNA。RT-PCR使用LightCycler®480 Instrument II (Roche)进行。使用LightCycler®480软件(Version 1.5.1.62, Roche)以β-葡萄糖醛酸酶(β-glucuronidase, GUSB)为内参基因计算基因的相对表达量。

数据和材料的可用性

在Geo Incession Number GSE161144下,支持本手稿的支持数据已提交给Gene表达式Omnibus(Geo)。

缩写

A3SS:

方案3'剪接位点

投产:

可选择5 '拼接位置

全部:

急性淋巴细胞白血病

为:

可变剪接

CPU:

中央处理单元

DS:

差异剪接

FPG:

Folylpolyglutamate合成酶

得到:

相互排斥的外显子

前mRNA:

前信使核糖核酸

PSI:

拼接百分比

内存:

随机访问存储器

RI:

保留基因内区

RNA-seq:

RNA-sequencing

中华民国:

接收机操作曲线

东南方:

跳过外显子

虚拟机:

虚拟机

参考文献

  1. 1.

    Licatalosi DD,达内尔RB。RNA加工及其调控:全球见解生物网络。NAT Rev Genet。2010; 11(1):75-87。

    中科院文章谷歌学术搜索

  2. 2.

    王等。人类组织转录组中的替代亚型调控。大自然。2008;456(7221):470 - 6。

    中科院文章谷歌学术搜索

  3. 3.

    Baralle d,Buratti E.RNA剪接人类疾病和临床。Clin SCI(Lond)。2017; 131(5):355-68。

    中科院文章谷歌学术搜索

  4. 4.

    王Y,等人。选择性剪接及其调控机制。生物医学2015年代表; 3(2):152-8。

    中科院文章谷歌学术搜索

  5. 5.

    巴拉勒FE,GIUDICE J.选择性剪接的发育和组织认同的调节。NAT Rev Mol Cell Biol。2017; 18(7):437-51。

    中科院文章谷歌学术搜索

  6. 6.

    潘Q,等人。通过高通量测序的人类转录剪接复杂深测量。NAT Genet。2008; 40(12):1413-5。

    中科院文章谷歌学术搜索

  7. 7.

    Lee Y,RIO DC。替代前mRNA剪接的机制和调节。annu rev biochem。2015; 84:291-323。

    中科院文章谷歌学术搜索

  8. 8.

    王斌,李恩华。癌症与耐药中的异常RNA剪接。癌症(巴塞尔)。2018; 10(11): 458。

  9. 9.

    等。糖皮质激素抵抗的儿童急性淋巴母细胞白血病样本显示剪接改变和剪接体调节的脆弱性。癌症。2020;12(3):723。

    中科院文章谷歌学术搜索

  10. 10.

    引用本文:李志强,等。选择性剪接作为生物标志物和药物发现的潜在靶点。药物学报。2015;36(10):1212-8。

    中科院文章谷歌学术搜索

  11. 11.

    等。剪接调制作为弥漫恶性腹膜间皮瘤的新治疗策略。EBioMedicine。2019; 39:215-25。

    文章谷歌学术搜索

  12. 12.

    等。癌症中的Pre-mRNA剪接:与肿瘤发生、治疗和耐药的相关性。医药学报。2015;11(5):673-89。

    中科院文章谷歌学术搜索

  13. 13.

    等。儿童急性淋巴细胞白血病中异常的叶酸聚谷氨酸合成酶剪切与体内甲氨喋呤耐药和临床结局的关系。Haematologica。2016;101 (7):e291-4。

    文章谷歌学术搜索

  14. 14.

    Muller IB等。早期类风湿性关节炎中改变的叶酸聚谷氨酸合成酶前体mRNA剪接与甲氨蝶呤无反应的关联。风湿病学(牛津)。2021;60(3):1273–81.

    中科院文章谷歌学术搜索

  15. 15.

    Alamancos GP, Agirre E, Eyras E.方法从高通量RNA测序数据研究剪接。方法:中华医学杂志。2014;1126:357-97。

    中科院文章谷歌学术搜索

  16. 16.

    Ding L,RATH E,BAI Y.使用RNA-SEQ数据的替代剪接结检测工具的比较。Curr基因组学。2017; 18(3):268-77。

    中科院文章谷歌学术搜索

  17. 17.

    刘R,洛雷AE,迪克森JA。的使用RNA-SEQ在植物系统差动可变剪接的检测的计算方法的比较。欧宝娱乐合法吗BMC生物信息学。2014; 15:364。

    文章谷歌学术搜索

  18. 18.

    等。用于rna测序研究的不同剪接工具的系统评价。短暂的Bioinform。2019。

  19. 19.

    Shen S, et al. rMATS:从复制RNA-Seq数据中稳健而灵活地检测差异选择性剪接。中国科学(d辑:地球科学)2014;

    中科院文章谷歌学术搜索

  20. 20。

    katz y等。鉴定同种型调节RNA测序实验的分析与设计。NAT方法。2010; 7(12):1009-15。

    中科院文章谷歌学术搜索

  21. 21。

    Trincado JL等,SUPPA2:跨多种条件的快速、准确和不确定性差异剪接分析。基因组生物学。2018;19(1):40.

    文章谷歌学术搜索

  22. 22.

    等。叶酸聚谷氨酸合成酶在急性淋巴母细胞白血病中的剪接改变是由甲氨蝶呤和其他化疗药物引起的,并介导化疗耐药性。国际癌症杂志。2016;138(7):1645-56。

    中科院文章谷歌学术搜索

  23. 23.

    等。鲑鱼提供了快速和偏见感知的转录表达量化。Nat方法。2017;14(4):417 - 9。

    中科院文章谷歌学术搜索

  24. 24.

    等。近最佳概率RNA-seq定量。生物科技Nat》。2016;34(5):525 - 7。

    中科院文章谷歌学术搜索

  25. 25.

    rMATS用户组。可从:https://groups.google.com/forum/# !! forum/rmats-user-group.

  26. 26.

    McGuire JJ等。间歇性甲氨蝶呤暴露选择CCRF-CEM人白血病细胞的耐药进化肿瘤防治杂志》1995;7(- 11):535 - 43。

    中科院PubMed谷歌学术搜索

  27. 27.

    等。甲氨蝶呤耐药与儿童急性淋巴细胞白血病治疗结果的关系J Hematol Oncol. 2015;8:61。

    文章谷歌学术搜索

  28. 28.

    McGuire JJ等。反应及其产物的folylpolyglutamates表征的酶促合成。J Biol Chem。1980; 255(12):5776-88。

  29. 29.

    麦克洛斯基DE等。降低叶酰聚谷氨酸合成酶的活性如在CCRF-CEM人白血病亚系甲氨蝶呤抗性的机制。J Biol Chem。1991; 266(10):6181-7。

    中科院文章谷歌学术搜索

  30. 30.

    等。叶酸聚谷氨酸合成酶的异常剪接作为白血病抗叶酸抵抗的新机制。血。2009;113(18):4362 - 9。

    中科院文章谷歌学术搜索

  31. 31。

    等。利用rna测序检测体外癌症模型中与耐药性相关的新剪接变异。中国科学(d辑:地球科学)2016;

  32. 32。

    Bolger Am,Lohse M,Usadel B. Trimmomatic:用于Illumina序列数据的灵活修剪器。生物信息学。2014; 30(15):2114-20。

  33. 33。

    等。StringTie能够从RNA-seq读取改进的转录组重建。生物科技Nat》。2015;33(3):290 - 5。

    中科院文章谷歌学术搜索

  34. 34.

    等。用通量模拟器建模和模拟一般RNA-Seq实验。核酸学报2012;40(20):10073-83。

    中科院文章谷歌学术搜索

  35. 35.

    等。STAR:超快通用rna测序仪。生物信息学。2013;29(1):15至21。

    中科院文章谷歌学术搜索

下载参考

确认

不适用。

资金

这项研究没有获得外部资助。

作者信息

隶属关系

作者

贡献

概念化,IBM,SM,PK,SVD和MVE;数据收藏,IBM和MVE;正式的分析,IBM;经查,IBM和MVE;方法论,IBM,SM,MVE和AMW;项目管理,SVD;监督,GJ,RDJ和JC;可视化,IBM;书信原草案,IBM;编写审查和编辑,IBM,SM,PK,SVD,MVE,ML,AMW,GJ,RDJ和JC。 All authors read and approved the final manuscript.

通讯作者

对应到杰奎琳cloo

道德声明

道德认可和参与同意

不适用。

同意出版

不适用。

竞争利益

ORTEC为数据整理和分析提供了技术援助和计算设施。作者声明没有进一步的利益冲突。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在公布的地图和机构附属机构的管辖权主张方面保持中立。

补充信息

额外的文件1

:补充数据概览。

权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Muller,I.B.,Meijers,S.,Kampstra,P。et al。基于事件的普通差动拼接工具的计算比较:实验室研究人员的实际考虑。欧宝娱乐合法吗22,347(2021)。https://doi.org/10.1186/s12859-021-04263-9

下载引用

关键词

  • 可变剪接
  • RNA-sequencing
  • 计算性能