跳到主要内容

利用LASSO回归模型对特定位点RNA切割效率的特征选择拟南芥

摘要

背景

RNA降解对调控基因表达具有重要作用。尽管在植物中已鉴定出与deadenylylation依赖性RNA降解相关的蛋白质和序列,但内切依赖性RNA降解尚未得到详细的研究。在这里,我们开发了截短RNA末端测序拟南芥识别裂解位点并评估每个位点的裂解效率。虽然一些特征与RNA的切割效率有关,但每个特征对切割效率的影响尚未通过考虑多个假定的决定因素来评估A. Thaliana.

结果

裂解现场信息是从先前的研究中获得的,并在现场级别进行切割效率(CS网站值),表示每个裂解位点的reads数量归一化为RNA丰度。为了在位点水平上识别与裂解效率相关的特征,使用了多个假定决定因素(特征),使用最小绝对收缩和选择算子(LASSO)回归模型进行特征选择。结果表明,全RNA特征对CS很重要网站价值,除了裂解网站周围的特征。与裂解位点周围的翻译过程和核苷酸频率相关的整个RNA特征是裂解效率的主要决定因素。在仅使用序列特征构造的模型中验证了结果,这表明预测精度类似于使用包括翻译过程的所有特征确定的预测精度,表明可以仅使用序列信息来预测解理效率。在外源基因中验证了套索回归模型,表明使用仅使用序列信息构建的模型可以预测内源和外源基因的切割效率。

结论

特征选择使用LASSO回归模型A. Thaliana.确定了155的特性。相关系数表明,除了切割位点周围的特征外,整个RNA特征对决定切割效率也很重要。LASSO回归模型可以仅利用序列信息预测内源性和外源性基因的裂解效率。该模型揭示了多种决定因素对裂解效率的影响,表明序列特征在RNA降解机制中是重要的A. Thaliana.

同行评审报告

背景

RNA降解是生物体内调节基因表达的重要过程[1].RNA降解是由脱氧烯酰化依赖或内溶核分裂依赖的RNA降解机制介导的[2].在这两种降解机制中,RNA消化的最后一步是由外切酶催化的。已在植物中研究了依赖于二烯基化的RNA降解[3.],并对部分蛋白和相关序列进行了鉴定和分析;然而,内切依赖性RNA降解尚未被详细分析。

降解组测序方法是使用下一代测序(NGS)检测截断的RNA末端的技术,已开发用于研究内切酶依赖性RNA降解的机制[456].虽然这些方法有助于鉴定切割位点,但由于在图书馆制备中的选择,检测到的裂解位点被朝向转录物的3'末端偏置[67].在之前的工作中,我们试图解决这个问题,通过开发截断RNA末端测序(TREseq)A. Thaliana.8].TREseq分析显示,裂解位点周围G核苷酸频率高;在起始密码子和终止密码子周围高度聚集裂解位点,在编码序列(CDSs)中观察到三核苷酸周期性[89].这些趋势类似于核糖体运动,核糖体分析方法中报道过,这表明翻译过程影响RNA切割[8910].在我们之前的研究中,我们评估了单个决定因素和切割效率之间的关系A. Thaliana.使用Pearson的相关分析[11].我们发现裂解效率与若干决定因素有关(例如,围绕切割位点和RNA长度的G核苷酸频率)。然而,因为Pearson的相关性分析只能评估一对一的关系,所以多个推定决定簇对切割效率的影响仍然待阐明。

为了评估几个特征,使用大型特征集进行了多元回归分析[1213].使用序列信息(如核苷酸序列、密码子或氨基酸使用),并通过多元回归模型预测RNA丰度或RNA稳定性。然而,多元回归模型会导致预测的方差较大,从而影响高维数据预测的准确性[14].为克服高维数据中多元回归的不足,设计了LASSO回归模型[15].LASSO惩罚回归系数的绝对大小。因此,通过将尽可能多的系数设置为零,目标变量将以尽可能少的特征回归。因此,可以根据LASSO回归模型中的系数提取必要的特征。在之前的研究中,LASSO回归模型被用于预测RNA上的核糖体占用(即翻译过程)[16].使用序列信息,将大约60个特征缩减为10-20个特征子集。结果表明,特定的核苷酸或密码子序列模式是重要的翻译过程。虽然这些使用LASSO回归模型的综合分析被用于预测转录(RNA表达水平)或翻译过程(核糖体占用)[1617,关于RNA降解机制的信息很少,特别是关于内切依赖性RNA降解的信息A. Thaliana..尽管分析了MicroRNA诱导的一些裂解位点,并且可以通过计算RNA互补序列来预测(核苷酸信息)[18[MicroRNA似乎没有诱导大多数裂解部位[81920.].因此,全基因组RNA切割位点的决定因素仍有待阐明A. Thaliana.

为了解决这个问题,我们获得了整个基因组的裂解位点,并使用LASSO in进行了裂解效率的特征选择A. Thaliana..在LASSO回归模型中,选取了155个特征,系数表明除了切割位点周围的特征外,整个RNA的特征也很重要。我们还使用不同的回归模型(Ridge回归)确认了LASSO回归模型中选定的特征,该模型解决了多元回归模型的一些问题,但相对于LASSO没有减少特征的数量。此外,我们尝试仅使用序列信息预测内源性和外源基因的切割效率,预测精度与使用所有特征的模型相似。这些结果表明,在内源性和外源性基因中,整个RNA和切割位点周围的序列特征是决定每个位点切割效率的关键A. Thaliana.

材料和方法

植物材料

拟南芥T87细胞悬液取自日本理研细胞库(Tsukuba,

如前所述,在改良的Murashige-Skoog培养基中培养[21].

TREseq的数据处理

从培养细胞和种子中读取A. Thaliana.用p35S::萤火虫荧光素酶(F-luc)::热休克蛋白18.2终结者(HSPT)转化的生态型Columbia-0 [1122]是根据以前的TREseq分析获得的[811],并绘制到TAIR 10版参考基因组(www.arabidopsis.org)或p35S::F-Luc::HSPT序列使用HISAT2。映射后,使用BED文件计数每个读的第一个核苷酸(5 ' end),如前所述[9].每个基因上有超过50个reads的Cap RNA被用来获取RNA丰度信息[9].为了估计每个位点的切割效率,将每个5 '降解中间位点的reads归一化为RNA丰度,定义为位点水平的切割评分(CS)网站).在基因水平上,我们定义了总CS网站每个基因的值都是CS基因价值。

核糖体图谱库的构建

核糖体保护片段(rpf)的选择如前所述[2324].简单来说,A. Thaliana.在接种并在液氮中冷冻后3天收获T87细胞,然后在萃取缓冲液中均化(200mM Tris-HCl,pH 8.5,50mM KCl,25mM MgCl2, 2 mM EGTA, 100µg/ml肝素,100µg/ml环己亚胺,2%聚氧乙烯10-三烷基醚,1%去氧胆酸钠),4°C, 15,000 g离心10分钟[23].用6 μl RNase I (Thermo Fisher Scientific, MA, USA)孵育细胞30 min,加入10 μl RNase inhibitor (Thermo Fisher Scientific)终止反应。26.25-71.25%蔗糖密度梯度缓冲液(200mm Tris-HCl, pH 8.5, 200mm KCl, 200mm MgCl)2)通过蔗糖密度梯度离心收集单体,在SW55转子(Beckman Coulter, CA, USA)中,在4°C下55,000 rpm离心50分钟。单体分离后,用TruSeq Ribo Profile试剂盒(Illumina)纯化RPFs。这些库在Illumina NextSeq 500 (Illumina)上进行了测序。

核糖体分析的数据处理

修整了适配器序列,并将读数映射到TAIR版本10参考基因组(www.arabidopsis.org)采用改良的MOIRAI系统[89].映射后,使用BED文件对每次读取的第一个核苷酸(5 ' end)进行计数。为了估算每个位点的RPF,将每个位点5′末端的RPF读值按RNA丰度归一化后定义为位点水平上的核糖体占用率(RO)网站).在基因水平上,总RO网站每个基因的值定义为RO基因价值观。

用LASSO和Ridge回归分析解理位点

在TREseq分析中,大约有200万个位点检测到裂解位点。为了选择可靠的位点,我们选择了相对于RNA长度> 20%剪切位点和其CS的基因中的位点基因数值在第5 - 95百分位之间。此外,我们使用psRNATarget去除了预期的microrna诱导的切割位点[18].数据分为培训和测试集(9:1),并且使用培训数据来构建模型。

模型中的解释变量

在模型中,提取了裂解位点周围的特征或整个RNA的特征(图)。1).RNA序列信息(核苷酸,密码子和相应的氨基酸序列)是从TAIR10数据库获得的(www.arabidopsis.org),最小自由能(二级结构稳定性)用RNAfold软件(http://rna.tbi.univie.ac.at/),基于RNA核苷酸序列[25].此外,在本分析中使用的核糖体分析方法中,RO网站和罗斯基因值用于获取核糖体占据信息(图。1).对于裂解位点周围的特征,我们确定核苷酸,密码子和相应的氨基酸序列周围的裂解位点周围的±30个核苷酸。综合搜索裂解位点周围的特征,并计算核苷酸,密码子或相应的氨基酸频率。窗口大小由一个核苷酸(最小长度,1个核苷酸;最大长度,60个核苷酸)和滑动窗口被一个核苷酸改变。因为核糖体占用率影响了长距离切割效率[26]时,该区域在裂解位点周围扩展了±200个核苷酸。二级结构方面,由于RNAfold无法预测短RNA序列的最小自由能,因此将最小窗口大小改为5个核苷酸(最小长度为5个核苷酸;最大长度60个核苷酸),滑动窗口移位5个核苷酸。

图。1
图1

模型的功能提取。从裂解位点提取与序列,二级结构的稳定性和核糖体占用相关的特征。对于整个RNA特征,从整个RNA,5'-UTR,Cds,3'-UTR或围绕开始和止码簧序列提取裂解位点周围的类似特征。删除了解释变量中不相关的特征和多相关。

在全RNA特征方面,我们从TAIR10数据库(www.arabidopsis.org)并计算核苷酸,密码子和相应的氨基酸频率。使用每个区域(5'-UTR,CDS,3'-UTR或全RNA)中的RNAFOLD预测最小自由能。RO的总和网站值(5 ' -UTR, CDS, 3 ' -UTR,或全RNA)用于获取核糖体占据信息。此外,从每个区域的5 '或3 '端(5 ' -UTR、CDS、3 ' -UTR或whole RNA)提取50个核苷酸序列,并将核苷酸频率信息添加到模型中。因为起始密码子周围的几个密码子似乎与翻译过程有关[2728],从CDS的5 '或3 '端提取10个密码子或对应的氨基酸序列,并将密码子或对应的氨基酸频率用于模型。图中显示了一个使用“核苷酸序列”的解释变量的例子。2

图2
figure2

解释变量的示例。核苷酸序列被用作裂解位点的解释变量(特征)(一个)或整个RNA (b).全面改变搜索区域,计算所选区域的核苷酸频率。在整个RNA中也进行了类似的数据处理。计算5 ' -UTR、CDS、3 ' -UTR或全RNA中的核苷酸频率,也计算每个区域(5 ' -UTR、CDS、3 ' -UTR或全RNA)的5 '或3 '末端的50个核苷酸序列中的核苷酸频率。

为了从解释性变量中删除多相共同性,我们计算了特征之间的矛盾等级相关系数。如果特征之间的相关系数≥0.6,则与CS相关的特征网站值用于模型。另外,剔除根据Spearman系数无相关性(r < 0.1)的解释变量。最后,LASSO和Ridge回归模型使用了1191个特征。RNA序列信息可从TAIR10数据库中获得,本次分析中处理的数据(裂解位点和核糖体谱信息)可在GitHub (https://github.com/daishin-ueno/LASSO_and_Ridge_regression/tree/main/Datasets).

LASSO和Ridge回归模型的构建

对于特征选择,我们使用了linear_model。套索或linear_model。Ridge来自Python包scikit-learn [29].在th观察,\ ({y} _{我}\)为客观变量,裂解效率(CS网站值)和向量\ ({\ mathrm {x}} _{我}= \离开({x} _ {i1}, {x} _ {i2}, \ cdots {x} _ {ip} \) \)是相应的特征值集。切割效率的线性回归模型定义如下:

$ $ {\ widehat {y}} _{我}= \α+ {\ varvec {\ upbeta}} \子弹{\ mathbf {x}} _{我}= \α+ \ sum_ {j = 1} ^ {p}{\β}_ {j} {x} _ {ij}, $ $

在哪里\ ({\ varvec {\ upbeta}} \子弹{\ mathbf {x}} _{我}\)表示向量的内积\({\ varvec {\ upbeta}} =左({\ beta} _ {1},{\ beta} _ {2},\ cdots,{\ beta} _ {p} \右)\)\ ({\ mathbf {x}} _{我}\)\({\β}_ {j} \)jth特性,\(α}{\ \)是截获的,还有吗\ (p \)是特征的数量。

LASSO回归估计使用L1正则化惩罚:

$ $ {{\ varvec {\ upbeta}}} _{套索}= \暗流{{\ varvec {\ upbeta}}} {\ mathrm {arg分钟}}\左\{{{\总和}_ {i = 1} ^ {N} \离开({y} _{我}- {\ widehat {y}} _{我}\右)}^{2}+ \λ{\总和}_ {j = 1} ^ {p} \左|{\β}_ {j} \右| \ \},$ $

在哪里\(\ lambda {\ sum} _ {j = 1} ^ {p} \ left | {\ beta} _ {j} \ revile | \)L1正则化对系数的惩罚是什么\({\β}_ {j} \)\(\ lambda \ ge 0 \)是调谐参数。

Ridge回归估计使用L2正则化惩罚:

$ $ {{\ varvec {\ upbeta}}} _{岭}= \暗流{{\ varvec {\ upbeta}}} {\ mathrm {arg分钟}}\左\{{{\总和}_ {i = 1} ^ {N} \离开({y} _{我}- {\ widehat {y}} _{我}\右)}^{2}+ \λ{\总和}_ {j = 1} ^ {p}{\β}_ {j} ^{2} \右\},$ $

在哪里\(λ {\sum}_{j=1}^{p}{\ β}_{j}^{2}\)L2规则化的惩罚在哪里\({\β}_ {j} \)\(\ lambda \ ge 0 \)是调谐参数。

利用训练数据确定整定参数λ。在LASSO回归中,预测和测量CS之间的均方误差(MSE)网站通过改变参数λ(10)来计算值-10年-10年-1)十倍交叉验证[30.]使用model_selection.cross_val_score从python包scikit-searn [2931].为了提高LASSO回归模型的可解释性,我们在保持MSE的同时,用较少的特征来确定λ参数(图1)。3.a). LASSO回归模型使用了相同的数据处理方法,该模型仅使用序列信息构建(图2)。3.b).在Ridge回归中,预测CS与实测CS之间的MSE网站通过改变参数λ(10)来计算值-10年-10年-1)十倍交叉验证[30.]使用model_selection.cross_val_score从python包scikit-searn [2931];我们确定λ = 105在10范围内MSE最小-10年-10年-1.使用线性模型的LASSO或Ridge回归模型的源代码。套索或linear_model。Python包scikit-learn中的Ridge可在GitHub (https://github.com/daishin-ueno/LASSO_and_Ridge_regression/tree/main/Source_code).

图3.
图3

优化LASSO回归模型中的调谐参数。通过改变LASSO回归中的参数λ,通过十倍交叉验证(十倍CV)计算平均均方误差(MSE)。计算LASSO回归模型中的非零特征个数,根据平均MSE和LASSO回归模型中的非零特征个数确定λ参数(一个).LASSO回归模型采用相同的数据处理方法,仅使用序列信息(b).y轴表示LASSO回归模型中非零特征的个数。x轴表示十倍CV的平均MSE。各回归模型均采用λ (0.01)

结果与讨论

LASSO回归模型中的数据处理

对于客观变量,位点水平的切割效率指标(CS网站值),使用我们之前的TREseq数据计算[8],每种切割位点的读数数标准化为RNA丰度。解释变量(特征)可以分为三类:序列(核苷酸,密码子或相应的氨基酸频率),二级结构的稳定性和核糖体占用(图。1).对于解释变量(特征),从TAIR10数据库中获取RNA序列,并获取核苷酸、密码子和相应的氨基酸频率。利用RNAfold软件基于RNA核苷酸序列计算二级结构的最小自由能。此外,在我们之前TREseq数据使用的条件下获得了核糖体占用信息(DRA010802) [8]和ro网站用于模型使用值(位点水平的核糖体保护片段的数量,归一化RNA丰度)用于模型。因为特征之间的多相共线性对预测精度产生负面影响,所以我们在解释变量之间取消了具有高相关性的特征。另外,从特征提取过程中除去了根据Spearman的相关试验(R <0.01)的目标和解释性变量之间没有相关性的特征(图。4).为了获得可靠的剪切位点,我们选择了相对于RNA长度>有20%剪切位点的基因。分析的基因总数为1107个,位点总数为429185个。站点被分成训练和测试数据集(表1)和CS网站以Value作为客观变量。使用CS对输入数据进行格式化网站值和特征(图。4),并可在GitHub (https://github.com/daishin-ueno/LASSO_and_Ridge_regression/tree/main/Datasets/Final_input_data_for_model_construction).然后使用训练数据构建LASSO或Ridge回归模型,并使用测试数据评估其性能。选取非零系数的特征,根据其在模型中的重要性评分对每个特征进行估计(图1)。4).

图4.
装具

LASSO和Ridge回归模型中的数据处理。获得序列(核苷酸、密码子或相应的氨基酸序列)、二级结构稳定性、核糖体占位信息,并在特征提取过程中去除解释变量之间存在多重共线性或与客观变量无相关性的特征。乳沟网站(CS网站值)划分为训练数据集和测试数据集,并对输入数据进行格式化。随后,利用训练数据集构建LASSO或Ridge回归模型。最后,利用测试数据评价模型性能,并根据重要性评分(LASSO或Ridge回归模型中的系数)估计非零系数的特征。

表1 LASSO和Ridge回归模型的训练和测试数据

CS的预测网站值使用LASSO回归模型

利用检验数据计算预测精度(Pearson相关系数);相关系数r = 0.74。5).去除系数为零的特征,特征数量从1191个减少到155个。由此得到的155个特征预测了解理效率。这些特征根据相关系数被分为正(有助于提高切割效率)和负(有助于降低切割效率)两类。在正系数(效应)组中,剪切位点周围全RNA特征的相关系数为0.78(59.7%),全RNA特征的相关系数为0.53(40.3%)。6一种)。核苷酸序列占切割位点的特征中的大约90%的正系数(图。6b).这一结果与之前的研究一致,即裂解位点周围的核苷酸频率对CS有积极的影响网站价值观[8911,并提出序列特征是CS的主要决定因素网站值为正系数的特征。当我们关注整个RNA特征的正系数时,核糖体占用率、密码子和相应的氨基酸序列约占50%(图2)。6c).这些结果表明翻译过程(密码子,相应的氨基酸序列,或核糖体占有)对CS有积极的影响网站对整个RNA的特征有价值,但对切割位点周围的特征没有价值。

图5.
figure5

CS的预测网站值使用LASSO回归模型。利用训练数据构建模型,利用检验数据计算Pearson相关系数。x轴表示测量的CS网站的值,y轴表示预测的CS网站套索回归模型中的价值。每个图上面和右边的直方图显示了测量和预测的CS的分布网站值,分别

图6.
figure6

LASSO回归模型中的正系数。提取切割位点周围和整个RNA中的正系数特征(一个).各系数所占比例按切割位点周围的特征进行分类(b)及整个RNA的特征(c).

在负系数组中,全RNA特征也与切割效率相关;然而,大多数特征是在卵裂位点附近(图。7a).裂解位点周围特征分析表明,核苷酸频率是CS的主要决定因素网站负系数组中的值(图。7b),这与在解理位点周围观察到的正系数特征相似(图2)。6b).在整个RNA特征中,除负系数组的核苷酸序列外,还选择了密码子或相应的氨基酸序列(图2)。7C)。考虑到一些核苷酸序列模式对核糖体占据有影响[16,整个RNA特征中的核苷酸序列似乎参与了翻译过程,并在位点水平上影响切割效率(图。6c,7C)。在选择基于套索回归模型中的相关系数(表格)的相关系数选择五个最积极或负面特征后,还观察到这些趋势23.).特别地,选择 - 4至+ 2(阳性)和G核苷酸频率为+ 4至+ 5(阴性)的G核苷酸频率。这些结果与裂解位点周围的核苷酸频率一致,因为G核苷酸频率从-3至+ 1个位置高,而其在+ 4位左右,如先前的TRESEQ分析中所报告的[8].综上所述,这些结果表明155个特征解释了CS网站在LASSO回归模型中的值,整个RNA特征(例如,翻译过程)除了与剪切位点周围的核苷酸频率有关外,还与剪切效率有关。

图7.
figure7

LASSO回归的负系数。提取切割位点周围负系数特征和全RNA特征(一个).对详细特征进行分类,LASSO回归模型中系数在裂解位点周围特征中的比例(b)和全RNA的特征(c)计算

表2 LASSO回归模型的正系数特征
表3 LASSO回归模型的负系数特征

使用不同的模型确认选定的特征

提出的LASSO回归模型的优点包括减少特征(解释变量)的数量和增加可解释性。另一方面,LASSO回归模型不能选择几个特征,如果它们与客观变量有相似的相关性。因此,有可能从LASSO回归模型中删除了一些重要的解理效率特征。为了克服这个限制,我们需要确认,如果我们使用不同的模型,也会观察到类似的趋势。因此,为了确认LASSO回归模型中选择的特征的重要性,我们使用Ridge回归模型进行了实验。基于LASSO回归模型中的数据处理,我们构建了Ridge回归模型。首先用Pearson相关系数检验Ridge的预测精度,结果表明,与LASSO回归模型的预测精度相当(图3)。8).去除系数为0的特征,将1191个特征减少到1051个特征(图1)。9a).我们还使用Pearson相关系数计算了特征重要性的相关系数,这在LASSO和Ridge回归模型中很常见,并且在两个模型中观察到相似的趋势(图)。9b).此外,当选择五个最积极或最消极的特征时(表45),剪切位点周围的核苷酸频率和与翻译过程相关的全部RNA特征。这些结果表明,在LASSO回归模型中选择的特征是可靠的。

图8
figure8

CS的预测网站使用RIDGE回归模型的价值。利用训练数据构建模型,利用检验数据计算Pearson相关系数。x轴表示测量的CS网站的值,y轴表示预测的CS网站RIDGE回归模型中的值。每个图上面和右边的直方图显示了测量和预测的CS的分布网站值,分别

图9.
figure9

使用RIDGE回归模型确认套索回归模型中所选功能。套索和岭回归模型中有155个常见功能(一个).皮尔逊相关系数使用两个模型的共同特征计算(b

表4 Ridge回归模型的正系数特征
表5 Ridge回归模型的负系数特征

预测软件网站值仅使用序列信息

虽然LASSO回归模型中核糖体占用率的正系数最高,但大部分系数与序列信息有关。此外,在以前的一项研究中,核糖体的占用被解释为核苷酸或密码子序列[15].因此,我们假设我们可以仅使用序列信息预测每个位点的切割效率。我们删除了核糖体占位或二级结构信息相关的特征,重建了LASSO回归模型。利用检验数据计算预测精度(Pearson相关系数);相关系数r = 0.68。10).这些结果表明,在位点水平上的切割效率可以只用序列信息来解释。

图10.
图10

CS的预测网站值使用LASSO回归模型(仅序列信息)。利用训练数据构建模型,利用检验数据计算Pearson相关系数。x轴表示测量的CS网站的值,y轴表示预测的CS网站值的LASSO回归模型。每个图上面和右边的直方图显示了测量和预测的CS的分布网站值,分别

通过预测外源基因验证套索回归模型

使用内源基因构建套索回归模型。如果该模型可以解释植物细胞中的切割效率,我们假设可以在外源基因中预测切割效率答:芥。我们获得了CS网站价值的价值萤火虫荧光素酶F-luc)基因,该基因被插入A. Thaliana.基因组(DRA009373) [1122].因为核糖体分析信息F-luc基因缺失时,我们使用了仅使用序列信息构建的模型(图。10).我们预测CS网站价值F-luc计算了测量值与预测值之间的Pearson相关系数网站价值观。预测精度是r = 0.71(图。11).这些结果表明CS的所选功能网站LASSO回归模型的值是可靠的,并且在位点水平上内源性和外源性基因的RNA切割效率可以仅使用序列信息来预测A. Thaliana.

图11.
figure11

通过CS预测验证LASSO回归模型网站外源基因的价值。仅使用序列信息构建的LASSO回归模型用于预测CS网站价值F-lucRNA(外源基因)。x轴表示测量的CS网站的值,y轴表示预测的CS网站值的LASSO回归模型

结论

我们使用LASSO回归模型进行特征选择A. Thaliana..该模型揭示了多个决定因素对每个位点切割效率影响的重要性,并表明除了切割位点周围的特征外,整个RNA特征对切割效率的决定也很重要。LASSO回归模型中选择的特征使用不同的方法进行验证,该模型仅使用序列信息就可以预测内源性和外源性基因的裂解效率。这些结果表明,数学模型可以在位点水平预测转基因植物的切割效率,为RNA降解机制中序列特征的重要性提供了新的见解答:芥。

数据和材料的可用性

TREseq读取培养细胞和F-lucRNA可在DDBJ序列读取存档(DRA)数据库中,如下类DRA005995(https://ddbj.nig.ac.jp/DRASearch/study?acc=DRP003990)及DRA009373 (https://ddbj.nig.ac.jp/DRASearch/submission?acc=DRA009373).核糖体分析读取A. Thaliana.的注册编号为DRA010802 (https://ddbj.nig.ac.jp/DRASearch/submission?acc=DRA010802).本研究中的处理数据可在GitHub(https://github.com/daishin-ueno/LASSO_and_Ridge_regression).

参考文献

  1. 1.

    基恩JD。微型综述:核糖核酸的全球调控和动态。内分泌学。2010;151:1391-7。

    中科院文章谷歌学术

  2. 2.

    在酿酒酵母中的RNA降解。遗传学。2012;191:671 - 702。

    中科院文章谷歌学术

  3. 3.

    千叶Y,绿色PJ。植物中mRNA的降解机制。植物学报。2009;52:114-24。

    中科院文章谷歌学术

  4. 4。

    陈海涛,陈海涛,陈海涛,等。RNA代谢与影响拟南芥发育的沉默之间的联系。Dev细胞。2008;14:854 - 66。

    中科院文章谷歌学术

  5. 5。

    郑德华,李志强,李志强,等。通过RNA末端的平行分析,对microRNA-target RNA对进行全局识别。生物科技Nat》。2008;26:941-6。

    中科院文章谷歌学术

  6. 6。

    Addo-Quaye C, Eshoo TW, Bartel DP, Axtell MJ。内源性siRNA和miRNA靶标通过拟南芥降解组测序确定。咕咕叫医学杂志。2008;18:758 - 62。

    中科院文章谷歌学术

  7. 7。

    Weinberg de,Shah P,Eichhorn SW,Hussmann Ja,Plotkin JB,Bartel DP。改进的核糖体 - 足迹和mRNA测量为酵母翻译的动态和调节提供了见解。细胞批准。2016; 14:1787-99。

    中科院文章谷歌学术

  8. 8。

    Ueno D,Yamasaki S,Demura T,Kato K.拟南芥MRNA内切割位点综合分析。J Biosci Bioeng。2018; 125:723-8。

    中科院文章谷歌学术

  9. 9。

    上野丁,穆田,山崎,三ami M, Demura T, Matsui T,等。不同的植物具有与mRNA降解中间体相关的共同序列特征。植物生理学。2020;61:53-63。

    中科院文章谷歌学术

  10. 10.

    Ibrahim F, Maragkakis M, Alexiou P, Mourelatos Z. Ribothrypsis,一个典型mRNA衰变的新过程,介导核糖体阶段mRNA内核溶解。国家自然科学基金项目:国家自然科学基金。

    中科院文章谷歌学术

  11. 11.

    Ueno D, miami M, Yamasaki S, Kaneko M, muuta T, Demura T, et al.;在拟南芥中,不同条件下mRNA降解效率的变化受到多种决定因素的调控。acta botanica yunnanica(云南植物研究). 2020;62:143-55。

    文章谷歌学术

  12. 12.

    NIE L,WUG,张W.多序列特征影响的mRNA表达和蛋白质丰度与脱硫效率相关的多序列特征:定量分析。遗传学。2006; 174:2229-43。

    中科院文章谷歌学术

  13. 13.

    Cheng J, Maier KC, Avsec Ž, Petra RUS, Gagneur J.在酵母中,顺式调控元件解释了大部分基因间mRNA稳定性的变化。RNA。2017; 23:1648-59。

    中科院文章谷歌学术

  14. 14.

    惩罚回归、标准误差和贝叶斯套索。贝叶斯肛门。2010;5:369 - 412。

    谷歌学术

  15. 15。

    蒂什比拉尼R.回归收缩和选择通过套索。J R Stat Soc Ser B(方法论)。1996; 58:267 - 88。

  16. 16。

    胡强,陈志强,陈志强,等。基于LASSO和随机森林的拟南芥翻译相关转录本特征挖掘。2015 IEEE 5th Int Conf compput Adv Bio Med Sci ICCABS 2015。2015; 1 - 6。

  17. 17。

    Qabaja A, Alshalalfa M, Bismar TA, Alhajj R.用于构建疾病mirna功能相互作用的蛋白质网络Lasso回归模型。生物标志物发现和系统生物学研究的计算方法。acta botanica yunnanica sinica(云南植物研究),2013;

    文章谷歌学术

  18. 18。

    戴旭,赵PX。植物小RNA目标分析服务器。核酸学报2011;39(SUPPL。2): 155 - 9。

    文章谷歌学术

  19. 19。

    侯超英,李永志,周兴中,陈安培,周世杰,陈鸿明。对截断的RNA末端的全面分析揭示了植物核糖体停滞的新见解。植物细胞。2016;28:2398 - 416。

    中科院文章谷歌学术

  20. 20.

    Yu X, Willmann MR, Anderson SJ, Gregory BD. non - capping and cleaved transcripts全基因组定位揭示了核mrna帽结合复合物在拟南芥共翻译rna衰变中的作用。植物细胞。2016;28:2385 - 97。

    中科院文章谷歌学术

  21. 21.

    松井,武田,佐藤,金条等。植物细胞非标准Asn-X-Cys序列的n-糖基化。糖生物学。2011;21:994-9。

    中科院文章谷歌学术

  22. 22.

    山崎等。拟南芥低温调控的47基因5 '非翻译区使转基因的稳定高水平表达成为可能。中国生物科学(英文版)2018;

  23. 23.

    雷磊,史军,陈建军,张敏,孙胜,谢胜,等。核糖体图谱揭示干旱胁迫下玉米幼苗的动态翻译景观。植物j . 2015; 84:1206-18。

    中科院文章谷歌学术

  24. 24.

    Yamasaki S,Matsuura H,Demura T,Kato K.MRNA在拟南芥中生长和发育中mRNA的变化。植物细胞生理。2015; 56:2169-80。

    中科院PubMed.谷歌学术

  25. 25.

    Gruber AR, Lorenz R, Bernhart SH, Neuböck R, Hofacker IL.维也纳RNA网络套件。核酸Res. 2008;36 Web服务器问题:70-4。

  26. 26.

    SIMMS CL,YAN LL,ZAHER HS。核糖体碰撞对于无腐烂期间的质量控制至关重要。Mol细胞。2017; 68:361-73。

    中科院文章谷歌学术

  27. 27。

    Zalucki YM, Power PM, Jennings MP。高效翻译起始密码子的选择偏向分泌蛋白第二氨基酸位置的密码子使用。核酸Res. 2007; 35:5748-54。

    中科院文章谷歌学术

  28. 28。

    Bivona L, Zou Z, Stutzman N, Sun PD。第二种氨基酸对重组蛋白表达的影响。生物谷bioon.com

    中科院文章谷歌学术

  29. 29。

    Barupal DK,Fiehn O.在Python的机器学习。J Mach Learn Res。2011; 12:2825-30。

    谷歌学术

  30. 30.

    Hasan MM,Manavalan B,Shoombuatong W,Khatun MS,Kurata H.I6MA-Fuse:通过融合多个特征表示,通过融合多个特征表示,改善和鲁棒预测枸杞基因组中的DNA 6MA位点。植物mol biol。2020; 103:225-34。https://doi.org/10.1007/S11103-020-00988-Y.

    中科院文章PubMed.谷歌学术

  31. 31.

    Varoquaux G,Buitinck L,LOUPPE G,Grisel O,Pedregosa F,Mueller A. Scikit-Learn:Machine学习而不学习机械机。GetMobile Mob Comput Communce。2015; 19:29-33。

    文章谷歌学术

下载参考

致谢

我们感谢DNAFORM提供的优秀的深度测序分析和有益的建议。我们也感谢NAIST的Yuichi Sakumura提供的有用的技术建议和讨论。

资金

来自新能源和工业技术开发组织(NEDO)的“使用植物植物和其他生物的智能细胞的高型功能生物材料的生产技术的发展”支持这项工作。

作者信息

从属关系

作者

贡献

本研究由DU、SY、TD和KK设计。DU、HK和SY进行了实验。DU和KK写了这篇文章。所有作者阅读并批准了最终的手稿。

相应的作者

对应到Ko加藤

道德声明

伦理批准和同意参与

的集合A. Thaliana.T87培养的细胞符合奈良科学技术研究所(NAIST)转基因生物安全管理规定。

同意出版

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Ueno,D.,Kawabe,H.,Yamasaki,S。et al。利用LASSO回归模型对特定位点RNA切割效率的特征选择拟南芥欧宝娱乐合法吗22,380(2021)。https://doi.org/10.1186/s12859-021-04291-5

下载引用

关键字

  • RNA降解
  • Degradome测序
  • 套索