跳过主要内容

石油生物合成途径在生物燃料工厂的延伸开采麻风树通过转录组和基因相互作用组数据的联合分析

摘要

背景

麻风树L.是一种重要的非食用油料作物与生物柴油生产前景广阔。当与其它已建立的油籽作物相比然而,知之甚少油生物合成的本植物分子生物学,导致在不存在的农艺学优良品种麻风手套.到广泛探索了潜在的新基因和通路与油的生物合成在相关联j . curcas在美国,除了同源调整外,新的策略也在需求中。

结果

在本研究中,我们提出了一个整合转录组和基因相互作用组数据的多步计算框架,以预测非模式生物在扩展过程中的功能途径,并将其应用于石油生物合成途径的研究j . curcas.利用拟南芥同源定位和转录组图谱分析,我们首先构建了拟南芥中蛋白-蛋白相互作用(PPI)和共表达网络j . curcas.然后,使用拟南芥油生物合成相关基因的同源物作为种子,我们分别施加了两种算法模型,随机步行,在PPI网络中的重启(RWR)和共同表达网络中的负二项式分布(NBD),以进一步延长油- 与合成相关的途径和基因j . curcas.最后,使用k-最近邻(KNN)算法,预测的基因进一步根据自己的可能的功能性作用分为不同的子通路。

结论

我们的方法显示了一种高效的挖掘延伸的石油生物合成途径j . curcas.总体而言,预测了27种新型油脂生物合成相关基因候选物,并进一步分配到5个亚途径。这些发现可以帮助更好地理解油脂合成途径j . curcas,以及为以下方式铺平道路j . curcas育种的应用程序。

背景

麻风树L.也称为“物理螺母”(肉豆蔻泥家族的成员),是一种小的多年生树或大灌木,代谢物和药用部件,用于生产肥皂和药物很长一段时间[12].由于其非凡的公差,以环境压力,如干旱和不孕,j . curcas可以在恶劣条件下生长良好,作为一种非食用作物不会危及粮食安全。近年来,j . curcas生物燃料种植园的高潜力吸引了更多的关注。含油量j . curcas约为30-45%,单不饱和油酸和多不饱和亚油酸的比例较高[3.),所以j . curcas可直接作为柴油使用,无需加工。此外,从种子中提取的滤饼富含蛋白质(60-63%),而大豆(45%)[4],使其成为各种氨基酸的可行资源。

然而,仍有许多挑战限制了电子商务的商业潜力j . curcas.首先,种子j . curcas多不饱和脂肪酸含量高,对生物燃料品质有负面影响。因此,优化小桐子生物柴油的油脂组成有助于提高生物柴油的质量。例如,不饱和脂肪酸的减少可以提高氧化稳定性,自由脂肪酸的减少可以防止肥皂的形成,提高生物柴油的收率,18碳脂肪酸的收缩可以降低粘度,使生物柴油更好的雾化[5].同时,如何有效提高石油植物研究的另一个关键问题,这通常与脂质代谢的机制有关。然而,与其他良好的油籽作物相比,该植物的分子生物学知之甚少。此外,低种子生产,果实成熟不均匀,缺乏高产基因型限制此作物的可用性[6].为了使其在商业上可行,需要开发新的品种。基因工程方法可能在这方面发挥重要作用j . curcas因为传统育种的范围因育种周期较长而受到限制。为此目的,功能基因组学的理解代谢途径和遗传改良是迫切的j . curcas

在测序技术发展的推动下,产生了大规模的分子生物学数据。它们包括相对静态的分子间物理相互作用数据,如PPI数据,以及为研究基因在发育过程中的激活而收集的相当动态的数据,如基因表达谱。网络科学正在逐渐改变我们对细胞生物学的看法,它为理解细胞的内部组织提供了不可预见的可能性[7].共表达网络分析是从共表达基因中提取功能模块、分析其生物学意义、识别重要新基因的有力方法[8].PPI网络也表现出很强的相互作用。基于蛋白质在生物功能中的主要作用,它们的相互作用决定了分子和细胞机制,控制生物的健康和疾病状态。结合转录组和基因相互作用组数据成功地用于高效挖掘关键通路[910].

尽管在基因组和转录组学研究方面取得了许多进展j . curcas研究结果为脂肪酸生物合成、种子发育调控机制和油脂生物合成提供了重要的分子基础j . curcas都不是很清楚。通常,油的生物合成份额过程油料种子植物中的一些类似的元件,因此,这些油的生物合成相关的基因的鉴定主要基于BLAST命中或结构域的同源性的方法。然而,j . curcas种子在含油量和脂肪酸组成方面与其他油料植物有很大的不同。因此,系统地鉴定和分析了石油生物合成相关的特异基因j . curcas是必要的。

在这项研究中,我们描述了一个多步骤计算框架,广泛挖掘新的石油生物合成相关基因和途径j . curcas使用转录组和基因相互作用组数据。首先,PPI和共表达网络j . curcas通过拟南芥同源mapping和转录组图谱分析构建,并通过网络结构参数和GO注释一致性验证。然后分别在PPI网络上训练RWR算法,在共表达网络上训练NBD算法,并预测了中石油生物合成相关基因j . curcas利用拟南芥基因的同源物作为种子。结果预测了27个与石油生物合成相关的候选基因。与其他研究一致,大多数预测在种子发育中表现出高表达水平。最后,利用KNN算法将这些基因分配到脂肪酸合成和三甘油酯生物合成等5个子通路中。以上结果表明,我们提出的多步计算框架是一种高效的挖掘非模式生物功能途径的方法,这些结果有助于更好地理解油的生物合成途径j . curcas,以及为以下方式铺平道路j . curcas育种的应用程序。

结果

关键路径扩展挖掘算法的工作流程

在这里,我们设计了一个多步骤计算框架,整合转录组和基因相互作用数据,以挖掘非模式生物在扩展过程中的功能通路。该框架主要包括三个部分:数据收集、基因预测和子路径分配(图2)。1).

图1
图1

关键路径扩展挖掘算法的工作流程

在数据检索部分,已知的油脂生物合成相关基因来源于实验验证的模型物种的油脂代谢途径。基因表达数据来源于高通量基因表达谱分析技术,如RNA-seq或Microarray。另一个广泛使用的功能链接数据是PPI,可以从STRING [11]数据库。

在基因预测部分,我们首先构建了PPI和共表达网络j . curcas.参考PPI从高可靠性驱动拟南芥蒂利亚纳数据。我们推断出PPIj . curcas基于基于同源基团的方法。基因通过基于RNA-SEQ或微阵列表达谱测量的基因共表达通过Spearman或Pearson相关系数测量[1213]. 由于我们的表达谱是RNA-Seq类型,因此选择Spearman相关性生成关联矩阵。然后根据网络的不同性质,分别应用PPI网络中的RWR和co-expression网络中的NBD两种算法模型,对植物油生物合成相关途径和基因进行预测j . curcas

在子通路分配部分,我们进一步根据预测基因可能的功能作用将其分为不同的子通路。欧几里德距离用于测量候选基因与所有已知石油生物合成相关基因之间的距离。然后,使用KNN投票法将每个预测基因分配到相应的子通路。

数据检索和网络建设

油脂合成相关基因j . curcas

为了获得油合成途径的全貌,我们从ARALIP(附加文件)下载了132个拟南芥油合成基因1). 根据ARALIP,拟南芥油生物合成相关基因分为5个子途径,40个在脂肪酸合成中,7个在脂肪酸延伸、去饱和和质体输出中,6个在脂质运输中,66个在三酰甘油生物合成中,23个在三酰甘油和脂肪酸降解中。我们观察到一些路径与其他路径重叠。通过同源性分析,共鉴定出105个与油脂生物合成相关的基因为已知的油脂代谢基因j . curcas(附加文件2),30在脂肪酸合成中,10中的脂肪酸伸长和去饱和和从血液运输中出口,6例在三酰基甘油生物合成中的脂质贩运,45例,28例三酰基甘油和脂肪酸降解。数字2一个显示j . curcas拟南芥已知的油代谢基因占拟南芥油代谢基因的75%。脂肪酸合成及三酰基甘油生物合成相关基因j . curcas占拟南芥(75%和68.18%),而在脂肪酸伸长和去饱和和出口中观察到相反的情况,从塑性和三酰基甘油和脂肪酸降解(144.86%和121.74%)。此外,对于脂质贩运亚途径,两种物种具有相同的基因数。可以在附加文件中找到两个物种的每个子路径中基因数的详细统计3..这些结果表明,两个物种的核心脂质代谢途径是由相当数量的同源蛋白进行的。然而,在某些途径中基因数量的不一致也表明了不同的油的合成途径j . curcas拟南芥蒂利亚纳

图2
图2.

数据检索和网络建设。一个石油生物合成相关同源基因的数量比较拟南芥蒂利亚纳麻风树在不同的途径中。bPPI网络j . curcas服从幂律分布。c共表达网络中相关系数阈值的变化及其对应的GO一致性和GO注释基因数量。dPPI,Co表达和随机网络的一致性分析。e比较共表达、PPI和随机网络中已知的石油生物合成相关基因的连接数量

蛋白质-蛋白质网络的构建

TAIR (version 10)有22,446个编码基因,其中14051个基因可以在TAIR中找到15936个同源基因j . curcas基因组inparinoid v4.1(默认参数,见方法)。我们从文献和数据库中检索到一个非常可靠的拟南芥PPI网络,共有17894个拟南芥基因和252,401个互作。通过基于同构群的方法,我们最终得到的PPI网络j . curcas它包含9602个节点和118,839条边。中与石油生物合成相关的基因j . curcas其中86个在PPI网络,19个不在PPI网络。然后分析了网络的拓扑特性j . curcasPPI网络。节点的阶数呈现幂律分布(图。2b).无标度R2值为0.89,无标度伽马值为1.52。更详细的网络拓扑特征统计数据可以在附加文件中找到4

共表达网络的构建

有25297个基因,并在114个样本j . curcas表达谱。为了构建共表达网络,需要合适的斯皮尔曼相关系数(Spearman’s correlation coefficient, SCC)截止值。数字2c显示GO基因数与SCC截断呈负相关。在约0.6时,GO的网络基因数开始迅速下降。我们需要尽可能地将功能基因保留在网络中。我们的结果显示,在共表达网络上使用SCC截断值0.6、0.7、0.8和0.9分别保留了102(97%)、91(86%)、53(50%)和10(9%)功能基因5). 因此,选择SCC截止值0.6,从大规模表达数据集中筛选显著的共表达相关性。我们最终的共表达网络由22749个节点、19739995条边组成。无标度R2值为0.59,无垢伽玛为0.60。更详细的网络拓扑特征统计数据可以在附加文件中找到6.根据上述数据,很明显,Co表达网络在网络中包含更多的基因,而PPI网络在具有更多噪声的同时。

网络验证

为了验证我们网络的可靠性,我们使用基于Go Encichment分析的Go一致性测试[1415].如图所示。2d、 PPI和共表达网络都比随机网络具有更高的GO一致性值。PPI网络达到0.65,其次是共表达网络0.22和随机网络0.17(图。2d和附加文件7).需要指出的是,共表达网络中的GO一致性值与相关系数截止值正相关。这表明,GO一致性可以作为衡量共表达网络可靠性的标准(图2)。2C)。

此外,我们还检查了在PPI和共表达网络中,已知的石油生物合成相关基因是否比随机选择的节点连接更紧密。数字2E表明,已知的油生物合成相关基因之间的相互作用的数量远大于共表达网络和PPI网络中的随机集(308 Vs 275.58和58 Vs 5.8,P值0.02和0)。可以在附加文件中找到详细数据8

麻疯树在PPI和共表达网络中石油生物合成相关基因及通路的预测

由于共表达网络和PPI网络的不同拓扑特征,应用了两个不同的算法,NBD和RWR。我们使用休假交叉验证来评估我们方法的准确性。通过PPI网络上的RWR算法,ROC(接收器操作特性)曲线(AUC)下的平均区域达到0.83(图。3.a) 。另一方面,通过共表达网络上的NBD方法获得0.69 AUC分数(图。3.b)。随着SCC的价值更严格地选择,AUC结果相应更高(附加文件5).

图3
图3.

石油生物合成相关基因在PPI和共表达网络中的预测。一个在PPI网络上,RWR算法的ROC曲线通过遗漏交叉验证得到。b通过留一法交叉验证的共表达网络上的负二项分布方法的ROC曲线。c预测的石油生物合成相关基因网络,绿色节点:已知的石油生物合成相关基因;红节点:共表达网络负二项分布算法预测的石油生物合成相关候选基因;蓝色节点:PPI网络RWR算法预测的石油生物合成相关候选基因布朗边界:co-expression;粉红色的边界:PPI;红色边框:共同表达和PPI

接下来,我们预测由RWR和NBD方法油生物合成相关的基因。9602个基因的PPI网络中,86是已知的石油合成相关和9516是未知的。Using the RWR possibility P > 0.001 as the threshold, we selected the top 14 candidate genes that are most closely linked to the known oil-biosynthesis-related genes (Additional file9).其中,JCDBG19737 (mtACP2)基因最具吸引力,居首位。JCDBG19737编码一个线粒体酰基载体蛋白(ACP)家族成员。作为线粒体基质的一部分,它可能参与脂肪酸或硫辛酸的生物发生。虽然JCDBG19737与已知拟南芥油生物合成相关基因的同源性较低,但RWR算法显示,JCDBG19737更有可能与拟南芥PPI网络中已知的油生物合成相关基因直接互作j . curcas.另一个例子是基因JCDBG21654(TRX-M1,TRXM2),其编码M型硫氧吡嗪(TRX-M1),氧化还原活化的共伴侣,局部化在叶绿体基质中。我们知道石油合成的重要过程位于塑体中,这可能提示JCDBG21654是一个重要的调节基因。

在共表达网络中,我们通过NBD方法计算各功能未知基因与已知油脂生物合成相关基因连接的可能性,预测油脂生物合成相关候选基因。结果,以p值< 0.01作为截断值预测了13个与石油生物合成相关的候选基因9).基因注释表明它们参与了不同的途径,如JCDBG23541是一个细胞色素P450 78a7样基因,JCDBG13536是一个伪基因。已知的石油生物合成相关基因与RWR和NBD方法预测的基因共同构成了一个由122个基因和659个连接组成的石油生物合成相关基因网络(图1)。3.C)。

麻疯树油生物合成相关途径的拓展

接下来,我们研究的延长油路j . curcas.氧化石墨烯富集分析表明,富集程度最高的氧化石墨烯项与产油途径高度相关(收集前10位,图1)。4一种)。最丰富的生物过程是代谢过程,脂肪酸生物合成过程,脂类代谢过程,脂肪酸代谢过程。最富集的分子功能是催化活性,转移酶活性(酰基转移反应的基团),黄素腺嘌呤二核苷酸结合,氧化还原酶活性(作用于CH-CH基团供体的),O-酰基转移酶的活性和连接酶活性(附加文件10).

图4
图4.

GO富集分析和预测石油生物合成相关基因的基因表达聚类。一个GO富集分析j . curcas预测oil-biosynthesis-related基因。b在授粉后不同时间点的预测油生物合成相关基因的基因表达聚类(通过Z分数标准化表达值)

并对不同发育时间点预测的油脂生物合成相关基因进行基因表达聚类分析j . curcas(授粉后14、19、25、29、35、41和45天)。从JCDB下载表达式矩阵,用z-score方法进行归一化。通过层次聚类得到5个聚类(图)。4b和附加文件11).在这5个簇中,簇3在14 DAP和19 DAP的表达量最高,提示它们可能在脂质积累中起重要作用;聚类1在25 DAP表达量较高,聚类2在41 DAP表达量较高;聚类5在后期继续高表达。

植物脂质以三酰基甘油(TAGs)的形式通过一系列复杂的途径合成,其中涉及许多脂肪酸(FA)生物合成酶。植物油中主要的FAs是棕榈酸(16:0)、硬脂酸(18:0)、油酸(18:1)、亚油酸(18:2)和亚麻酸(18:3)。其中棕榈酸和硬脂酸为饱和脂肪酸,油酸为单不饱和脂肪酸,亚油酸和油酸为多不饱和脂肪酸。为了进一步研究我们预测的功能,我们使用KNN方法将它们分配到不同的子路径-脂肪酸合成,脂肪酸伸长、去饱和和质体输出,血脂贩运,三酰基甘油生物合成,和三酰甘油和脂肪酸的降解。然而,结果(图5,请参阅附加文件12对于详细数据,显示出与我们的新预测的油生物合成相关基因的油生合作途径,其中7与脂肪酸合成相关的7,与三酰基甘油生物合成相关的15,以及与三酰基甘油和脂肪酸降解相关的1。还在图1中示出了新型脂肪酸合成和三酰基甘油生物合成相关基因的基因表达谱。5这表明这些基因参与了石油生物合成的整个过程。

图5
图5.

延伸的石油生物合成相关途径j . curcas预测的石油生物合成相关基因表达谱及可能的功能作用。ACP:酰基载体蛋白;G3P glycerol-3-phosphate;LPA lysophosphatidic酸;PA,磷脂酸;标签,三酰甘油;十克,二羟基丙酮

讨论

油脂生物合成调节途径的研究具有良好的理论和实用价值j . curcas。这些途径通常涉及许多基因和复杂的调控网络,并在网络的任何abnomal变化将影响整个石油合成,如油含量和成分的多样性。但是,在j . curcas由于数据的缺乏和技术上的限制,石油生物合成的调控途径目前还不清楚。据我们所知,目前转录组分析只提供了发育中种子的差异表达信息。在此基础上,我们提供了一种系统的方法来深入挖掘与油合成相关的基因和途径j . curcas。本研究的结果代表了第一个结合转录组和基因相互作用组数据分析的方法j . curcas并能深入了解油脂的生物合成,包括特定的甘油三酯,这将有助于遗传改良j . curcas在种子发育和油的积累中。

在识别关键途径的功能研究中,缺乏足够的分析数据是非模式物种面临的普遍挑战。至于j . curcas虽然高通量测量技术越来越便宜,丰富了功能研究的数据,但仍远远不能满足需求。相应的,模式植物如拟南芥,由于其成熟的基因组、快速的转化和多种突变体,为通路研究积累了大量的数据。因此,它们可以作为一个强有力的参考,并为其他非模式物种的研究提供一些初级信息。在本工作中,为了弥补数据的不足j . curcas,利用拟南芥转录组数据和功能网络作为参考和支架,发现了潜在的与石油生物合成相关的基因和途径Jcurcas.通过序列比对,我们发现了许多与石油生物合成相关的基因j . curcas这是相当保守的j . curcas和拟南芥。这些高度保守的基因为进一步预测提供了种子j . curcas特异性油脂生物合成相关基因。

由于两者之间的巨大差异j . curcas而拟南芥在石油生物合成过程中,仅仅依靠同源分析来发现石油生物合成相关的基因和途径是远远不够的j . curcas.我们需要一种系统地识别和分析石油生物合成相关基因及其途径的方法j . curcas,尤其是j . curcas具体。由于基因相互作用网络中的基因往往与功能相似的基因紧密相连,因此我们可以通过研究油生物合成的基因相互作用网络来寻找更多与石油生物合成相关的基因j . curcas这可能与网络中已知的与石油生物合成相关的基因有关。另一方面,网络数据可能包含相当多的噪声,所以它们应该谨慎使用,特别是在预测新基因时。在共表达网络中,我们使用负二项分布算法计算每个候选基因参与关键通路的概率。本部分的预测被认为是针对麻疯树油途径的。此外,再次强调可用PPI数据的局限性是很重要的。我们目前对麻疯树蛋白相互作用的认识既不完整也不明确。的PPI数据j . curcas来源于拟南芥数据的同源分析和预测。也就是说,不确定检测到的交互作用有多少是真的,有假阳性和假阴性。大规模的基因相互作用组数据比大规模的基因组和转录组数据更难获得,这可能是未来非模式生物功能基因组学研究的关键问题。我们的方法结合了转录组和基因相互作用组的数据,可能是目前一种可行和有效的方法。对于本研究的预测结果,我们将进一步利用分子生物学实验验证其功能(相关实验正在进行中)。

结论

了解油脂的代谢途径是促进其商业化的关键j . curcas. 在本文中,我们提出了一个多步骤的计算框架,该框架集成了转录组和基因相互作用组数据,用于挖掘石油生物合成相关基因,并分配它们以获得扩展路径。与简单的同源搜索方法相比,我们的主要优势在于可以预测物种特异性的功能相关基因。我们的方法可广泛应用于关键途径的研究,特别是非模式生物。

材料和方法

数据源

基因表达谱于2019年4月从j . curcas数据库(JCDB [16],http://jcdb.liu-lab.com),包含114个RNA-Seq样本。JCDB是一个全面的数据库j . curcas这是我们在以前的研究中发现的。用上四分位数法对表达谱进行归一化处理[17].如从JCDB序列和基因注释检索细节的其他信息可以在其他文件中找到13.在油生物合成相关基因拟南芥蒂利亚纳拟南芥酰基脂质代谢途径数据库(ARALIP,http://aralip.plantbiology.msu.edu/pathways/pathways) [18].质子泵抑制剂的拟南芥蒂利亚纳从文学中收集[1920.21]和数据库(ATPID 5.0 [22, atpin9.0 [23]和PAIR 3.0 [24])。蛋白质序列和基因注释拟南芥蒂利亚纳从rabidopsis信息资源(Tair)版本10中下载[25].

注释和同源搜索

我们使用InParanoid [263.1版本要找到差不多的关系j . curcas拟南芥蒂利亚纳带有默认参数的基因这两个物种的蛋白质序列被用作输入,根据BLAST评分(截止值)中测量的相关性将基因分配给同源组 = 40位)。置信区间(截止点) = 0.05),采用自举法计算[27].

共表达网络建设

保留高表达变异(前75%)的基因构建共表达网络。我们使用我们自己的Perl脚本计算每个基因对的表达谱之间的Spearman相关系数及其对应的P值(可根据要求提供)。在我们的网络中,只有相关值大于0.6且调整P值小于0.01的基因对被认为是共同表达的。

蛋白质-蛋白质相互作用网络迁移

在一个物种中,如果两个基因检测为相互作用蛋白质 - 蛋白质,我们可以推断,在其他物种同源的基因他们也算互动。这些infered基因对传统上定义为交互的同源基因。我们用同源群为基础的方法来推断j . curcasppis -如果A组的一个拟南芥基因与B组的一个拟南芥基因相互作用,那么A组的所有基因j . curcas与所有j . curcasB组的基因。

网络拓扑特征

在网络理论中,无标度网络是一种复杂网络,其中网络中的大多数节点只与少数节点连接,而少数节点与许多节点连接。它的度分布遵循幂律,至少是渐近的。幂律分布的对数-对数图使用等式进行直线拟合。1

$ ${日志}_ {10}{\ rm P} \离开(rm k} {\ \) \ sim - \ upgamma{日志}_ {10}k, $ $
(1)

其中k是节点的次数,P是节点的分数。

在生物网络中,节点代表基因,节点之间的连接边反映了表达的相关性程度。相互紧密连接的节点子集称为模块。在一个模块内,高度连接的基因,也被称为“中心基因”,可能具有重要的生物学功能。根据对网络节点连接数分布的分析,代谢、蛋白质和基因相互作用网络显示出无标度行为[28].为了构造一个具有小世界和无标度结构的有生物学意义的网络,设计了许多网络拓扑特征准则j . curcas招标射击系统[29].我们还计算了一些网络属性来达到这个目标,例如基因的数目,边数,连接的组件,巨分量的大小,网络密度,平均节点度,度中心,网络异​​质性,聚类系数,无标度R2和无标度伽玛,利用我们内部的Perl脚本(可根据客户要求)。对于PPI的网络参数可以在其他文件中找到4不同相关系数阈值的共表达式网络参数可在附加文件中找到6

去一致

为了确认我们的PPI或共表达网络的可靠性,我们提供了GO一致性测试[1415].GO一致性的基本思想是,在一个可靠的基因相互作用网络中,一个基因可以与其相邻基因共享相同的功能(GO术语)。对于网络中的每个基因,我们使用GOATOOLS对其邻近基因进行GO富集分析[30.]. 如果丰富的GO术语与其自身的GO注释重叠,我们将其视为GO匹配。GO一致性定义为N/M。其中N是总GO匹配,M是网络中测试的基因总数。为了模拟随机网络进行比较,从网络中随机选择基因,并重复上述步骤5000次。

加权共表达网络中的负二氯分布算法

我们假设新的油脂合成相关候选基因与已知的油途径基因相对多,而不是随机背景。跨候选和已知的油生物合成相关基因的连接大致遵循网络中的负二项份分布。通过当量计算候选基因与K或更高的已知油生物合成相关基因的概率p。2

$ $ {\ rm P} = 1 - {\ int} _ {i = 0} ^ {{i = k}} \压裂{{P} ^ {(1 - P)}{我}\倍^ {n} {C} _ {n} \倍^{我}}{我!}, $ $
(2)

其中P是基因偶然与已知的油生物合成相关基因的概率(p =所有基因的已知油生物合成相关基因/数量),N是候选基因的程度网络。

PPI网络中基于重启算法的随机漫步

RWR是一种排名算法[31].它模拟了一个随机的步行者,从一个种子节点或一组种子节点(这里是已知的与石油生物合成相关的基因)开始,并在每一步随机移动到邻近的节点[32].图中的所有节点都是根据随机步行者到达该节点的概率进行排序的。让\ ({P} ^ {0} \)为初始概率向量和\({P}^{t}\)是一个向量,其中第th元素表示在第t步处结点i处找到随机步行者的概率,在第t + 1步处的概率向量可由Eq给出。3.

$ $ {P} ^ {t1} = \离开(1 - {\ rm r} \右){rm \ W} {P} ^ {t} + {\ rm r} {P} ^ {0}, $ $
(3)

其中W是图的转移矩阵。r是节点i到节点j的转移概率\({\ rm r} \ epsilon(0,1)\)为重启概率。在每一步,随机游走可以返回到种子节点的概率河

将PPI网络中基因间的连接转化为邻接矩阵。重启概率设置为0.8。RWR函数返回一个只有一列值的矩阵。这些值代表了每个候选基因与已知的石油生物合成相关基因之间的亲和力评分。RWR函数的MATLAB代码下载http://www3.ntu.edu.sg/欧宝直播官网apphome/aspatra/research/Yongjin_BI2010.zip

k最近邻居候选基因功能分配算法

惩罚的K-最近邻 - 图(PKNNG)旨在评估基因表达数据集的距离[33].我们使用一种基本的距离投票策略来确定候选基因应该属于哪个子路径。根据相邻基因的多数票对候选基因进行分类。考虑到k最近的邻居的基因网络一分之一(在这里我们使用k = 5),天真的资讯方法选择功能类所支持的最大数量的邻居,并分配到基因a在7个不同发育阶段的基因表达数据j . curcas种子用于计算候选基因与油生合成相关基因之间的距离。从JCDB获得那些表达数据[16]和江的论文[34].距离Euclidean距离EQ计算距离。4

$ $ {\ rm d} \离开({\ rm x, y} \右)= \√6 {\ sum_ {i = 1} ^ {n} {{x} _{我}- {y} _{我})}^ {2}},$ $
(4)

其中n为表达数据的样本数,x为候选基因,y为已知的石油生物合成相关基因。

可用性数据和材料

本研究中生成的所有数据集包含在本发表的文章中,并相应地引用来源。

麻风树基因表达谱:http://jcdb.liu-lab.com/sdb/data/JCDB_JatCur_1.0/JCDB_1.0.gene.expression.counts.profile.zip

麻风树基因本体论注释:http://jcdb.liu-lab.com/sdb/data/JCDB_JatCur_1.0/JCDB_1.0.blast2go.GO.anno.xls.zip

麻风树蛋白质序列:http://jcdb.liu-lab.com/sdb/data/JCDB_JatCur_1.0/JCDB_1.0.protein.fa.zip

拟南芥蒂利亚纳蛋白质序列:https://www.arabidopes .org/download_files/priceins/tair10_protein_lists/tair10_pep_201214

拟南芥蒂利亚纳石油的蛋白质:http://aralip.plantbiology.msu.edu/data/aralip_data.xlsx

RWR函数的MATLAB代码可在http://www3.ntu.edu.sg/欧宝直播官网apphome/aspatra/research/Yongjin_BI2010.zip

缩写

走:

基因本体论

资讯:

再邻居

NBD:

负二项分布

PPI:

蛋白质 - 蛋白质相互作用

PKNNG:

处罚k-nearest-neighbor-graph

RWR:

带重启的随机漫步

RNA-seq:

RNA序列

参考文献

  1. 1.

    OpenShaw K.审查麻风树:一个不达到的承诺的油厂。生物量生物生物学。2000; 19(1):1-15。

    文章谷歌学者

  2. 2.

    麻疯树属几种植物的药用性质、植物化学和药理学研究进展。植物化学。2013;85:7-29。

    中科院文章谷歌学者

  3. 3.

    Fairless D.生物燃料:小灌木,可能,也许。自然。2007; 449(7163):652-5。

    文章谷歌学者

  4. 4.

    Maghuly F, Laimer M。麻风树生物燃料作物:理解代谢途径和遗传改良的功能基因组学。Biotechnol j . 2013; 8(10): 1172 - 82。

    中科院文章谷歌学者

  5. 5.

    关键词:白藜芦醇,重组,转录组分析麻风树L.使用454焦磷酸测序的GS FLX钛平台。BMC基因组学。2011; 12:191。

    中科院文章谷歌学者

  6. 6.

    Spinelli VM, Dias LAD, Rocha RB, Resende MDV。药用坚果同父异母族的产量表现(麻风树l)。作物品种苹果Biot。2014; 14(1):49-53。

    文章谷歌学者

  7. 7.

    Barabasi AL, Oltvai ZN。网络生物学:了解细胞的功能组织。[j] .中国科学(d辑:地球科学)2004;5(2):101-13。

    中科院文章谷歌学者

  8. 8.

    梁永红,蔡斌,陈峰,王刚,王敏,钟勇,程志明。葡萄基因共表达网络的构建与验证(葡萄l .)。Hortic杂志2014;1:14040。

    文章谷歌学者

  9. 9.

    高效的密钥路径挖掘:结合网络和组学数据。中国医学杂志(综眼)。2012; 4(7): 756 - 64。

    文章谷歌学者

  10. 10

    基于基因表达的代谢途径研究。生物信息学,2010,26(17):2128 - 35。

    中科院文章谷歌学者

  11. 11.

    Szklarczyk D,山墙,Lyon D,Junge A,Wyder S,Huerta-Cepas J,Simonovic M,Doncheva NT,Morris JH,Bork P等人。串v11:蛋白质 - 蛋白质关联网络,覆盖率增加,支持基因组实验数据集中的功能发现。核酸RES。2019; 47(D1):D607-13。

    中科院文章谷歌学者

  12. 12.

    RNA-seq共表达网络的构建和分析:数量上的安全性。生物信息学,2015,31(13):2123 - 30。

    中科院文章谷歌学者

  13. 13.

    歌曲L,Langfelder P,Horvath S.共表达措施的比较:相互信息,相关性和基于模型的指标。欧宝娱乐合法吗BMC生物信息学。2012; 13:328。

    中科院文章谷歌学者

  14. 14.

    廖强,刘超,袁旭,康胜,苗瑞,肖辉,赵刚,罗辉,卜东,赵辉,等。编码-非编码基因共表达网络中长链非编码RNA功能的大规模预测。核酸学报2011;39(9):3864-78。

    中科院文章谷歌学者

  15. 15.

    关键词:斑马鱼,lncrna,基因编码,共表达网络BMC Genomics. 2018;19(supp2):112。

    文章谷歌学者

  16. 16.

    张X,潘BZ,陈某,陈某,李茹,徐紫育,刘C.JCDB:全面的知识库麻风树是木质能源厂的新兴模型。BMC基因组学。2019; 20(4):958。

    文章谷歌学者

  17. 17.

    陈志强,陈志强,陈志强,等。mRNA-Seq实验中差异表达与归一化的统计学方法评价。欧宝娱乐合法吗BMC生物信息学。2010;11:94。

    文章谷歌学者

  18. 18.

    锂Beisson Y,Shorrosh B,Beisson女,Andersson的MX,Arondel V,贝茨PD,波特率S,鸟d,德博诺A,达雷特TP,等。酰基脂质代谢。拟南芥书。2013; 11:e0161。

    文章谷歌学者

  19. 19.

    拟南芥互动组地图的网络进化证据。科学。2011;333(6042):601 - 7。

    文章谷歌学者

  20. 20

    Mukhtar MS, Carvunis AR, Dreze M, Epple P, Steinbrenner J, Moore J, Tasan M, Galli M, Hao T, Nishimura MT,等。独立进化的毒力效应因子聚集在植物免疫系统网络的中心。科学。2011;333(6042):596 - 601。

    中科院文章谷歌学者

  21. 21

    Xu M, Wang RS, Ho CH, Lalonde S, You CH, Sardi MI, Parsa SA, Smith-Valle E, et al. .边界控制——拟南芥的膜连接相互作用。科学。2014;344(6185):711 - 6。

    中科院文章谷歌学者

  22. 22

    李平,臧伟,李毅,徐福,王杰,史婷。AtPID:拟南芥的整体层次功能蛋白质相互作用网络接口和分析平台。核酸研究,2011年;39(数据库问题):D1130-3。

    中科院文章谷歌学者

  23. 23.

    Brandao MM, Dantas LL, Silva-Filho MC AtPIN:拟南芥蒂利亚纳蛋白质相互作用网络。BMC Bioinform。2009;10:454。

    文章谷歌学者

  24. 24.

    林敏,沈旭,陈晓霞:拟南芥相互作用组资源的预测。核酸Res. 2011;39(数据库版):D1134-1140。

    中科院文章谷歌学者

  25. 25.

    李德华,李德华,李德华。拟南芥信息资源:构建和挖掘“金标准”注释参考植物基因组。《创世纪》。2015;53(8):474 - 85。

    中科院文章谷歌学者

  26. 26.

    Ostlund G, Schmitt T, Forslund K, Kostler T, Messina DN, Roopra S, Frings O, Sonnhammer EL。真核生物orthology分析的新算法和工具。核酸res 2010;38(数据库版):D196-203。

    文章谷歌学者

  27. 27.

    埃夫隆B,Tibshirani RJ。引入引导介绍。伦敦:泰勒和弗朗西斯;1994年。

    谷歌学者

  28. 28.

    细胞生物学中的无标度网络。中华细胞杂志。2005;118(p21): 4947-57。

    中科院文章谷歌学者

  29. 29.

    基因共表达网络模型识别了水稻产量相关的邻近网络麻风树拍摄系统。Sci众议员2018;8(1):9211。

    文章谷歌学者

  30. 30.

    Klopfenstein DV,张L,Pedersen的BS,拉米雷斯楼沃里克Vesztrocy A,Naldi A,Mungall CJ,Yunes JM,鲍特维尼克O,威格尔M等人。GOATOOLS:一个Python库基因本体分析。SCI代表2018; 8(1):10872。

    中科院文章谷歌学者

  31. 31。

    Kohler S,Bauer S,Horn D,Robinson PN。走互动组以进行候选疾病基因的优先级。我是j嗡嗡声的遗传。2008; 82(4):949-58。

    文章谷歌学者

  32. 32。

    Li Y,Patra Jc。基因组推断基因 - 在异构网络上行走的基因表型关系。生物信息学。2010; 26(9):1219-24。

    中科院文章谷歌学者

  33. 33

    Baya AE, Granitto PM。基于惩罚图的度量聚类基因表达数据。BMC Bioinform。2011;2。

    文章谷歌学者

  34. 34

    江H,吴P,张某,歌,陈y,李米,佳y,方x,陈f,吴G.发展物理螺母基因表达谱的全局分析(麻风树L.)种子。Plos一个。2012; 7(5):E36522。

    中科院文章谷歌学者

下载参考

确认

国立氟氯烃座热带植物园(XTBG)的公共技术服务中心支持数据分析(XTBG),中国。

关于这个补充剂

这篇文章已作为BMC生物信息学第22卷增刊6,2021的部分:第19届国际会议上的生物欧宝娱乐合法吗信息学2020(InCoB2020)。补充的完整内容可在线提供//www.christinemj.com/articles/supplements/volume-22-supplement-6

资金

国家自然科学基金项目(No. 31471220, No. 91440113);云南省自然科学基金项目(No. 2018FB060);西双版纳热带植物园启动基金项目;资助方在研究设计、数据收集和分析、决定发表或手稿准备方面没有作用。云南省自然科学基金资助项目(No. 2018FB060)。

作者信息

隶属关系

作者

贡献

CL和ZX构思并指导了这项研究。CL和XZ设计了算法。BP、MC和MT从文献和公共数据库中收集和汇编数据。XZ、WC和JL进行数据分析。XZ、JL、CL对手稿进行了初稿编写。所有作者阅读并批准了最终的手稿。

相应的作者

对应到Zeng-Fu徐长宁刘

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

附加文件1

.拟南芥油生物合成相关基因。

附加文件2

麻风树油生物合成相关的基于同源性搜索的基因。

附加文件3

.拟南芥之间石油生物合成相关的基因同源对应麻风树

附加文件4

.PPI网络统计麻风树

附加文件5

.不同SCC截止的Co-表达网络中NBD算法的结果。

附加文件6

.共表达网络统计麻风树

附加文件7

.一致性。

附加文件8

.与石油生物合成相关的基因与随机背景密切相关。

附加文件9

.石油生物合成相关基因的预测。

附加文件10.

.BP和MF富集。

附加文件11.

. 预引石油生物合成相关基因的表达簇。

附加文件12.

.预测不同亚途径中与石油生物合成相关的基因。

附加文件13

.从JCDB中检索细节。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

张旭,李军,潘宝珍。等等。石油生物合成途径在生物燃料工厂的延伸开采麻风树通过转录组和基因偶联数据的组合分析。欧宝娱乐合法吗22,409(2021)。https://doi.org/10.1186/s12859-021-04319-w

下载引用

关键词

  • 扩展矿业
  • 石油生物合成
  • 麻风树
  • 转录组
  • 基因相互作用体