跳到主要内容

从基因组组合到全管网络预测:案例研究rhodotorula Toruloides.假定的Haa1-regulon

抽象的

众多基因组通过NCBI门户测序并向社区提供。然而,与基因函数注释的结果不同,启动子序列的注释以及调节关联的潜在预测大多是不可用的,严重限制在功能基因组学视角下解释基因组序列的能力。在这里,我们提出了一种方法,其中一个方法可以在GenBank平面文件(.gbff)格式中从NCBI下载一个感兴趣的基因组,并且具有最小一组命令,具有通过平台Web界面解析的所有信息,组织和制作。此外,将新的基因组与给定的参考基因组进行比较,以寻找同源基因,共享调节元件和预测的转录关联。我们在YeaStract +门户的社区效果的背景下提出了这种方法,从而促使了对YeAstract +门户网站中提供的所有比较基因组学查询的立即访问。除了酵母社区,其他社区还可以独立安装平台,没有任何约束。在这项工作中,我们举例说明了呈现工具的有用性,在社区效果中,在构建专用数据库中,分析高度有前途的含有红酵母种类的基因组rhodotorula Toruloides.目前在基因组和转录组水平和有限的基因组编辑工具中学习差。监管预测是基于促进序列和可用的监管网络的保护。检查的案例研究重点是HAA1转录因子 - 酵母抗性对乙酸的关键调节剂,是木质纤维素水解产物的工业生物转化症的重要抑制剂。这里描述的新工具导致预测RTHAA1调节件,在优化方面具有预期的影响R. Toruloides.木质纤维素和富含果胶的残渣生物精炼工艺的稳健性。

背景

新的物种和/或品系的新测序的基因组的分析仍然因缺乏生物学工具和数据库受阻,目前仅针对模式生物可用。此外,基因组注释大多局限于基因功能的预测,提供关于启动子序列的功能性和衍生的基因表达调控没有线索。

酿酒酵母

目前,专门的基因组数据库是可用的最好的研究酵母,如酿酒酵母酿酒酵母(例如。酿酒酵母基因组数据库,SGD [1]),念珠菌物种 (念珠菌基因组数据库(CGD) [2]),但很少包括启动子序列及其对基因表达影响的数据。YEASTRACT + (酵母搜索转录调节因子和共识跟踪) + [3.]是三个不同但相互连接的数据库的门户,其专注于酵母的转录调节:无效,专注于模型酵母和细胞厂酿酒酵母酿酒酵母;为临床医生和生物医学科学家提供的资源,为临床医生和生物医学家提供的资源;N.C.Stract,创建的,以指导非传统生物技术相关酵母的分析和优化。与上述数据库一样,YeAstract +不仅提供基因/蛋白质和陈列生信息,而且还提供策划的调节信息,包括转录因子结合位点,实验验证的转录因子 - 靶基因关联,最近,跨物种监管网络比较。

本文介绍了一种新的基因组序列转化为生物体聚焦数据库的新工具,其在基因和启动子水平提供基因组注释。从GenBank平面文件(.gbff)格式中的NCBI的感兴趣的基因组,并且使用最小一组命令,设置过程使得能够在本地数据库中组织的所有信息,并提供具有类似的本地Web界面在leastract数据库中提供的工具。这允许其他社区独立安装平台,没有任何限制,从而受益于聚集的经验,该经验与YeAstract +门户的结构和连续支持。

本文通过解释数据库是如何构建和描述所需的步骤启动社区YEASTRACT的本地实例以及如何与多层信息填充它,从基本的基因组装到记录的规定,同源,同线性,潜在的法规和启动基因本体论。之后,为了显示-情况下,我们在社区YEASTRACT的知识推理上下文工具的价值,我们提出了一个案例研究,对产脂质酵母细胞工厂rhodotorula Toruloides。本研究广泛利用无效数据库的互连性,以进行全基因组启动子和TFBS保护分析和推断转录调节网络。一个特定的S. Cerevisiae.乙酸电阻调节器-Haa1,被用作一个例子来说明这个平台TFBS的预测的电位和记录监管协会分析R. Toruloides.基于比较基因组学的Haa1 (RtHaa1)。

rhodotorula Toruloides.是一种非致病的红色担子菌真菌。它是一种产油酵母,可累积超过其干细胞重量70%的脂质[4.].它也是类胡萝卜素的好生产者和一些重要的酶。R. Toruloides.可以使用一个宽范围的生长碳源的和耐受的抑制性化合物在生物质水解实测值[5.].它是一种生物技术相关的酵母,针对其存在的从NCBI基因组组件的可用性的一个很好的例子,但目前还没有数据库或工具调控网络的综合研究。预测,在基因组规模的能力,监管相互作用R. Toruloides.,特别是那些潜在的生物过程相关压力的反应,预计将有助于指导工业应用中更强大的菌株的选择和设计。特别是,为增加R. Toruloides.需要改进使用的碳源的乙酸耐受性存在于甜菜浆水解产物[6.], RtHaa1和RtHaa1调控子表达的增加可能是有用的[7.].

方法

我们的方法依赖于使用关系数据库的[8.]存储和组织所有基因组数据,以及运行PHP的Web服务器[9.]作为服务器端代码,用于分析和向最终用户提供Web功能。

以下各节详细描述了所考虑的关系数据库模式,以及给定数据库管理员在个人计算机和/或服务器上安装和升级我们的体系结构所应遵循的过程。

源代码

前端,后端和数据库的完整源代码可自由获取https://gitlab.com/oliveira.jorge.88/8/Web/.每个用户都可以自由创建自己的Community YEASTRACT实例,并加载他/她感兴趣的物种。此外,代码可以在GNU通用公共许可证下扩展和更改。也欢迎错误报告和代码优化。我们提供了一个自述。Md文件描述安装要求和重要配置文件的位置。另外,db_load/目录包含一组必要的脚本,用于执行所有的预处理和将给定的基因组加载到数据库中。它还包含执行下一小节中描述的所有后处理任务的脚本,例如计算同源性。最后,mysql. readme .md文件包含用于配置数据库、定义用户访问凭据和加载所有数据库结构的所有mysql命令。

另外,Community YEASTRACT的一个实例可以在http://yeastract-plus.org/community/.在这种情况下包含的酵母物种通过不具有常规数据策​​策和更新,将自己与门户的其余部分区分开来。尽管如此,与代码的独立实例相比,它仍然带有与策级物种的互连性的优点,因此是调节器推理能力。

准备数据库

关系数据库以ORF /基因概念为中心(见图。1). 这里,每个ORF/基因作为一个相关物种,相应的启动子和基因组序列,染色体位置,以及到参考数据库的外部链接。

图。1
图1

关系数据库模式

然后,每个ORF /基因可以具有具有给定蛋白质名称和氨基酸序列的相关蛋白质。蛋白质又可以具有编码作为IUPAC序列的相关转录因子结合位点(TFBS)[10.[以及相应的支持参考。另外,每个转录因子可以具有一组相关的靶基因,以及相应的支持参考。

每个支持引用由相关的PubMed ID组成[11.],环境条件和证据代码。本证据代码分配了四类之间的实验:DNA结合证据,硅质预测中的表达证据,而不是可用的。环境条件被簇在一起分为13个组,每个组分为子组。为了扩展Web功能,我们按组/子组过滤,而无需解析每个查询的实际环境条件。

我们还保持约ORF之间BLAST点击信息/从对任何其他数据库中的一个给定的物种的基因(:部分“弱酸性调节Haa1作为一个案例研究预测有TF的网络”中详细说明)。

加载Genbank.

GenBank文件格式[12.]是基因组序列和注释的标准文件。尽管文件对信息具有一定的灵活性,但基本信息始终存在,并使用预定义的标记进行组织,从而允许对每个序列进行检索。然后根据数据库的模式验证并插入该信息(参见图。1).所关注的基因组可以从NCBI上下载,处理和使用GBFF加载工具(db_load / LoadGBFF.php)加载。

计算直肠/同源物

如果没有其他信息可用,数据库,如念珠菌基因组数据库[2]表示BLAST最佳命中每个基因。所述BLAST最佳命中给出了一个给定的ORF /基因的取向在物质A反对物种另一个ORF /基因B.但是,该信息不是双向的,得分这意味着BLAST最佳命中在一个方向上可以不存在于另一个方向。

我们的正轨信息以相同的原则开头,但有额外的过滤器,因为它遵循了爆炸互易的分数方法。使用每种物种的蛋白质组用作BLASTP的输入,使用1E-5的E值并以往复方式在数据库的所有物种之间进行。考虑了每种蛋白质序列的最高分的爆炸率。另外,应用相对于该最高分的10%的公差,这意味着与最佳分数几乎相同的比赛并未丢失。仅考虑逆爆炸(即倒数)中也是最佳得分的基因对。在此阶段,获得同源性。

通过将该信息与每个同源物轨迹相邻的基因进行比较,其中在每个方向上考虑了15个邻居,该信息与同时性交叉。通过要求每对同源基因的至少1,2或3个邻基因来产生三个水平的同步“强度”。

加载文档化数据

提供了一个电子表格文档作为记录数据的标准表单(db_load/CommunityDataSubmissionForm.xlsx)。文档的第一页包含数据描述和说明。第二页定义插入记录的规则所需的字段,第三页定义插入转录因子结合位点信息所需的字段。

装载记录规则

在第二片材中,所需的字段来维护数据库的组织有:转录因子,靶基因,应变,支持参考(搜索PubMed ID),证据法典(DNA结合,表达,预测或N / A),关联类型(直接,Indirect or N/A), Experimental Evidence, Environmental Condition, Environmental condition Group (e.g., Stress) and Environmental condition sub-group (e.g., Heat Shock).

填写后,此表单应导出为“tab分隔值”文件,然后用作上载工具(db_load/UploadRegulations.php)的输入。该工具执行一组验证,例如:所有字段的存在、数据库中转录因子和目标基因调控对的存在等。对于表单中的每一行,如果满足所有要求,则将数据插入数据库中。

加载转录因子结合位点

在第三片中,转录因子结合位点信息的所需字段是:转录因子,共识,应变,支持参考(PubMed ID),证据代码(DNA结合,表达,预测或N / A),实验证据,环境条件,环境条件组(如。,应力)和环境条件子组(例如,热休克)。

与监管信息类似,绑定站点信息应导出为“标签分隔值”文件,然后用作上载工具(DB_LOAD / UPLOODBINDING.php)的输入,这将在插入之前执行必要的验证数据库中的数据。

由于形式只需要考研ID作为日记/条配套的法规或结合位点信息的唯一标识,数据库则需要获得相关的题目,作者,期刊,年,卷,等等,以便适当地在网络界面显示它。这也在使用搜索PubMed ID来提取从搜索PubMed所有必要的信息(使用搜索PubMed的Entrez的JSON格式编程工具,例如一个自动的方式完成https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=pubmed&id=31083555&retmode=json).

计算潜在的法规

该数据库包含几个依赖于潜在调控预测的功能,换句话说,依赖于执行转录因子结合位点对潜在靶基因启动子序列的比对。尽管其中一些功能执行这个搜索动态用户请求,一些功能如“排名基于独特的TF结合位点在同源基因”计算重,是不可能执行的所有比对在实时和现在的他们,它需要一些预处理,以便为用户提供平滑的响应。

这是通过预先计算来自所有物种的所有物种与来自所有物种的所有基因的启动子序列之间的所有TBF之间的所有对准来实现(参见DB_LOAD / COMPUTEHOMOPOTREGS.php的潜在调节工具)。数据库存储转录因子的名称和靶基因的名称,每当至少一个属于转录因子的结合位点时,在靶基因的启动子序列中具有至少一种发生。

加载基因本体

基因本体(GO)资源[13.14.]提供了我们对基因的功能目前的科学知识的计算表示。在所提出的数据库结构(图1),我们包括表来装载和表示三个本体(分子功能、生物过程和细胞组件)的所有术语,以及术语之间的层次结构(参见db_load/GeneOntology.php)。此外,我们还包括一个表,以建立每个ORF/Gene和相关的GO术语之间的关系。最后一个表必须由用户提供的建立每个ORF/Gene和GO术语对之间关系的电子表格加载(参见db_load/insertGO.php中的基因本体加载工具)。

案例研究:预测脂质生产酵母的转录调控rhodotorula Toruloides.

从基于化石业移动到一个可持续的生物经济要求的可再生饲料的股票完全利用,燃料和其它特种化学品的生物生产效率。rhodotorula Toruloides.从bioresidues最有前途的酵母菌种的生物生产的一个[15.].事实上,斯基霉素红酵母R. Toruloides.利用各种糖,具有特别有效的酸性糖D-半乳糖醛酸和木糖的天然代谢,是类胡萝卜素,中性脂质和酶的生产者;所有都有在制药和化学工业中的重要应用[15.].特别是相关的是它的生物合成脂质的天生能力,可用作木质纤维素材料和富含木质纤维素的生物燃料的脂肪素,其有助于石油更换的潜力[15.16.].虽然基因组序列R. Toruloides.NP11可用[17.],它的特有的代谢方面进行了阐述[18.]最近开发了基因工程的生物工具,其效率和剥削仍然有限[15.].出于这个原因,自然生产的基因工程脂质和类胡萝卜素的改善需要预测代谢基因的转录调控,在基因组规模的能力,R. Toruloides..基于比较基因组学的这种预测的可能性是一个重要的且巨大的挑战,特别是当酵母种类静脉曲种时,因为它是ascycete和盆西酵母的情况。出于所有这些原因,酵母种类R. Toruloides.被选择作为一个案例研究,以预测一个特定的基因调控网络描述的其他子囊菌酵母物种的转录调节。下面几节将讨论这样做的可能性。

全基因组启动子养护分析

作为第一种方法,使用基因组测量的同源基因的启动子序列,使用S. Cerevisiae.基因作为比较基础,对于在效率+平台中聚集的所有物种,包括新添加的R. Toruloides.NP11。利用Levenshtein距离进行全局核苷酸差异比对,该距离允许替换、插入和删除,并考虑每个基因起始密码子上游1000 bp的启动子序列(图。2).

图2
图2

启动子序列的核苷酸差异(使用Levenshtein距离),如图的箱线图的分布,之间S. Cerevisiae.S288C与在YeAstract +平台中聚集的所有物种相比,包括新添加的R. Toruloides.NP11

基于所得的结果,显然启动子序列守恒相对较低,在某种程度上与所考虑的物种的总影发育距离相关,异常存在S. Cerevisiae var。Boulardii.biocodex和平均的同源基因的启动子65个的核苷酸差异unique28菌株。这并不奇怪,因为看到S. Cerevisiae var。Boulardii.菌株和S. Cerevisiae S288C.如前所述,被认为是相同物种的菌株[19.].当物种边界交叉时,平均变异立即增加至超过500多个促进剂,距离遥远的达到近600个差异R. Toruloides..作为物种偏离,也可以看出启动子变异性的分散趋向升高。的确,在两者中Kluyveromyces种,其中,从所考虑的物种,是最接近S. Cerevisiae.还存在着同源基因的启动子的许多具有小于500倍核苷酸的差异,这表明这些启动子之间的高度保守性。在另一个极端,在R.酵母菌的同源基因的启动子,相较于S. Cerevisiae.,永远不要显示少于510个差异。在某些情况下,这些差异可以高达1000个核苷酸,与完整的启动子相对应。虽然显示较低水平的平均核苷酸差异,启动子的变异性Z. Bailii.IST302和热带念珠菌MYA-3404也达到非常高的水平对于一些同源基因对。

这些结果确实是预期的,因为已经看到启动子序列的保守性远低于编码序列的保守性,这被假设是由于大多数启动子序列的非功能性[20.].

全基因组TFBS保存分析

为了评估同源基因的促进剂序列中的转录因子(TF)结合位点(TFBs)比在YeaStract +中所考虑的所有酵母种类中的启动子的剩余部分更加保守S. Cerevisiae.在剩余物种中寻找邻近物种的同源基因的启动子中的TF结合位点。即使对齐算法仅允许精确匹配,即使S. Cerevisiae.沉积在效率的TFBS遵循IUPAC核苷酸代码,该代码已经编码了一定程度的冗余。因此,我们将每个IUPAC序列展开到几个非IUPAC序列中,然后考虑对准算法,保持噪声和假阳性率尽可能低。

S. Cerevisiae.启动子区域包括平均42个不同的TF电位结合位点,其中大多数TFS预测到基因启动子S. Cerevisiae.S288C also predicted to bind to its homologue across all yeast species considered in YEASTRACT +. This observation is consistent with the fact that TF binding sites are predicted to evolve at a much slower rate, when compared to the remaining promoter sequence, and to be conserved among the closely related酿酒酵母物种(20.21.].为了评估TF结合位点的保存,如图。3.,我们展示了相对于位点仅保守的常见TF结合位点的分布S. Cerevisiae., YEASTRACT +中的所有物种。

图3.
图3

常见的TF结合位点的分数,相对保守的网站只S. Cerevisiae.,到所有聚集在YEASTRACT +平台上的物种,包括新添加的物种R. Toruloides.NP11。对于每个物种,呈现分数的Boxplot分布

可观察到的是,相对于TFBS的共同TFB分数仅保守S. Cerevisiae.在同源基因之间S. Cerevisiae.S. Cerevisiae var。Boulardii.是幅度平均一个订单比其余品种高。R. Toruloides.作为分享最少数量的TFB的物种S. Cerevisiae.(无花果。3.).与此相关的是观察到的启动子序列变异性和分析物种中的相应系统发育距离。较小的TFBS之间的平均数量相同R. Toruloides.S. Cerevisiae.相对于TFBS仅保守S. Cerevisiae.突出两个相对于剩余物种之间的高进化距离。此外,这些差异表明,转录因子识别出不同的基序的存在,基因调节差异或甚至增加或转录调节剂的损失。

完全,该分析表明,基于特征的转录因子结合位点,预测每种酵母物种中的调节症。S. Cerevisiae.,虽然可能,但应仔细考虑,因为它只是指示性的,需要实验验证。

预测TF-网络:弱酸性调节器Haa1作为案例研究

有趣的是,两者都是R. Toruloides.[5.]和其他含油酵母,如Cryptococcus curvatus.粘红酵母Lipomyces starkeyiYarrowia lipolytica[22.],都能够生长,并产生高脂质浓度从木质纤维素水解,因为它们能够自然地使用木糖作为碳源。然而,在这种水解产物的抑制性化合物的存在下,特别是乙酸,其存在由于与半纤维素的主链上的乙酰基,可影响酵母的生长和代谢取决于它们的浓度和酵母菌株公差[脱乙酰23.].出于这个原因,理解全球酵母针对这些抑制剂将铺平道路,为优良品种的开发可持续生物精炼过程的方式。鉴于酵母耐受醋酸强烈地依赖于转录因子Haa1,预测Haa1监管网络引导生物技术相关的研究不佳酵母菌种的鲁棒性的增加需要。

首次确定转录因子Haa1S. Cerevisiae.作为耐乙酸性的决定因素[24.]及其调节子,其特征在于在转录水平[25.].目标启动子区的Haa1特异性结合位点也定义了[26.],从而区分其活动的直接目标和间接目标。后来,S. Cerevisiae.Haa1 Orthologs的特征在于另外两种酵母种类的乙酸耐受性研究,生物技术相关Zygosaccharomyces Bailii.[7.27.]和人类病原体Candida Glabrata.[28.].鉴于其在工业发酵背景下的重要性,已经尝试并证明了HAA1工程在增加时成功S. Cerevisiae.醋酸耐受性[29.].它的作用预计将在系统源性更加发散的酵母中保存,例如R. Toruloides.,使得Haa1细候选用于朝向用于木质纤维素生物精炼优良菌株的构建转录调节工程,从合成生物学的观点。

针对Haa1调控的预测R. Toruloides.,基于以前关于其他酵母中的Haa1调节件的知识,如下酵母中的沉积物中沉积在效率+信息系统中[3.: 1)在同源基因中寻找保守的Haa1结合位点S. Cerevisiae.R. Toruloides.进行评价;和2),用于保守Haa1靶基因的搜索,并在同系物R. Toruloides.,穿过三种酵母种类,其中TF-Regubon的特征在于。由于仍然没有可用的转录规则数据R. Toruloides.或从担子菌进化枝酵母,Haa1调节子的分析作出仅基于酵母属于子囊菌进化枝(S. Cerevisiae.C. glabrata.Z. Bailii.).鉴于考虑酵母种类中的进化距离,分析的可靠性可能受到影响。因此,从以下分析中取出的预测和结论虽然有助于引导进一步的研究,但仅表明,需要实验验证。

基于TFBS守恒

考虑到实验确定S. Cerevisiae.Haa1(Schaa1)绑定站点[26.],寻找HAA1潜在目标S. Cerevisiae.S288C和R. Toruloides.进行了NP11试验。Haa1识别序列S. Cerevisiae.在两个步骤过程中识别[26.].首先,使用电泳迁移率移位测定(EMSA)评价HAA1与靶基因TPO3的启动子序列的相互作用,鉴定了共有序列GGCGAGGGGG。然后,该识别基序通过表面等离子体谐振(SPR)与相同序列的变化一起评估。基于该分析,还发现了四种另外的共识序列 - GGCGCGGGG,GGCGCGGGG,GGCGGGGG,AGCGAGGGG-AGCGAGGGG-SAN1的束缚,尽管对蛋白质略微较低。然后在上述图案的分析和组合之后提出最小的功能性MOTIF-SMGGSG-26.].

如果所有用于Haa1所表征的共有序列被认为是,包括最小的功能性基序,预测的靶的数量包括在1952年常见的靶基因S. Cerevisiae.S288C和R. Toruloides.NP11,2个独特的预测目标S. Cerevisiae.在和1059个独特的潜在目标R. Toruloides..这个数字比在86个记载Haa1目标大得多S. Cerevisiae,基于亲本菌株和的比较转录分析HAA1使用DNA微阵列的乙酸胁迫下的突变体[25.].这说明有相当数量的启动子含有Haa1最小一致序列,但由于实验限制,转录因子的结合没有发生或无法鉴定。有理由假设,实验验证的Haa1最小一致序列是必要的,但不足以使Haa1在缺乏醋酸胁迫诱导的激活信号的情况下与其目标启动子结合[30.].

仅考虑所证明的共识序列以结合HA1,两者都有4个预测目标S. Cerevisiae.R. Toruloides.,19个Haa1潜在目标独特S. Cerevisiae.和669个独特的R. Toruloides..另一个假设是Haa1调节件可能更大R. Toruloides.而不是S. Cerevisiae.或者展示的结合位点S.Cerevisiae.与它在r Toruloides.

总之,本实施例中示出了基于所识别的共有序列来预测TF目标的能力深深地依赖于那些序列的特异性的程度和在实验条件下该TF是生物活性的。事实上,无论假设是基于保护的TF一致序列需要一个保守的做法,并要求实验验证,并考虑必要激活TF结合活性后转录调控事件。

基于保守证明的监管协会

针对Haa1调控的预测R. Toruloides.,第二种方法进行了尝试。实验证明在其他三个酵母菌种Haa1转录因子的监管协会被用来预测Haa1调控基因在这个产油酵母。这种搜索是为进行rhto_01077.基因,编码与Haa1蛋白最近的同源物R. Toruloides.,使用“搜索基因”查询R. Toruloides.网页创建在社区YEASTRACT数据库。在每一种情况下,使用“搜索:中的同源调控”选项来选择Haa1调控基因数据可用的三个物种中的每一个:S. Cerevisiae.C. glabrata.Z. Bailii.

根据获得的结果,RTHAA1目标R. Toruloides.可以从zbhaa1目标预测Z. Bailii., CgHaa1的目标在C. glabrata.从ScHaa1和ScAce1目标中S. Cerevisiae.(无花果。4.).结果中的口是心非S. Cerevisiae.源自SCHAA1和SCACE1的事实是RTHAA1的近同源物,SCHAA1仅与SCAS1的RTHAA1稍微密切相关。

图4.
图4

对于预测的假定网络rhto_01077.基因编码Haa1蛋白最近的同源物R. Toruloides.- 从记录的监管协会中获取S. Cerevisiae.C. glabrata.Z. Bailii.

使用S. Cerevisiae.作为目标预测的基础R. Toruloides.,RTHAA1预计具有578个目标基因,而基于可用的数据C. glabrata.Z. Bailii.可以分别预测仅214和28个目标的RTHAA1。对每个物种进行实验证明的HAA1目标数量的差异可能反映出可用的公开数据集的数量,制作S. Cerevisiae.最具信息价值的物种,至少在这个特殊的例子中,是最有希望实现调控网络预测的物种。然而,由于同源转录因子的靶标被发现在不同的生物体中,至少是部分不同。跨物种预测是一种很有前景的工具,主要用于预测各转录因子的核心调控;可能是整个进化过程中最保守的。

通过从相交的Haa1调节子S. Cerevisiae.C. glabrata.Z. Bailii.,发现一小组11个基因是该转录因子的核心调节件(图。5.).在进行上述分析时,核心监管规定包括四项TPO2/3同系物(rhto_00516.RHTO_07644rhto_02184.rhto_05378.),当在乙酸存在下培养酵母细胞时,编码提出的主要促进剂超家族(MFS)的血浆膜转运蛋白,提出用于介导醋酸酯流出[24.].在Haa1调节子的另一个核心基因是RHTO_05632,同源S. Cerevisiae.HRK1,一个已被充分证实的编码Npr1/Hal5激酶的Haa1靶基因,发现该基因可介导几种膜相关醋酸反应蛋白的磷酸化[25.31.].此外,我们识别出来scyro2.同族体(RHTO_07141),编码一个特征不佳的乙酸耐受性决定因素[32.] 和HSP104rhto_04775.) 和SSA4rhto_07842.),这是非常重要的胁迫​​应答基因,在弱酸应激反应和耐受性所需S. Cerevisiae.[33.34.].鉴定的两个剩余基因,MDH1rhto_04363.) 和TMT1RHTO_02367),编码通过TCA循环控制通量的编码酶,一种控制能量产生和关键合成工艺之间平衡的中央途径[35.36.),而RHTO_03062与ADH基因同源,编码乙醇脱氢酶S. Cerevisiae.

图5.
图5

推断Haa1p转录因子靶点的调节子-维恩图,考虑到已记录的S. Cerevisiae,C.GlabrataZ. Bailii.

由于Haa1靶基因的数量在Z. Bailii.与另外两个物种相比,比较较小,焦点是在与之间共享的HAA1目标S. Cerevisiae.C. glabrata.与同系物R. Toruloides..这些包括69个基因的列表(附加文件1:表S1),使用“富集分析”工具豹(Pather)分析其功能类别(http://pantherdb.org/webservices/go/overrep.jsp). 突出的功能主要与运输有关,包括:“离子运输”碳水化合物转运”;以及“通过跨膜输出的外源性解毒”。毫无疑问,这些基因与弱酸胁迫耐受性高度相关,因为它们包括PMA1PMA2那encoding two isoforms of yeast plasma membrane H + -pump ATPase, and those encoding polyamine transporters of the Major Facilitator Superfamily that also have been proposed to catalyse the extrusion of acetate, Tpo2 and Tpo3 [24.].

进一步挖掘YEASTRACT的潜力 + 工具,在“搜索基因”工具中获得的网络可以进行适当过滤,以显示仅与特定感兴趣环境条件相关的监管关联。以我们前面的例子为例,根据环境条件“弱酸胁迫”过滤Haa1调节子,导致三个网络显示预测受RtHaa1调节的基因,考虑到R. Toruloides.来自记录的HAA1目标的同源物S. Cerevisiae.C. glabrata.Z. Bailii.在这种环境条件下(图。6.A) 。重要的是要注意,尽管预测是基于为S. Cerevisiae.包括靶基因的较低数目,而在基于关于所述网络的信息是基于几个表达研究,C. glabrata.Z. Bailii.仅从一项研究中出现。

图6
图6

弱酸胁迫下的RTHAA1调节官。一种预测的Rthaa1-Regulon,基于一组记录的监管协会S. Cerevisiae.C. glabrata.Z. Bailii.在弱酸胁迫下。B.考虑到记录的监管协会,推断出HAA1转录因子目标的调节态Venn图S. Cerevisiae.C. glabrata.Z. Bailii.在弱酸胁迫条件下

考虑到包含haa1 -靶基因的这三个数据集在弱酸性胁迫下的交集,6R. Toruloides.发现基因是该环境条件下该转录因子的核心调节件(图。6.B):四TPO2/3同系物(rhto_00516.RHTO_07644rhto_02184.rhto_05378.), 一HRK1同族体(RHTO_05632)和一个YRO2.同族体(RHTO_07141).

In summary, the data available at the YEASTRACT + platform for Haa1 transcription factors in several yeast species can be used to extrapolate what the RtHaa1 regulon may be. The prediction may be less conservative, by considering that the homologs of all the Haa1 targets in all species may also be Haa1 targets inR. Toruloides.在醋酸胁迫下。However, the use of additional filters, such as exemplified herein (e.g. considering only Haa1 targets shared by 2 or more species, or considering only targets activated in particular environmental conditions), are recommended and may be exploited at the discretion of the user to reach more reliable predictions, all of which still require experimental validation but may prove invaluable in guiding this research work.

结论

在这项研究中,基因组序列的分析工具,从NCBI沉积格式转换成全面的数据库,是提供。该工具包括一个创新手法基因组注释的通过包含功能性启动子的分析对象,基于转录因子的共识发生,并根据收集的相关物种的对应知识调控网络预测的评价。The offered tool was primarily designed for yeast species, taking advantage of the support given by the YEASTRACT + portal and the data included therein. It is provided in the context of the Community YEASTRACT database, but it may also be installed as an independent platform and applied to other organisms.

所呈现的工具的有用性,用含油酵母细胞工厂的基因组的分析例举R. Toruloides..创建了该酵母的专用数据库,包括基因和启动子注释数据。评估了基于促进序列和监管网络保护的监管预测。基因调节推断可以通过寻找转录因子共识序列进行的,这在一定程度上保守在同源基因的启动子中。尽管如此,可能更可靠的预测可以从文献中以密切相关的物种的同源基因的调节关联推断。限制依赖于缺乏合适可信赖的生物信息。本研究中审查的案例研究,关于预测HAA1调节件R. Toruloides.(RtHaa1)对醋酸胁迫的反应是该工具的潜力和该方法仍然存在的局限性的典范,这是由于可用的生物数据有限,支持和允许可靠的预测。然而,这个工具的开发能够导致一个假定的RtHaa1规则的提议,从生物学的观点是有意义的。这一结果为在基因组规模上预测发生在基因组中的调控相互作用铺平了道路R. Toruloides.,特别是那些为乙酸胁迫的响应潜在的,被预期是有用的指导用于木质纤维素生物精炼更健壮的菌株的选择和设计。

可用性数据和材料

在Gitlab存储库中提供了下载,预处理和加载给定的感兴趣的给定基因组的所有代码和逐步说明,https://gitlab.com/oliveira.jorge.88/web

缩写

TF:

转录因子

TFBS:

转录因子结合位点

走:

基因本体论

参考

  1. 1。

    Cherry JM,Hong El,Amundsen C,Balakrishnan R,Binkley G,Chan et,Christie KR,Costanzo MC,Dwight SS,Engel SR,Fisk DG,Hirschman JE,Hitz BC,Karra K,Krieger CJ,Miyasato SR,Nash Rs,Park J,Skrzypek Ms,Simison M,Weng S,Wong Ed。Saccharomyces Genome数据库:萌芽酵母的基因组学资源。核酸RES。2012; 40:D700-5。

    CAS.文章谷歌学者

  2. 2。

    Skrzypek MS、Binkley J、Binkley G、Miyasato SR、Simison M、Sherlock G。念珠菌基因组数据库(CGD):整合22号组件、系统标识符和高通量测序数据可视化。《核酸研究》,2017年;45:D592-6。

    CAS.文章谷歌学者

  3. 3.

    Monteiro Pt,Oliveira J,Pais P,Antunes M,Palma M,Cavalheiro M,Galocha M,Godinho Cp,Martins LC,Bourbon N,Mota Mn,Ribeiro Ra,Viana R,Sá-Correia I,Teixeira MC。Yeastract +:酵母转录调控的跨物种比较基因组学的门户。核酸RES。2020; 48:D642-9。

    CAS.文章谷歌学者

  4. 4。

    产油酵母环红孢子菌Y4的高密度补料分批培养。酶微技术2007;41:312-7。

  5. 5。

    胡c,赵x,赵j,吴s,赵zk。生物质水解副产物对含油酵母的影响Rhodosporidium Toruloides..贪婪的技术。2009; 100:4843-7。

    CAS.文章谷歌学者

  6. 6。

    Martins的LC,帕尔马男,安格洛夫A,Nevoigt E,Liebl W,SA-科雷亚I的主要碳源完全利用存在于甜菜渣水解产物由所述含油酵母红rhodotorula Toruloides.R粘液性阴道病.Ĵ真菌。2021; 7:215。

  7. 7。

    Antunes M,Palma M,Sá-Correia I.转录分析Zygosaccharomyces Bailii.ZbHaa1介导的对乙酸或铜胁迫的早期反应。Sci代表,2018年;8:14122.

    文章谷歌学者

  8. 8.

    CODD EF。大型共享数据库的数据关系模型。公共交流。1970; 13:377-87。

    文章谷歌学者

  9. 9.

    鲁泰帕瓦。PHP Web应用程序服务器。J计算SCI学院。2000; 15。

  10. 10。

    约翰逊AD。扩展为多态核酸IUPAC命名法的代码。生物信息学。2010; 26:1386-9。

    CAS.文章谷歌学者

  11. 11.

    Mcentee J,Lipman D. Pubmed:弥合信息差距。CMAJ。2001; 164:1317-9。

    CAS.PubMed.pmed中央谷歌学者

  12. 12.

    本森DA,蝎,密茨拉希我,李普曼DJ,OstellĴ,惠勒DL。Genbank。核酸RES。2003; 31:23-7。

    CAS.文章谷歌学者

  13. 13。

    Ashburner M,Ball Ca,Blake Ja,Botstein D,Butler H,Cherry JM,Davis Ap,Dolinski K,Dwight SS,EPPIG JT,Harris Ma,Hill DP,ISSEL-Tarver L,Kasarskis A,Lewis S,Matese JC,Richardson Je,Ringwald M,Rubin Gm,Sherlock G.基因本体:统一生物学的工具。基因本体组织。NAT Genet。2000; 25:25-9。

    CAS.文章谷歌学者

  14. 14。

    基因本体组织。基因本体资源:20年,仍然强劲。核酸RES。2018; 47:D330-8。

    文章谷歌学者

  15. 15。

    Park Y-K, Nicaud J-M, Ledesma-Amaro R.工程潜力Rhodosporidium Toruloides.作为生物技术应用的主力。趋势生物技术。2018; 36:304-17。

    CAS.文章谷歌学者

  16. 16。

    Martins LC,Monteiro CC,Semedo PM,Sá-Correia I.酵母植物富含农业工业残留物的储存:潜在和挑战。苹果microbiol biotechnol。2020; 104:6527-47。

    CAS.文章谷歌学者

  17. 17。

    朱铮,张胜,刘辉,沈辉,林旭,杨飞,周永杰,金刚,叶明,邹华,赵志坤。产脂酵母的多组学图谱Rhodosporidium Toruloides.. 纳特公社。2012;3:1112.

    文章谷歌学者

  18. 18.

    Protzko RJ,Hach Ca,Coradetti St,Hackhofer MA,Magosch S,Thieme N,Geiselman Gm,Arkin AP,Skerker JM,Psalber Je,Benz JP。基因面和酶促分析显示碱霉素酵母中有效的D-半乳糖醛酸代谢Rhodosporidium Toruloides..mSystems。2019; 4。

  19. 19.

    Transcriptome-wide之间的差异酿酒酵母酿酒酵母酿酒酵母酿酒酵母var。布拉:主机生存和基于启动子序列变异益生菌活性线索。基因组学。2021; 113:530-9。

  20. 20。

    摩西am,chiang dy,Kellis M,着陆器es,eisen mb。转录因子结合位点的进化速率定位特异性变化。BMC EVOL BIOL。2003; 3:19。

    文章谷歌学者

  21. 21。

    Gasch AP、Moses AM、Chiang DY、Fraser HB、Berardini M、Eisen MB。子囊菌中顺式调节系统的保存和进化。普洛斯生物。2004;2:e398。

    文章谷歌学者

  22. 22。

    Yu x,郑y,dorgan km,陈S. of of粉碎的石油生产来自稀硫酸的麦秸的预处理中的水解产物。贪婪的技术。2011; 102:6134-40。

    CAS.文章谷歌学者

  23. 23。

    Cunha JT,RomaníA,Costa Ce,Sá-Correia I,Domingues L.分子和生理基础酿酒酵母酿酒酵母耐受不良基于木质纤维素的工艺条件。苹果microbiol biotechnol。2019; 103:159-75。

    CAS.文章谷歌学者

  24. 24。

    费尔南德斯AR,米拉NP,巴尔加斯RC,Canelhas我,SA-科雷亚I.酿酒酵母酿酒酵母适应弱酸涉及转录因子HA1P和HAA1P调节基因。Biochem Biophys Res Communce。2005; 337:95-103。

    CAS.文章谷歌学者

  25. 25。

    Mira NP, Becker JD, Sá-Correia I.涉及haa1p调控的基因组表达程序酿酒酵母酿酒酵母对醋酸有反应。组学。2010; 14:587 - 601。

    CAS.文章谷歌学者

  26. 26。

    Mira NP, Henriques SF, Keller G, Teixeira MC, Matos RG, Arraiano CM, Winge DR, Sá-Correia I.鉴定转录因子Haa1的dna结合位点酿酒酵母酿酒酵母响应于乙酸应力。核酸RES。2011; 39:6896-907。

    CAS.文章谷歌学者

  27. 27。

    帕尔马男,Dias的PJ,罗克˚F得C,圣卢西亚L,盖雷罗JF,SA-科雷亚一,拜耳接合酵母接合酵母转录因子Haa1需要用于建议祖双功能蛋白质Haa1 / CUP2的subfunctionalization乙酸和铜应激反应。BMC基因组。2017; 18:75。

  28. 28。

    Bernardo RT, Cunha DV, Wang C, Pereira L, Silva S, Salazar SB, Schröder MS, Okamoto M, Takahashi-Nakaguchi A, Chibana H, Aoyama T, Sá-Correia I, Azeredo J, Butler G, Mira NP。在人类病原体中,cghaa1调节对醋酸胁迫的反应和耐受Candida Glabrata..G3 2017; 7:1-18。

  29. 29。

    Swinnen S,Henriques SF,Shrestha R,Ho P-W,Sá-Correia I,Nevoigt E.通过HAA1转录因子工程改善醋酸的抗性耐受性:朝向潜在机制。Microb细胞事实。2017; 16:7。

    文章谷歌学者

  30. 30.

    Kim Ms,Cho Kh,Park Kh,Jang J,Hahn J-S。弱酸阴离子差异结合的HAA1和WAR1转录因子的激活酿酒酵母酿酒酵母.核酸RES。2019; 47:1211-24。

    CAS.文章谷歌学者

  31. 31。

    Guerreiro JF,Mira NP,Santos Axs,Riezman H,Sá-Correia I.酵母早期反应乙酸的膜磷蛋白酶:HRK1激酶和脂质生物合成途径的作用,特别是鞘脂。前微生物。2017; 12(8):1302。

    文章谷歌学者

  32. 32。

    Takabatake A, Kawazoe N, Izawa S.浆膜蛋白Yro2和Mrh1对醋酸耐受性是必需的酿酒酵母酿酒酵母.生物技术学报。2015;99(6):2805-14。

    CAS.文章谷歌学者

  33. 33。

    Mira NP,Palma M,Guerreiro JF,Sá-Correia I.基因组 - 范围内识别酿酒酵母酿酒酵母所需的公差为乙酸基因。Microb细胞事实。2010; 9:79。

    文章谷歌学者

  34. 34。

    Simõest,teixeira mc,fernandes ar,sá-correia i.适应酿酒酵母酿酒酵母对除草剂2,4-二氯苯氧基乙酸,通过Msn2p-和介导Msn4p调节的基因:SPI1的重要作用。申请环境微生物。2003; 69:4019-28。

    文章谷歌学者

  35. 35。

    麦卡利斯特·亨恩L,汤普森LM。酵母线粒体苹果酸脱氢酶基因的分离和表达。细菌志。1987;169:5157–66.

    CAS.文章谷歌学者

  36. 36。

    蔡红霞,王志强,王志强,等。紫花蓟马反式aconitate甲基转移酶基因的克隆与表达分析酿酒酵母酿酒酵母.生物化学。2001; 40:13699-709。

    CAS.文章谷歌学者

下载参考资料

致谢

不适用。

资金

This work was supported by national funds through Fundação para a Ciência e a Tecnologia (FCT), under Project UIDB/50021/2020 (INESC-ID multi-annual funding), project UIDB/04565/2020 and UIDP/04565/2020 (iBB multi-annual funding), project LA/P/0140/2020 of Associate Laboratory Institute for Health and Bioeconomy - i4HB, Project PTDC/BII-BIO/28216/2017 and the PhD fellowship to MA (DP_BIOTECnico—PhD programme—PD/BD/142944/2018). We also acknowledge funding from Programa Operacional Regional de Lisboa 2020 (LISBOA-01-0145-FEDER-022231, the BioData.pt Research Infrastructure).

作者信息

隶属关系

作者

贡献

jo和ptm实现了所有代码,测试并产生了结果R. Toruloides.基因组。PTM启动了初始原型并设计了实验。MCT、ISC、MA和CPG分析并讨论了本研究的结果R. Toruloides.基因组。所有的作者曾参与起草的手稿。所有作者阅读并认可的终稿。

通讯作者

对应于佩德罗T.蒙泰罗

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

作者宣称没有竞争的利益。

补充资料

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Oliveira的,J.,安图内斯,M.,戈迪尼奥,C.P.等等。从基因组组合到全管网络预测:案例研究rhodotorula Toruloides.假定的Haa1调节子。欧宝娱乐合法吗22,399(2021)。https://doi.org/10.1186/s12859-021-04312-3

下载引用