跳到主要内容

自身免疫疾病中OMICS数据综合分析的综合数据库

摘要

背景

自身免疫性疾病是具有困难诊断和治疗选择的异质病理学。在过去的十年中,几项OMICS研究已经为这些疾病的分子机制提供了重要的见解。然而,来自不同群组和病理学的数据在公共存储库中独立存储,并且统一的资源是协助这一领域的研究人员所必需的。

结果

在这里,我们介绍自身免疫性疾病探索者(https://adex.genyo.es),一种集成82个策划转录组织和甲基化研究的数据库,用于一些最常见的自身免疫疾病的5609个样本。数据库在易于使用的环境中提供高级数据分析和用于探索OMIC数据集的统计方法,包括Meta分析,差异表达或途径分析。

结论

这是第一个专注于自身免疫疾病的组学数据库。该资源包含均匀处理的数据,以促进研究之间的综合分析。

背景

自身免疫性疾病(ADs)是一组复杂和异质性的疾病,其特点是对自身抗原的免疫反应导致多个器官的组织损伤和功能障碍。ADs的发病机制尚不完全清楚,但环境和遗传因素都与它们的发展有关[1].尽管这些疾病会对不同的器官造成损伤,其临床结果也不尽相同,但它们有许多共同的危险因素和分子机制[2].ad的一些例子是系统性红斑狼疮(SLE)、类风湿性关节炎(RA)、Sjögren’s综合征(SjS)、系统性硬化(SSc),被认为是系统性自身免疫性疾病(SADs)和1型糖尿病(T1D),被认为是一种器官特异性自身免疫性疾病。鉴于这些疾病的流行程度,大多数被归类为罕见,但保守估计ADs总共影响到3%的人口[3.].

在ADs患者中,病理学是在数年内发展起来的,但只有在组织损伤严重时才被发现。因此,早期诊断是重要而复杂的。此外,一些ADs往往表现出活动期和缓解期交替出现的非线性结果,从而使他们的研究更加困难。尽管通用电气已经努力开发ADs生物标记物和治疗方法,但这些并不适合每一位患者,其临床反应差异很大[4].

在过去十年中,OMICS技术的使用为与开发广告相关的分子机制提供了新的见解,为生物标志物和治疗发现的新情景开辟了新的场景[5].在这种情况下,I型干扰素(IFN)基因表达特征作为一些SADs病理的关键因素是值得注意的,特别是SLE和SjS [6],它提高了我们对潜在的分子机制的了解,并根据阻止与此签名相关的途径开辟了新的治疗策略。

尽管大量的组学研究描述了ad中的新生物标志物和治疗策略[78910.[大多数情况下,这些生物标志物在不同的研究中并不一致,或者没有完全完成他们的诊断目标。实际上,广泛研究的IFN签名是患者之间的高度变化[11.它与针对它的治疗反应的差异有关,例如在SLE患者的Sifalimumab临床试验的ii期结果中已报道[12.].此外,在大多数情况下,生物标志物是通过分析单一类型的组学数据(通常是基因表达)来定义的,但多组学数据集成可以提供更完整的分子机制理解和更强大的生物学相关的生物标志物。

已经存入了从不同群组和迄今为止发布的广告的研究生成的大多数OMIC数据集,并在公共储存库中提供,例如基因表达式综合(Geo)[13.或ArrayExpress [14.].尽管所有这些有价值的数据都可以用于回顾性分析,以产生新的知识,加速药物发现和诊断,但比较和整合现有数据都不容易,因为它们来自不同的平台和/或使用不同的分析管道处理。在此背景下,生物信息学社区在开发标准化数据分析工作流程和资源方面做出了巨大努力,以促进数据集成和可重复分析。例如,Lachmann等人[15.最近,他们使用统一的管道重新处理了来自GEO和Sequence Read Archive (SRA)的大量原始人类和小鼠RNA-Seq数据,并开发了ARCHS4作为资源,通过基于web的用户界面直接访问这些数据。其他单一项目如癌症基因组图谱(TCGA) [16.]或基因型 - 组织表达项目(GTEX)[17.]还分别为肿瘤样本和人体组织提供了大的、处理均匀的数据集。这些前所未有的资源激发了应用程序和数据门户的开发,以帮助研究人员收集信息,旨在改善多种疾病的诊断和治疗,尤其是在癌症研究中,这些信息实际上正在临床实践中使用[18.].

尽管有如此巨大的潜力,但在ADs的背景下,缺乏一个集中和专用的资源来促进可用的组学数据集的探索、比较和集成。鉴于每种疾病的低流行率使得招募大批患者变得困难,这确实是一个此类应用将非常有益的领域[4].

为了弥补这一差距,在这项工作中,我们收集和整理了五种ad的大多数公开可用的基因表达和甲基化数据集:SLE、RA、SjS、SSc和T1D。为此,我们使用均匀分析管道对原始数据进行了再处理。此外,我们开发了ADEx(自身免疫性疾病浏览器),这是一个数据门户网站,可以下载这些处理过的数据,并通过多种探索性和统计分析加以利用。ADEx有助于数据集成和分析,可能改善ADs的诊断和治疗。

为了展示ADEX的潜力,我们查询了数据库,探讨了所有自身免疫疾病的IFN规范基因的表达模式。该分析显示IFN签名在SLE和SJ中一致,但它显示了RA样品中的异质性。在第二个分析中,我们集成了所有数据集,以便为每种疾病定义一组一致的生物标志物,考虑来自多项研究的表达数据。

结构和内容

我们准备了5个不同的管道来处理每个平台的数据(RNA-Seq, Affymetrix和Illumina基因表达微阵列,Illumina甲基化27K和450K阵列)。所有这些工作流程都是用R语言编写的,并在GENyO生物信息学单元GitHub (https://github.com/GENyO-BioInformatics/ADEx_public).数字1包含为准备ADEX应用程序的数据而执行的不同步骤的概述。

图1
图1

处理adex数据的管道。黑色箭头表示中间处理步骤。红色箭头表示ADEX应用程序的输入

数据收集

ADEX中包含的数据集的集合是通过在GEO网页中搜索带有广告名称作为关键术语进行的。我们通过研究类型过滤结果(通过阵列表达分析,通过阵列的高通量测序和甲基化分析的表达分析),生物(Homo Sapiens)和平台制造商(Affymetrix或Illumina)。

我们用GEOquery下载了这些初始数据集的元数据[19.] R包以应用我们的纳入标准,并排除这些研究和样品不符合他们。我们只包括来自样品的案例控制研究,这些研究未在体外用药物治疗。专门考虑具有可用原始数据的数据集。丢弃了对照和病例属于不同组织的研究被丢弃。我们只有至少选择10个样本的数据集。包含多于一个疾病,平台,组织或细胞类型的数据集分为来自相同源的样品的子集。

包含5609个样本的82个数据集通过了我们的过滤标准(参见附加文件)1有关所有包含的数据集的完整信息)。然后,我们下载了他们的原始数据与GEOquery [19.].对于表达微阵列,我们分别下载了Affymetrix和Illumina平台的CEL文件和原始文本文件。对于RNA Seq,我们下载了FASTQ.欧洲核苷酸档案馆的文件对于甲基化微阵列,我们下载了原始的甲基化表,如果它们是可用的艾达文件否则。

元数据策策

GEO不要求提交者使用固定结构或标准词汇来描述实验样本。因此,有必要使用标准化术语手动地将所有选定数据集中提供的信息均质化。GEO元数据的自动管理有一些方法,但要获得高质量的元数据,仍然需要手动管理[20.].该元数据策策是以下分析的重要步骤,并允许容易地探索每项研究的信息。

平台策策

我们使用了来自微阵列和RNA-SEQ技术的12种不同的基因表达平台。微阵列平台量化探针中的表达水平。为了将探测标识符匹配到基因名称,平台注释文件可从GEO获得。但是,我们发现这些注释文件中的一些匹配探针在不适当的基因名称中匹配。一方面,由于基因名称的转换,一些平台将使用误差保存基因名称3月1日SEPT1.转换为日期,这是以前报道过的一个常见错误[21.].在这些情况下,我们在注释文件中手动修复了这些基因。另一方面,一些平台使用过时或不同的别名来指代相同的基因。我们使用了NCBI存储库的人类基因信息,以使别名与实际官方基因符号匹配并在平台注释中替换它们。

数据处理

通过读取纯文本文件加载来自Illumina表达微阵列的原始数据。为了去除背景噪声,我们只保留了具有检测功能的探针P在至少10%的样本中值低于0.05。然后我们进行了背景校正和分位数归一化[22.] 使用NEQC来自limma包的函数[23.].

来自Affymetrix表达式微阵列平台的CEL文件加载到R环境敬服包(24.].为了过滤不可靠的探针,我们在至少10%的样品中去除所有强度低于100的探针。进行归一化计算鲁棒多芯片平均(RMA)归一化[25.)与敬服包(24.].

对于RNA-SEQ数据集,FASTQ.使用STAR 2.4将文件与人类转录组参考hg38对齐[26.],用RSEM v1.2.31获得原始计数[27.],使用默认参数。使用NOISeq R包过滤原始计数[28.],去除那些在所有条件下每个条件的平均表达量低于0.5计数/百万(CPM),变异系数(CV)高于100的特征。原始计数用TMM方法归一化[29.].

我们使用我们精心设计的注释表将微阵列探针标识符翻译成基因符号。对于那些被两个或多个微阵列探针靶向的基因,我们计算了它们所有靶向探针的中位表达值。对于RNA-Seq,我们使用biomaRt package将ENSEMBL标识符翻译为基因符号[30.31.].

甲基化原始数据在Geo中提供艾达或根据数据集的文本文件。谎言读取文件时使用minfi包(32.,而文本文件是在R环境中读取的。在这两种情况下,探测性能都很差P在超过10%的样本中值大于0.05。靠近SNPs的探针,位于性染色体或据报道是交叉反应的[33.]也被删除了。我们用分位数归一化将甲基化信号归一化光民包(34.].最后,对于450k平台生成的数据集,采用BMIQ归一化[35.]使用西瓜包装[36.]为了纠正该平台中包含的两种类型的探针。

差异表达分析

我们对所有数据集独立进行了差异表达分析,以识别疾病样本和健康对照之间的差异模式。根据数据来源,这些分析以不同的方式进行。来自微阵列平台的基因表达谱由标准管道进行limma包(23.].我们用了lmFit函数拟合一个线性模型到基因表达值,然后使用经验贝叶斯方法对差异活性执行t检验(易趣功能)。另一方面,RNA-Seq平台的基因表达谱分析采用标准管道DESeq2包(37.].在这两种情况下,提供了差异表达式分析P值,调整P以FDR (False Discovery Rate)和log为例2折叠变化(FC)。

途径分析

利用差异表达分析结果对每个表达数据集预计算通路富集分析。我们考虑那些FDR低于0.05的基因的deg,并进行超几何测试,以检查是否每个途径包含更多的deg。我们用了KEGGprofile 1.24.0但在此之前,我们手动更新了它的依赖关系,kegg.db.,数据库用于执行统计测试。使用Kegg Mapper刀具搜索和颜色途径绘制了途径,基因在壳体和控制样品之间由其Fc彩色。

信号网络分析

我们集成了信号网络分析申请Hipathia.软件(38.,从而可以检测到来自不同途径的网络活动的变化。我们预先计算了每个基因表达数据集的分析结果。首先,我们翻译了基因表达矩阵,并将其缩放。然后,我们计算转导信号,并与条件、病例和对照进行比较。

因果网络推断

我们使用了狂欢39.[R包管道从基因表达数据分析因果网络架构。为此目的,我们遵循其创造者发布的指示https://github.com/saezlab/trancrectutial..简单地说,用limma进行了差异表达分析[23.],并将结果用于计算转录因子活性多萝西娅40.的途径活动后代41.].这些结果是狂欢计算每个表达数据集的上游调控信号通路。最后,结果存储在交互式html报告中。

数据库体系结构

追求最佳数据组织和快速访问ADEX中的所有数据,我们已启用具有PostgreSQL的内部数据库。我们选择了这项技术,因为它是开源的,它最适合OMICS数据集的大量维度。

网络工具

使用RStudio设计了ADEx用户界面闪亮的包裹。该应用程序使用一组外部包来执行按需进行分析和图形。大多数地块都是生成的ggplot242.]。Meta分析部分中的所有计算均在用户要求时执行。生物标记物分析使用集成在兰克普罗德R包[43.].该工具运行在我们自己的服务器上,使用CentOS 7.0操作系统,16个处理器和32 Gb RAM内存。

效用和讨论

数据收集和处理

ADEX包含来自5609个样本的数据。我们从SLE,RA,SJ,SSC和T1D疾病中处理了82种表达和甲基化数据集(见表1获取摘要和附加文件1有关所有包含的数据集的完整信息)。我们手动策划了所有元数据,以便在不同的研究中标准化表型,细胞类型等的命名法,丢弃不符合选择标准的样本或数据集(参见“结构和内容”一节)。处理后的数据集可以从应用程序的下载数据部分获得。

表1 Adex中疾病和数据类型的可访问研究和样本概述

ADEX应用程序

可以使用ADEx数据门户下载和分析处理后的数据。ADEx可在以下网站免费下载https://adex.genyo.es.该工具分为6个不同的截面,布置在不同的突片中(图。2一种)。

图2
图2.

ADEx应用综述及疾病间IFN特征分析。一个ADEx有六个主要部分。第1节提供了关于可用数据集的信息。在第2节中,用户可以探索单个基因的表达和甲基化。第3节实现了一个模块,用于跨多个数据集探索基因列表的数据,如基因模块或来自生物学途径的基因。第4节允许研究人员对单个数据集进行分析,检索差异表达签名和通路以及细胞信号富集分析。第5节实现了元分析方法来集成多个数据集,以定义共同的生物标志物。第6节是数据下载。b基因集查询部分截图。显示数据集和基因集输入。用户在那里选择数据来绘制热图。cIFN签名表达通常将SLE和SJ与其他广告分开。用Adex中产生的IFN基因的热图。颜色代表日志2疾病与健康样本的FC(红色表示过表达,蓝色表示过表达)

第1节:数据概述

有关可用数据集的信息可以在本节中的表格或饼图格式中找到。在表中,提供了有关样品表型及其数据来源的信息。在饼图中,提供了关于临床和表型信息的定量信息。每当提供时,所有这些信息都从GEO或相关的已发布的文章中提取。该信息可以针对每个数据集单独呈现或通过疾病进行分组。虽然正在探索单个数据集,但显示了实验摘要。用户可以使用此部分识别要在以下部分中分析其兴趣的数据集。

第二节:基因查询

创建该部分以探讨特定基因的表达和甲基化,或它们之间的相关性,在单个数据集中。用户可以使用Boxplot探索每个数据集比较案例和控制样本的不同基因表达式值。同时,甲基化数据以CpG水平呈现,使得用户可以选择基因的区域(例如启动子),并且绘制所选区域中包含的每个CPG探针的情况和对照的平均甲基化值。

已经证明了基因表达和甲基化水平的强烈关系[44.].这就是为什么在本节中,用户还可以集成表达式和甲基化值来搜索直接或反向相关性。最后进行基因表达相关性分析,以了解不同基因之间的关系,找到共同表达的基因组。

第3节:基因集查询

在这里,用户可以选择多个数据集和基因,以便探讨患者之间的FC和跨研究的控制。来自疾病的所有数据集可以通过单击左按钮自动选择,或者可以通过直接在表上单击来选择单独的研究。用户可以介绍一个基因列表以探索其表达,尽管有几个预加载的基因列表覆盖了Chaussabel等人报告的共同表达模块45.].这些模块由来自不同疾病的数百种样品中的一组共同表达基因组成。每个转录模块与不同的途径和细胞类型相关,大多数与免疫系统有关[45.].有关此类分析的示例,请参阅我们的用例1(图。2b, c)。

第4节:分析数据集

在本节中,我们将对整个数据集的分析集中在整个数据集而不是单个基因上。默认情况下,显示通过FDR排序的前50个差异表达基因(DEGS)表达的热图。还可以通过FC和截止方式对它们进行排序,可以应用于统计数据。此外,可以将差异表达分析结果作为Excel表格下载。

此外,用户还可以研究KEGG [46.]与所选数据集关联的丰富途径。这些结果使用FDR值低于0.05的所有DEG来预先计算。桌子结束了显着富集的Kegg途径以及它们的相关超距离测试统计数据,并且交互式图显示了根据其Fc彩色的途径中参与者基因的详细信息。

除了传统的途径富集方法之外,我们已经实施了更复杂的细胞信号传导活动机制模型,该活动在解密疾病机制方面证明是非常敏感的[38.47.]以及药物的作用机制[48.49.].提供我们应用的这种功能Hipathia.软件(38.]对基因表达数据。该方法估计定义为不同通路的信令电路的活动的变化。利用这种方法,可以详细研究在不同信令路径内的广告中改变的特定信令电路。我们预先计算每个数据集的此分析,结果可用作表和交互式报告。

最后,在本节中,可以使用因果途径分析结果。我们用了狂欢39.]从基因表达数据集构建网络拓扑的软件,以识别通过自身免疫疾病中的信号网络传播的上游改变。

第五节:荟萃分析

ADEX还基于基因表达数据实现了Meta分析功能,以集成和共同分析不同和异构的数据集。我们实施了从相同或不同病理学的不同数据集中搜索生物标志物和常见基因签名的荟萃分析方法[50.基于每个数据集和基因的FCs。要启动元分析,必须选择类似于第3节的数据集。请参阅我们的用例2以获得此类分析的示例(图)。3.).

图3
图3.

多个数据集的整合揭示了每种疾病的候选生物标志物。观察到的IFN I, II和III对基因表达的影响在每个热图的左边注释。颜色代表日志2FC。Heatmaps包含重要的生物标志物一个系统性红斑狼疮,bSjS,cra,dt1d和eSSc

第6节:下载数据

在本节中,用户可以选择一个或多个数据集并下载。收集数据的目的是在ADEx应用程序外部执行额外的分析。

用例1:探讨跨疾病的IFN签名

使用作为查询一组基因(来自相同途径的基因表达签名,基因等),探讨签名如何在不同的数据集或疾病中表达签名。为了展示adex的潜力,我们探讨了不同疾病中的IFN签名表达状态,因为它在自身免疫性紊乱中的重要性[11.].为了实现这一目标,我们评估了之前定义的IFN签名的所有数据集的表达式级别[51.(图。2b)。我们观察到IFN签名在SLE和SJS患者中强制过表达(图。2C),如前所述[52.53.]根据这些IFN调节模块,这两种疾病与其他病理学明显分离。RA IFN信号具有高度异质性,这与以前的研究一致[54.].有趣的是,IFN模块在大多数使用滑膜组织的RA研究中都过表达,而在大多数RA血液研究中没有这种影响或非常微妙。这是预料之中的,因为这种疾病的主要炎症部位是滑膜关节[55.].

用例2:广告中的生物标志物发现

为了显示ADEx在生物标志物发现方面的功能,我们还对数据库中包含的所有数据集进行了以疾病为中心的meta分析,以定义每种疾病的候选生物标志物。我们移除了75%以上的样本中含有NA值的基因兰克普罗德包(43.]来计算Rank Product的统计和调整P价值。我们认为这些基因有明显的调整P值< 0.05。由于有来自不同细胞类型、组织或平台的数据集,我们的目标是找到独立于所有这些变量的全局生物标志物。我们在SLE中发现了1703个持续缺失的基因,在SjS中发现了367个,在RA中发现了743个,在SSc中发现了45个,在T1D中发现了294个。3.和附加文件2).我们使用了这些信息Interferome数据库[56.根据不同类型的IFN如何影响其表达(上调或下调)来注释每个基因。为了这个目的,我们询问了Interferome数据库,搜索基因与绝对日志2FC> 2在IFN添加之后。鉴于此数据库包含不同的实验条件,我们平均了日志2FC和被认为是基因上调的IFN与平均日志2FC> 0,并且下调那些具有平均日志的人2常设费用 < 0.如图所示。3.,大多数SLE、SjS和RA生物标记物的表达与观察到的IFN对它们的作用相对应,支持IFN在这些疾病中的主要作用。值得注意的是,II型IFN(IFN II)对观察到的表达变化的贡献。IFN II在ADs中的作用经常被低估,而有利于I型IFN(IFN I)事实上,IFN信号定义通常集中于IFN I调控的基因[610.52.].然而,已经证明II型IFN在ADs发病机制中起关键作用[57.].我们的调查结果支持这一重要性,需要将注意力集中在IFN II监管途径上,以设计新的治疗策略。

在RA中,最强的生物标志物信号来自滑膜组织研究,这些数据集与血液研究完全分离。这与IFN信号表达结果一致(图。2c)。

结论

尽管ADS的异质性是明显的,但仍有常见的分子机制参与免疫应答的激活。在这种情况下,多种研究的综合分析对于发现共享和差异分子签名至关重要[58.].现在有许多公开可用的ADs数据集,但是为了正确地分析它们,强大的计算知识是必要的。为了填补实验研究和计算生物学之间的这一空白,易于使用的交互式软件是执行探索性和统计分析的有价值的工具,而无需强大的计算专业知识。这种类型的工具已经被开发用于其他疾病,并帮助重用公共数据并产生新的知识和假设[59.6061].

A resource of this type is urged in the field of ADs to: (1) Compile available ADs’ public data in a single data portal, (2) Access to integrable data processed with uniform pipelines, and (3) Perform both individual and integrated analysis interactively. We developed ADEx database to accomplish all those objectives. Then, we used ADEx data and functions to illustrate our tool potential exploring the IFN signature in different diseases and revealing genes consistently over- and underexpressed which could be good biomarkers for these diseases.

据我们所知,ADEx是第一个ADs组学数据库,我们希望它能成为这一领域的参考。在未来几年,ADEx将扩展,包括更多的广告和其他组学数据。此外,将根据用户的要求添加额外的数据集。

数据和材料的可用性

GSE10325、GSE104174、GSE108497、GSE110007、GSE110169、GSE110174、GSE110607、GSE110914、GSE112341、GSE117931、GSE11907、GSE12021、GSE124073、GSE124939、GSE13887、GSE23117、GSE24706、GSE27895、GSE30153、GSE38351、GSE40611、GSE42861、GSE45291、GSE50772、GSE51092、GSE55098、GSE55235、GSE55457、GSE56606、GSE56649、GSE57383、GSE57869、GSE59250、GSE60424、GSE61635、GSE63903、GSE65010、GSE65391、GSE71841、GSE72509、GSE7451、GSE77298、GSE80183、GSE82221、GSE84844、GSE87095、GSE89408、GSE90081、GSE93683和GSE95065。在本次研究中生成的处理过的数据集可在ADEx数据库中找到,https://adex.genyo.es

缩写

广告:

自身免疫性疾病

adex:

自身免疫性疾病的探险家

CPM:

每百万计数

简历:

变异系数

DEG:

差异表达基因

舰队指挥官:

叠化

罗斯福:

错误发现率

地理:

基因表达综合

GTEx:

Genotype-Tissue表达项目

IFN:

干扰素

干扰素我:

输入I IFN.

干扰素II:

II型IFN.

ra:

类风湿性关节炎

RMA:

稳健多芯片平均

悲伤:

全身自身免疫疾病

SjS:

舍格伦综合征

系统性红斑狼疮:

系统性红斑狼疮

SRA:

顺序读取存档

SSc:

系统性硬化病

T1D:

1型糖尿病

TCGA:

癌症基因组图集

参考

  1. 1。

    萨拉曼先生。自身免疫疾病外观的两步假设。自身免疫。2003; 36:57-61。

    CASPubMed.文章谷歌学者

  2. 2。

    jörgs,grohme da,erzler m,binsfeld m,haghikia a,müllerdn等。自身免疫性疾病的环境因素及其在多发性硬化中的作用。细胞mol寿命。2016; 73:4611-22。

    PubMed.公共医学中心文章CAS谷歌学者

  3. 3。

    Cooper GS, Stroehla BC。自身免疫性疾病的流行病学。Autoimmun启2003;2:119-25。

    PubMed.文章谷歌学者

  4. 4.

    Barturen G,Beretta L,Cervera R,Van Vollenhoven R,Alarcón-Riquelme Me。朝向自身免疫性风湿病的分子分类。NAT Rev Rheumatol。2018; 14:75-93。

    CASPubMed.文章谷歌学者

  5. 5。

    Kim H-Y, Kim H-R, Lee S-H。自身免疫性疾病的系统生物学研究进展。免疫Netw。2014;14:73 - 80。

    PubMed.公共医学中心文章谷歌学者

  6. 6.

    Thorlacius Ge,Wahren-Herlenius M,RönnblomL.更新I型干扰素在系统性红斑狼疮和Sjögren的综合征中的作用。CurrOge Rheumatol。2018; 30:471-81。

    CASPubMed.文章谷歌学者

  7. 7.

    谢旭,李飞,李松,田军,陈建伟,杜建峰,等。组学在预测类风湿性关节炎抗tnf疗效中的应用。Rheumatol。2018;37:13-23。

    PubMed.文章谷歌学者

  8. 8.

    Arriens C,Mohan C. Systemic Lupus Erythematosus诊断在“OMICS”时代。int J Clin Rheumatol。2013; 8:671-87。

    CAS文章谷歌学者

  9. 9.

    Teruel M, Chamberlain C, Alarcón-Riquelme ME。组学研究:在SLE和其他系统性自身免疫性疾病的诊断和重新分类中的应用2017;56(suppl1): i78-87。

    CAS谷歌学者

  10. 10.

    Ferreira Rc,Guo H,Coulson RMR,Smyth DJ,Pekalski ML,Burren OS等。I型Interferon转录签名在遗传上以1型糖尿病的风险遗传患儿的自身免疫性。糖尿病。2014; 63:2538-50。

    PubMed.公共医学中心文章谷歌学者

  11. 11.

    Rönnblom L, Eloranta M-L。自身免疫性疾病中的干扰素特征Curr Opin Rheumatol. 2013; 25:248-53。

    PubMed.文章CAS谷歌学者

  12. 12.

    Khamashta M, Merrill JT, Werth VP, Furie R, Kalunian K, Illei GG,等。Sifalimumab是一种抗干扰素-α单克隆抗体,用于中重度系统性红斑狼疮:一项随机、双盲、安慰剂对照研究。Ann Rheum Dis. 2016; 75:1909-16。

    CASPubMed.文章谷歌学者

  13. 13。

    埃德加R,多姆拉切夫M,鞭笞AE。基因表达综合:NCBI基因表达和杂交阵列数据库。核酸学报2002;30:207-10。

    CASPubMed.公共医学中心文章谷歌学者

  14. 14。

    Kolesnikov N,Hastings E,Keays M,Melnichuk O,Tang Ya,Williams E等人。ArtrayExpress更新 - 简化数据提交。核酸RES。2015; 43(数据库问题):D1113-1116。

    CASPubMed.文章谷歌学者

  15. 15.

    Lachmann A,Torre D,Keenan Ab,Jagodnik Km,Lee Hj,Wang L等人。来自人和小鼠的公共可用RNA-SEQ数据的大规模挖掘。NAT Communce。2018; 9:1366。

    PubMed.公共医学中心文章CAS谷歌学者

  16. 16

    等。癌症基因组图谱泛癌症分析计划。Nat麝猫。2013;45:1113-20。

    PubMed.公共医学中心文章CAS谷歌学者

  17. 17

    龙斯代尔,汤士杰,塞尔瓦托,等。基因型组织表达(GTEx)项目。Nat麝猫。2013;45:580-5。

    CAS文章谷歌学者

  18. 18

    张毅,崔T,金杰,朴杰,徐杰,金S,等。癌症精确医学的综合临床和基因组信息系统。BMC医学基因组学。2018;11(补充资料2):95-103。https://doi.org/10.1186/s12920-018-0347-9

    CAS文章谷歌学者

  19. 19

    地理查询:基因表达Omnibus (GEO)和BioConductor之间的桥梁。生物信息学杂志2007;23:1846-7。

    文章CAS谷歌学者

  20. 20.

    王志强,王志强,马雅燕。基于基因表达集的数据挖掘。Biophys启2019;11:103-10。

    CASPubMed.文章谷歌学者

  21. 21.

    基因名称错误在科学文献中普遍存在。基因组生物学。2016;17:177.

    PubMed.公共医学中心文章谷歌学者

  22. 22.

    史伟,奥什拉克A,史密斯GK。优化Illumina全基因组表达BeadChips的噪声与偏差权衡。核酸学报2010;38:e204。

    PubMed.公共医学中心文章CAS谷歌学者

  23. 23。

    吴丹,胡勇,罗春波,史伟,等。基于差异表达分析的rna测序和微阵列研究。核酸学报2015;43:e47。

    PubMed.公共医学中心文章CAS谷歌学者

  24. 24。

    Gautier L, Cope L, Bolstad BM, Irizarry RA。Affymetrix基因芯片数据在探针水平的Affymetrix分析。生物信息学学报2004;20:307-15。

    CAS文章谷歌学者

  25. 25。

    Irizarry RA、Hobbs B、Collin F、Beazer Barclay YD、Antonellis KJ、Scherf U等。高密度寡核苷酸阵列探针水平数据的探索、标准化和总结。Biostat Oxf英语。2003;4:249–64.

    谷歌学者

  26. 26。

    张志强,张志强,张志强,等。STAR:超快通用rna测序仪。生物信息学杂志。2013;29:15-21。

    CAS文章谷歌学者

  27. 27。

    Li B,杜威CN。RSEM:具有或不具有参考基因组的RNA-SEQ数据的准确转录物定量。BMC生物素。2011; 12:323。

    CAS文章谷歌学者

  28. 28

    Tarazona S,Furió-taríP,Turràd,Pietro Ad,Nueda MJ,Fe​​rrer A等人。RNA-SEQ中差异表达的数据质量意识分析QuantQ R / BioC包。核酸RES。2015; 43:E140。

    PubMed.公共医学中心谷歌学者

  29. 29

    一种用于RNA-seq数据差异表达分析的标准化方法。基因组医学杂志。2010;11:R25。

    PubMed.公共医学中心文章CAS谷歌学者

  30. 30.

    Durinck S,Moreau Y,Kasprzyk A,Davis S,De Moor B,Brazma A等。生物摩托和生物导体:生物数据库与微阵列数据分析之间的强大联系。Bioinforma Oxf Engl。2005; 21:3439-40。

    CAS文章谷歌学者

  31. 31.

    Durinck S, Spellman PT, Birney E, Huber W.基因组数据集与R/Bioconductor包biomaRt的整合标记。Nat Protoc。2009;4:1184 - 91。

    CASPubMed.公共医学中心文章谷歌学者

  32. 32.

    Ariee MJ,Jaffe Ae,Corrada-Bravo H,Ladd-Acosta C,Feinberg AP,Hansen KD等人。MINFI:用于分析Infinium DNA甲基化微阵列的柔性和综合的生物导体包。生物信息学。2014; 30:1363-9。

    CASPubMed.公共医学中心文章谷歌学者

  33. 33.

    陈勇,李春梅,张志强,等。Illumina Infinium HumanMethylation450微阵列中交叉反应探针和多态CpGs的发现。表观遗传学。2013;8:203-9。

    CASPubMed.公共医学中心文章谷歌学者

  34. 34.

    杜平,Kibbe WA,Lin SM.卢米:处理Illumina微阵列的管道.生物信息学Oxf Engl.2008;24:1547-8。

    CAS文章谷歌学者

  35. 35。

    Tegner J, Gomez-Cabrero D, et al.;用于纠正Illumina Infinium 450k DNA甲基化数据探针设计偏差的beta-mixture分位数归一化方法生物信息学杂志。2013;29:189-96。

    CAS文章谷歌学者

  36. 36。

    Pidsley R、Wong CCY、Volta M、Lunnon K、Mill J、Schalkwyk LC。预处理Illumina 450K甲基化阵列数据的数据驱动方法。BMC基因组学。2013;14:293.

    CASPubMed.公共医学中心文章谷歌学者

  37. 37。

    爱情MI,Huber W,Anders S.使用DESEQ2的RNA-SEQ数据的折叠变化和分散的调节估计。基因组Biol。2014; 15:550。

    PubMed.公共医学中心文章CAS谷歌学者

  38. 38。

    Hidalgo MR, Cubuk C, Amadoz A, Salavert F, Carbonell-Caballero J, Dopazo J.高通量评估功能细胞活性揭示疾病机制并预测相关临床结果。Oncotarget。2017;8:5160 - 78。

    PubMed.文章公共医学中心谷歌学者

  39. 39。

    从表情足迹到因果路径:基于狂欢的大信号网络语境研究。Npj Syst Biol Appl. 2019;5:40。

    PubMed.公共医学中心文章CAS谷歌学者

  40. 40。

    人类转录因子活性评估的基准和资源整合。基因组研究》2019;29:1363 - 75。

    CASPubMed.公共医学中心文章谷歌学者

  41. 41。

    Schubert M,Klinger B,Klünemannm,Sieber A,Uhlitz F,Sauer S等人。扰动 - 反应基因显示癌症基因表达中的信令占地面积。NAT Communce。2018; 9:20。

    PubMed.公共医学中心文章CAS谷歌学者

  42. 42。

    Wickham H. GGPLOT2:用于数据分析的优雅图形。纽约:斯普林克;2009年。https://www.springer.com/us/book/9780387981413.访问2019年4月30日。

  43. 43.

    Del Carratore F, Jankevics A, Eisinga R, Heskes T, Hong F, Breitling R. RankProd 2.0:一个用于检测分子分析数据集差异表达特征的重构生物导体包。生物信息学报2017;33:2774-5。

    文章CAS谷歌学者

  44. 44.

    DNA甲基化景观:来自表观基因组学的发人深思的见解。Nat Rev Genet, 2008; 9:465-76。

    CASPubMed.文章谷歌学者

  45. 45.

    Chaussabel D,Quinn C,Shen J,Patel P,Glaser C,Baldwin N等。血液基因组学研究的模块化分析框架:对系统性红斑狼疮的应用。免疫。2008; 29:150-64。

    CASPubMed.公共医学中心文章谷歌学者

  46. 46.

    Kanehisa M,Goto S. Kegg:Kyoto Encyclopedia基因和基因组。核酸RES。2000; 28:27-30。

    CASPubMed.公共医学中心文章谷歌学者

  47. 47。

    等。关键词:人工神经网络,神经网络,神经网络基因表达整合到途径模块揭示了泛癌代谢景观。实用癌症杂志2018;78:6059 - 72。

    CASPubMed.文章谷歌学者

  48. 48。

    利用信号通路的激活状态作为基于机制的生物标志物来预测药物敏感性。Sci众议员2015;5:18494。

    CASPubMed.公共医学中心文章谷歌学者

  49. 49。

    Esteban Medina M,Peña-Chilet M,Loucera C,Dopazo J.利用机器学习和机械模型探索范科尼贫血途径周围的药物空间。BMC生物信息。2019;20:370.

    文章谷歌学者

  50. 50.

    托罗·多明格斯D,卡莫纳·萨雷斯P,阿拉尔科恩·里克尔梅·梅。通过基因表达荟萃分析发现类风湿性关节炎、系统性红斑狼疮和舍格伦综合征之间的共同特征。关节炎复发。2014;16:489.

    PubMed.公共医学中心文章CAS谷歌学者

  51. 51。

    Bancherau R,Hong S,Cantarel B,Baldwin N,Baisch J,Edens M等人。个性化免疫激素揭示分层狼疮患者的分子网络。细胞。2016; 165:551-65。

    CASPubMed.公共医学中心文章谷歌学者

  52. 52。

    乌鸦MK,I型。在狼疮的发病机制中,干扰素。J Immunol Baltim Md 1950. 2014; 192:5459-68。

    CAS谷歌学者

  53. 53。

    Sjögren综合征的干扰素特征:独特的生物标志物如何识别特定疾病的潜在炎症和免疫病理机制。Immunol前面。2013;4:142。

    PubMed.公共医学中心文章CAS谷歌学者

  54. 54。

    Rodríguez-carrioJ,Alperi-lópezm,洛尼斯P,Ballina-GarcíaFJ,苏拉斯A.类风湿性关节炎中I型干扰素特征的异质性:其用作临床生物标志物的潜在限制。前免疫。2017; 8:2007。

    PubMed.文章CAS谷歌学者

  55. 55.

    郭强,王勇,徐东,徐建军。类风湿关节炎的病理机制与现代药物治疗。骨杂志2018;6:15。

    PubMed.公共医学中心文章CAS谷歌学者

  56. 56.

    刘志强,刘志强,刘志强,等。干扰素调控基因的更新数据库。核酸Res. 2013;41(数据库版):D1040-6。

    CASPubMed.谷歌学者

  57. 57.

    波拉德KM,柯维DM,图米CB,莫里斯KV,科诺DH。γ干扰素与全身自身免疫。越是加大医学。2013;16:123-31。

    PubMed.公共医学中心谷歌学者

  58. 58.

    Toro-Domínguez D, Carmona-Sáez P, Alarcón-Riquelme ME。通过基因表达meta分析揭示类风湿关节炎、系统性红斑狼疮和Sjögren综合征之间的共同特征。关节炎研究。2014。https://doi.org/10.1186/s13075-014-0489-x.

    文章PubMed.公共医学中心谷歌学者

  59. 59。

    Toro-Domínguez D, Martorell-Marugán J, López-Domínguez R, García-Moreno A, González-Rumayor V, Alarcón-Riquelme ME,等。ImaGEO:来自GEO数据库的整合基因表达meta分析。生物信息学报2019;35:80 - 2。

    文章CAS谷歌学者

  60. 60.

    Cerami E,Gao J,Dogrusoz U,Gross,Sumer So,Aksoy Ba等。CBIO癌基因组学门户:开放式平台,用于探索多维癌症基因组学数据。癌症Discov。2012; 2:401-4。

    文章谷歌学者

  61. 61.

    Díez Villanueva A,Mallona I,Peinado MA.《探索人类癌症中DNA甲基化和基因表达数据的交互式观察者》,表观基因染色质,2015年。https://doi.org/10.1186/s13072-015-0014-8

    文章谷歌学者

下载参考

致谢

我们要感谢Adex中包含的数据集的所有作者。我们还要感谢AlbertoRamírez在我们的服务器中的Adex期间为他的技术支持提供了他的技术支持。这项工作是JMM博士论文的一部分。jmm于西班牙格拉纳达大学的生物医学中注册了博士计划。

资金

这项工作的部分资金来自联邦政府/安达卢西亚军政府-经济与社会理事会(Grant CV20-36723)、萨卢德理事会(Grant PI-0173-2017)和欧盟/EFPIA创新药物倡议联合事业PRECISEADS(115565)。JMM的部分资金由工业竞争部经济部提供。没有一个资助机构在研究设计、数据收集、分析和解释以及手稿撰写方面发挥任何作用。

作者信息

从属关系

作者

贡献

PCS构思并指导了该项目。JMM设计了web功能和界面,并编写了处理管道。rworld处理数据。AGM设计并实现了SQL数据库及其与网站的通信。DTD、KT、GGL和FA对用例有贡献。JD、AMG和MPC实现了HiPathia分析。JSR实现了狂欢节分析。VGR、MAR、JAVG和GB对软件进行了测试,并提供了改进。稿件由PCS, JMM, RLD和AGM撰写。所有作者阅读并批准了最终的手稿。

相应的作者

对应于佩德罗Carmona-Saez

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

JMM和VGR是Atrys Health S.A.的雇员,该公司与公布的结果没有利益冲突。JSR已获得葛兰素史克和赛诺菲的资助,并有望获得Travere Therapeutics的咨询费。其余的作者宣称他们没有相互竞争的利益。

附加信息

出版说明

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1。

adex数据库中包含的数据集的描述。此表包含有关adex中包含的每项研究的信息,疾病,平台,样本大小和参考(如果可用)。

附加文件2。

每种疾病的重要生物标志物。Excel电子表格,包含在每个疾病的用例2中发现的重要生物标记物,包括每个基因的病例和对照样本之间的平均log2 FC。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Martorell-Marugán, J., López-Domínguez, R., García-Moreno, A。et al。自身免疫疾病中OMICS数据综合分析的综合数据库。欧宝娱乐合法吗22,343(2021)。https://doi.org/10.1186/s12859-021-04268-4

下载引用

关键字

  • 自身免疫性疾病
  • 数据库
  • 地理
  • 转录组学
  • 表观组织
  • 内容管理
  • 数据集
  • 干扰素的签名
  • 基因表达
  • 荟萃分析