跳到主要内容

WGCNA:用于加权相关网络分析的R包

抽象的

背景

相关网络越来越多地用于生物信息学应用。例如,加权基因共表达网络分析是用于描述微阵列样本中基因之间的相关模式的系统生物学方法。加权相关网络分析(WGCNA)可用于查找高度相关基因的簇(模块),总结使用模块EIGENGENE或血内内容力基因的这种簇,​​用于将模块与外部样品特征相关联(使用EIGENGENE网络方法),以及计算模块成员资格措施。相关网络促进基于网络的基因筛选方法,其可用于识别候选生物标志物或治疗靶标。这些方法已成功地应用于各种生物背景中,例如,癌症,小鼠遗传学,酵母遗传学和脑成像数据分析。虽然已经在单独的出版物中描述了相关网络方法的部分,但需要提供用户友好,全面和一致的软件实现和随附的教程。

结果

WGCNA R软件包是用于执行加权相关网络分析的各个方面的R功能的全面集合。该包装包括用于网络结构的功能,模块检测,基因选择,拓扑特性计算,数据仿真,可视化和与外部软件的接口。与R包一起,我们还提供了R软件教程。虽然方法开发是由基因表达数据的激励,但是底层数据挖掘方法可以应用于各种不同的设置。

结论

WGCNA包提供了用于加权相关网络分析的R功能,例如,基因表达数据的共表达网络分析。R包装以及其源代码和附加材料可自由获取http://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

背景

相关网络越来越多地用于生物学来分析大,高维数据集。基于可以由可以描述的定量测量之间的相关性构建相关网络N.×m矩阵X= (X伊尔]行指数对应于网络节点(一世= 1,。。。,N.)及列索引(L.= 1,。。。,m)对应于样本测量:

X = [ X 一世 j ] = X 1 X 2 X N. 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiwaGLaeyypa0Jaei4waSLaemiEaG3aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGGDbqxcqGH9aqpdaqadaqaauaabeqaeeaaaaqaaiabdIha4naaBaaaleaacqaIXaqmaeqaaaGcbaGaemiEaG3aaSbaaSqaaiabikdaYaqabaaakeaacqWIVlctaeaacqWG4baEdaWgaaWcbaGaemOBa4gabeaaaaaakiaawIcacaGLPaaaaaa @ 422B @
(1)

我们指的是一世th行X一世作为一世-节点配置文件穿过m样品测量。

有时是一种定量测量(称为样品特质)提供用于列的列X。例如,T.=(T.1。。。,T.m)可以测量存活时间,否则它可能是二元指示剂变量(疾病状态)。抽象地说,我们定义样品特质T.作为矢量m对应于数据矩阵列的组件X。样品特征可用于定义节点意义测量。例如,一个基于特征的节点意义测量可以定义为相关关系的绝对值一世-th节点配置文件X一世和样品特质

T.GS.一世= |天哪X一世T.)|。(2)

或者,相关测试p值[1或者基于回归的p值,用于评估统计学意义X一世和样品特质T.可用于定义基于p值的节点意义测量,例如通过定义

GS.一世= -log.P.一世(3)。

相关网络方法的基本原理是使用网络语言来描述行之间的成对关系(相关性)X(等式1)。尽管存在用于分析相关矩阵的其他统计技术,但是网络语言对生物学家特别直观,并且允许简单的社交网络类比。相关网络可用于解决许多分析目标,包括以下内容。首先,相关网络可用于查找互连节点的群集(模块)。因此,网络模块是一组行X(式1)根据适当定义的互联度度量紧密相连。

第二个分析目标是通过一个代表总结给定模块的节点概要,例如一个高度连接的hub节点,它位于模块的中心位置。将分析重点放在模块或其代表上,相当于一种基于网络的数据缩减方法。将模块而不是节点关联到一个样本特征可以缓解多重测试问题。

第三个分析目标是识别“重要”模块。朝向此结束,节点意义测量可用于识别具有高平均节点的模块(称为模块意义)。

第四个分析目标是在识别的模块接近近距离注释所有网络节点。这可以通过定义将二进制模块成员资格指示符推广到定量测量的模块成员资格的模糊测量来实现。模块成员资格的模糊措施可用于识别位于两个或多个模块之间的中间的节点。

第五分析目标是定义给定种子集的网络邻居。直观地说,邻域由高度连接到给定的节点集的节点组成。因此,邻域分析促进了逐个关联的筛选策略,用于查找与给定的一组有趣节点相互作用的节点。

第六分析目标是基于节点筛选标准筛选节点,该节点可以基于节点意义测量,在网络拓扑特性上(例如高连接)等。

第七分析目标是将一个网络与另一个网络相比。该差分网络分析可用于识别不同条件之间的连接模式或模块结构的变化。第八分析目标是在两个或更多网络之间找到共享模块(共识模块分析)。由于根据定义共识模块是多个网络中的构建块,因此它们可能代表网络的基本结构属性。

上述分析目标的不完整枚举表明,相关网络可以用作数据探索技术(类似于集群分析,因子分析或其他维度减少技术)和作为筛选方法。例如,相关网络可用于筛选与样本特征有关的模块和血管显示集线器。相关网络允许一个生成应在独立数据或设计验证实验中验证的可测试假设。

基因共表达网络

下面,我们将重点讨论基因共表达网络,它代表了相关网络方法的一个主要应用。共表达网络被发现在描述基因转录本之间的成对关系方面很有用[2-9.]。在共同表达网络中,我们将节点称为“基因”,到节点配置文件X一世作为基因表达分布,并向节点意义测量GS.一世作为基因意义措施。可以在表格中找到重要的网络相关术语词汇表1。在这里,我们介绍了一个R软件包,总结并扩展了我们之前的加权基因共表达网络分析(WGCNA)的工作[5.10.-12.]。WGCNA已被用于分析来自脑癌的基因表达数据[10.],酵母细胞周期[13.],小鼠遗传学[14.-17.],灵长类动物的脑组织[18.-20.], 糖尿病 [21.]慢性疲劳患者[22.植物[23.]。虽然这些出版物已经以各种形式提供了R软件代码,但是需要一个综合的R包来总结和标准化方法和功能。为了解决这一需求,我们介绍了WGCNA R包,它还包括用于共表达网络分析的增强和新功能。

表1 WGCNA术语词汇表。

结果

数字1概述典型分析步骤以及它们背后的理由。为了确定共表达模块是否在生物学上有意义,可以使用功能性富集和基因本体信息。

图1
图1

WGCNA方法概述。该流程图介绍了加权基因共表达网络分析的主要步骤的简要概述。

WGCNA包中包含的函数概述

WGCNA包包含一套全面的功能,用于执行大型高维数据集的相关网络分析。WGCNA包中的功能可分为以下类别:1。网络建设;2.模块检测;3.模块和基因选择;4.拓扑特性的计算;5.数据仿真;6.可视化;7.与外部软件包接口。在我们的网站上发布的R封装手册中提供了一个详细描述的已实现功能的详尽符号列表。在这里,我们简要概述了包装的主要功能,并突出了新的贡献。

第1类:网络建设的功能

网络完全指定了网络邻接矩阵A.ij,一个对称的N.×N.具有条目中的矩阵,其组件中的[0,1]一种ij编码节点之间的网络连接强度一世j。要计算邻接矩阵,称为中间数量共同表达相似之处sij首先定义。默认方法定义了共表达相似性S.ij作为节点配置文件之间的相关系数的绝对值一世jS.ij= |天哪X一世Xj)|。

WGCNA包还实现替代的共同表达措施,例如,更强大的相关性的相关性(Biweight Medcorelelation [24.或者是矛曼的相关)。可以定义符号的共表达措施以跟踪共表达信息的符号。为方便起见,我们定义了共表达相似度测量,使得它在[0,1]中取得值。

使用阈值处理过程,将共表达相似性转化为邻接。一个未加权的网络邻接一种ij基因表达谱之间X一世Xj可以通过硬阈值来定义共表达相似性S.ij作为

一种 一世 j = { 1 如果 S. 一世 j τ. ; 0. 除此以外 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpdaGabaqaauaabaqaciaaaeaacqaIXaqmaeaacqqGPbqAcqqGMbGzcqqGGaaicqWGZbWCdaWgaaWcbaGaemyAaKMaemOAaOgabeaakiabgwMiZkabes8a0jabcUda7aqaaiabicdaWaqaaiabb + gaVjabbsha0jabbIgaOjabbwgaLjabbkhaYjabbEha3jabbMgaPjabbohaZjabbwgaLjabcYcaSaaaaiaawUhaaaaa @ 4E15 @
(4)

在哪里τ.为硬性阈值参数。因此,两个基因是相连的(一种ij= 1)如果其表达式配置文件之间的绝对相关性超过(硬)阈值τ.。硬阈值过程在函数signumadjacencyfunction中实现。虽然未加权网络被广泛使用,但它们不反映底层的共表达信息的连续性,从而可能导致信息丢失。相比之下,加权网络允许邻接在0和1之间的连续值之间的邻接值。通过将共表达相似性提高到功率,可以定义称重的网络邻接[5.10.]:

一种 一世 j = S. 一世 j β 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpcqWGZbWCdaqhaaWcbaGaemyAaKMaemOAaOgabaGaeqOSdigaaOGaeiilaWcaaa @ 3841 @
(5)

β≥1。功能邻接从表达数据计算邻接矩阵。等式的邻接5.意味着加权邻接一种ij在两个基因之间与它们在对数标度上的相似性成比例,日志一种ij)=β×日志S.ij)。加权和非加权网络的邻接函数都需要用户选择阈值参数,例如通过应用近似无标度拓扑准则[5.]。该包提供函数挑选,逼近的挑选,有助于选择参数,以及用于评估网络是否呈现规模无拓扑的功能ScaleFreeplot。数字2A显示了模拟表达式数据中的绘图尺度自由拓扑的绘图。

图2.
图2.

网络可视化图。A.全网络连接分发的日志记录曲线图。这X-axis显示整个网络连接的对数,y- 相应频率分布的对数。在此绘图上,分布大致遵循直线,该直线被称为无垢无尺度拓扑。B.古典多维缩放结果。模块倾向于在此绘图中形成单独的“手指”。血管显示枢纽基因位于手指尖端。C.网络热图绘图。分层聚类树形图中的分支对应于模块。颜色编码的模块成员资格显示在下面的彩色条和树木图右侧。在热图中,通过逐渐更饱和的黄色和红颜色表示高共表达互连。模块对应于高度互连基因的块。 Genes with high intramodular connectivity are located at the tip of the module branches since they display the highest interconnectedness with the rest of the genes in the module.

第2类:模块检测的功能

一旦网络构造,模块检测通常是一个逻辑的下一步。模块定义为密集相互连接的基因的簇。[中的几种网络互连措施25.]。默认情况下,我们使用拓扑重叠度量[5.25.-27.因为它在几个应用程序中工作得很好。WGCNA使用无监督聚类识别基因模块,即不使用先验定义的基因集。用户可以选择几种模块检测方法。默认方法是使用标准R函数hclust [28.];分层聚类树木图的分支对应于模块,可以使用多种可用的分支切割方法之一来识别,例如恒定高度切割或两个动态分支切割方法[29.]。

在图中2C我们将基因网络的网络热示例图(互连曲线图)与相应的分层聚类树形图和所得模块一起。数字2B.通过多维缩放图提供模块结构的替代可视化(标准R函数cmdscale)。

分层群集的一个缺点是,可以难以确定数据集中存在多少(如果有)群集。虽然动态树木切割方法的高度和形状参数提供了对分支切割和模块检测的改进的灵活性,但它仍然是一个开放的研究问题如何选择最佳切割参数或如何估计数据集中的群集数[30.]。虽然我们的默认参数值在多个应用程序中工作得很好,但在实践中,我们建议执行集群稳定性/鲁棒性分析。共表达模块可以反映真正的生物信号(例如途径),或者它可能反映噪声(例如,技术伪影,组织污染或假阳性)。为了测试所识别的模块是否在生物学上有意义,可以使用基因本体信息(功能性富集分析)。朝此目的,我们提供了一个R教程,描述了如何使用相关的外部软件包和数据库接口WGCNA包。

总结模块的配置文件

已经实施了几种选择,总结了给定模块的基因表达轮廓。例如,函数moduleegenes表示模块表达式问:-th模块由模块eigengeneE.问:,定义为表达式矩阵的第一个主成分。eigengene.E.可以认为是加权平均表达谱。特征基因计算包含了在包impute中实现的缺失值的imputation [31.32.]。或者,用户可以使用岩腔内连通性度量来定义作为模块代表的最高连接的血腔内集线基因。人们可以表明,血管显示轮毂基因与模块egengene高度相关[11.]。

模块隶属度的模糊测度

分层集群和大多数其他标准集群方法,如围绕Medoids分区(PAM) [28.导致二进制模块赋值,即一个节点要么在模块内,要么在模块外。在某些应用中,为所有节点定义一个连续的、模糊的模块成员度量可能是有利的。这种度量对于识别位于模块边界附近的节点或位于两个或多个模块之间的节点特别有用。如[11.],节点的模块成员资格一世在模块中问:可以定义为

K. C O. R. 一世 问: = 天哪 X 一世 E. 问: 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaakiabcQda6iabg2da9iabbogaJjabb + gaVjabbkhaYjabcIcaOiabdIha4naaBaaaleaacqWGPbqAaeqaaOGaeiilaWIaemyrau0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGGSaalaaa @ 47F6 @
(6)

在哪里X一世是节点的配置文件一世E.问:是模块的模块eigengene问:。模块成员措施 K. C O. R. 一世 问: 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ 位于[-1,1]中,指定节点的程度如何一世是模块问:问:= 1,。。。,问:。大| K. C O. R. 一世 问: 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ |,更类似的节点一世是对象的eigengene问:-th模块。在一些出版物中[14.15.], K. C O. R. 一世 问: 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ 基于符号模块特征基因(ME)的连通性度量K.。这就是我们将相应的R函数命名为signedKME的原因。

自动块级模块检测

许多微阵列基因表达测量报告了成千上万个不同基因(或探针)的表达水平。由于内存大小和处理器速度限制,建立和分析如此大量节点之间的完整网络可以在计算上具有挑战性。WGCNA包包含几种解决这一挑战的改进。功能BlockWiseModules旨在处理大数据集中的网络结构和模块检测。使用k-means聚类的变体(函数投影kemeans),函数首先将群集节点进入大型群区,称为块(功能ropersivekmeans)。接下来,将分层群集应用于每个块,并且模块被定义为所得树形图的分支。为了跨块综合模块检测结果,执行自动模块合并步骤(功能MergeCloseModules),其合并其Eigengenes高度相关的模块。块明智的方法的时间和内存节省是大量的:标准,单块网络分析N.节点需要O.N.2)内存和O.N.3.)计算,而具有块大小的块明智的方法N.B.只需要O. N. B. 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa@2FA6@ )内存和O.N. N. B. 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa@2FA6@ )计算,在标准计算机上的7 000块中进行分析。

共识模块检测

在处理代表不同网络的多个邻接矩阵时,可以找到它可能有趣共识模块,定义为全部或大多数网络中存在的模块[12.]。直观地说,只有当所有的输入网络都同意连接时,两个节点才应该在一个共识网络中连接。这自然建议将两个节点之间的共识网络相似度定义为输入网络相似度的最小值。在某些情况下,用合适的分位数(例如第一个分位数)代替最小值可能是有用的,因为由此产生的度量可能更稳健。共识模块检测可以一步一步执行,以获得最大的控制和灵活性,或者一步使用函数blockwiseConsensusModule,该函数以块方式计算跨给定数据集的共识模块,类似于单个数据集的块方式模块检测。

第3类:模块和基因选择的功能

在生物学上或临床上显着的模块和基因是许多共表达分析的主要目标。生物或临床意义的定义取决于正在考虑的研究问题。抽象地说,我们定义了作为函数的基因意义措施GS.将非负数分配给每个基因;越高GS.一世毕传了生物学上重要的是基因一世。在功能性富集分析中,基因意义措施可能表明途径成员。在基因敲除实验中,基因意义可能表明淘汰基础。微阵列样品特质T.可用于定义基于特征的基因意义措施,作为特征与表达轮廓之间的绝对相关性,等式2。模块显著性的度量可以定义为跨模块基因的平均基因显著性(图3A)。在处理样品特质时T.,模块egengene之间的统计显着性衡量标志E.和特质T.可以例如使用从非变量回归模型中获得的相关性(等式2)或P值(等式3)之间的相关性(等式2)E.T.。具有高特征意义的模块可以代表与样品特征相关的途径。与特征相关的模块中具有高模块成员资格的基因(图3B.)是进一步验证的自然候选人[10.14.15.18.]。

图3.
图3.

模块和eigengene网络图。A.跨模块的平均基因意义的Barplot。在该例子中,我们使用基于特征的基因意义,方程式2。模块中的平均基因意义越高,模块对临床特征的临床特征越大。B.基因意义的散点图(y-axis)与模块成员资格(X-axis)中最重要的模块(绿色模块,见面板A)。在与感兴趣的性状相关的模块中,模块成员度高的基因通常也具有较高的基因重要性。C.模块特征基因(以颜色标记)的层次聚类树状图和微阵列样本特征y。D.在包括特质的特征网络中邻接的热线图曲线图y。Heatmap中的每一行和列对应于一个模块Eigengene(由颜色标记)或特征(标记为y)。在热图中,绿色表示低邻接(负相关),而红色表示高邻接(正相关)。

第4类:研究拓扑特性的功能

网络的许多拓扑属性可以使用网络概念简洁地描述,也称为网络统计或指标[11.33.]。网络概念包括整个网络连接(度),岩石连接,拓扑重叠,聚类系数,密度等网络概念等网络概念的差异分析可能揭示基因表达中的调节变化[15.18.]。WGCNA包实现了多种功能,例如SoftConnectivity,IntramodularConentiventy,Tomsimilarity,ClusterCoeF,NetworkConcepts,用于计算这些网络概念。基本R功能可用于创建这些概念的摘要统计信息,并用于测试其跨网络的差异。

用于测量集群结构的网络概念

基因聚类树木和汤姆剧情可视化互连模式通常表明存在大模块。网络理论提供了丰富的直观网络概念,用于描述集群树和热图中描绘的基因之间的成对关系[11.]。为了说明这一点,我们描述了以下两个网络概念。通过目视检查数字2C4B.,基因似乎是高度相互联系的,例如,绿松石模块基因在TOM图中形成了一个红色的正方形。这种模块基因间紧密联系的特性问:可以使用模块密度的概念来测量,该概念被定义为模块基因的平均邻接:

图4.
图4.

雌性小鼠肝脏表达数据的WGCNA分析。A.通过平均连杆等级聚类获得的基因树枝图。树木图下面的颜色行显示了由动态树切割确定的模块分配。B.基因网中拓扑重叠的热映射图。在热图中,每行和柱对应于基因,浅色表示低拓扑重叠,并且逐渐较暗的红色表示更高的拓扑重叠。沿着对角线的较暗的平方对应于模块。基因树木和模块分配沿左侧和顶部显示。C.模块EigEngenes的分层群集总结在聚类分析中发现的模块。树木图(META模块)的分支组合在一起呈正相关的eigengenes。D.特征网络中的邻接互联网的热图曲线图,包括特征重量。 Each row and column in the heatmap corresponds to one module eigengene (labeled by color) or weight. In the heatmap, green color represents low adjacency (negative correlation), while red represents high adjacency (positive correlation). Squares of red color along the diagonal are the meta-modules. E. A scatterplot of gene significance for weight (GS, Equation2)与模块成员身份(mm,方程式6.)在棕色模块中。GS和MM表现出非常显着的相关性,暗示棕色模块的轮毂基因也倾向于与重量高度相关。F.棕色模块中30个最高连接基因的网络。在该网络中,我们只显示相应拓扑重叠的连接高于0.08的阈值。

D. E. N. S. 一世 T. y 一种 问: = σ. 一世 σ. j 一世 一种 一世 j 问: N. 问: N. 问: - 1 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiraqKaemyzauMaemOBa4Maem4CamNaemyAaKMaemiDaqNaemyEaKNaeiikaGIaemyqae0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaqhaaqaaiabdMgaPjabdQgaQbqaaiabcIcaOiabdghaXjabcMcaPaaaaeaacqWGQbGAcqGHGjsUcqWGPbqAaeqacqGHris5aaqaaiabdMgaPbqabiabggHiLdaabaGaemOBa42aaWbaaeqabaGaeiikaGIaemyCaeNaeiykaKcaaiabcIcaOiabd6gaUnaaCaaabeqaaiabcIcaOiabdghaXjabcMcaPaaacqGHsislcqaIXaqmcqGGPaqkaaaaaa @ 5AE0 @
(7)

在哪里一种问:表示这一点N.问:×N.问:与模块基因形成的子网相对应的邻接矩阵问:。另一个有用的概念是聚类系数基因一世,这是对“派系”的一种衡量[34.]。具体来说,

C L. S. T. E. R. C O. E. F 一世 = σ. L. 一世 σ. m 一世 L. 一种 一世 L. 一种 L. m 一种 m 一世 { σ. L. 一世 一种 一世 L. 2 - σ. L. 一世 一种 一世 L. 2 } 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4qamKaemiBaWMaemyDauNaem4CamNaemiDaqNaemyzauMaemOCaiNaem4qamKaem4Ba8MaemyzauMaemOzay2aaSbaaSqaaiabdMgaPbqabaGccqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaWgaaqaaiabdMgaPjabdYgaSbqabaGaemyyae2aaSbaaeaacqWGSbaBcqWGTbqBaeqaaiabdggaHnaaBaaabaGaemyBa0MaemyAaKgabeaaaeaacqWGTbqBcqGHGjsUcqWGPbqAcqGGSaalcqWGSbaBaeqacqGHris5aaqaaiabdYgaSjabgcMi5kabdMgaPbqabiabggHiLdaabaWaaiWaaeaadaqadaqaamaaqababaGaemyyae2aaSbaaeaacqWGPbqAcqWGSbaBaeqaaaqaaiabdYgaSjabgcMi5kabdMgaPbqabiabggHiLdaacaGLOaGaayzkaaWaaWbaaeqabaGaeGOmaidaaiabgkHiTmaaqababaGaeiikaGIaemyyae2aaSbaaeaacqWGPbqAcqWGSbaBaeqaaiabcMcaPmaaCaaabeqaaiabikdaYaaaaeaacqWGSbaBcqGHGjsUcqWGPbqAaeqacqGHris5aaGaay5Eaiaaw2haaaaacqGGUaGlaaa @ 77AB @
(8)

在未加权网络中,clustercoef.一世如果只有基因的所有邻居,则等于1一世也与彼此相连。对于加权网络,0≤一种ij≤1意味着0≤clustercoef.一世≤1 (5.]。平均聚类系数已被用于测量网络中存在的模块结构的程度[26.34.]。

类别5:用模块化结构模拟微阵列数据的功能

简单但足够逼真的模拟数据通常对于评估新型数据挖掘方法来说往往是重要的。WGCNA包包括仿真功能SimulatedateSxpr,SimulateMultieXPR,SimulatedAtexpr5Modules,导致具有可自定义模块化(群集)结构的表达式数据集。用户可以通过指定一组种子Eigengenes,每个模块的种子Eigengenes选择模块化结构,每个模块都构建。模拟模块基因以表现出与种子的逐渐降低的相关性,这导致血管内连续较低的基因。用户可以指定模块大小和背景基因的数量,即模块之外的基因。可以模拟种子EIGENGENES以反映模块之间的依赖关系(函数simulategengenetwork)。

类别6:可视化功能

模块结构和表达式数据中的网络连接可以以几种不同的方式可视化。例如,可以通过使用功能划线仪来产生的基因基因连接的热图曲线图来可视化共表达模块结构。例子在图中提出2C4B.。另一种选择是多维尺度图;图中给出了一个示例2B.。模块之间的关系可以通过其Eigengenes的分层聚类,或者通过相应的EIGENGENE网络(功能标签为eATMAP)的热图曲线图来概述,或者在图中所示3C,D, 和4C,D。该包包括若干附加功能,旨在帮助用户可视化输入数据和结果。这些功能依赖于R和包中提供的基本绘图功能[35.]和领域[36.]。

第7类:与其他软件包接口的功能

为了增强WGCNA结果与其他网络可视化包和基因本体分析软件的集成,我们创建了几个r函数和相应的教程。例如,我们的R函数ExportNetWorkToVisant和ExportNorwworkTocyToscape允许用户以适合Visant的格式导出网络[37.]和cytoscape [38.], 分别。

我们的在线R教程还展示了如何用直接在r上直接提供的基因本体封装WGCNA结果,例如:Gosim [39.]。基于许多基因本体学的功能丰富分析软件程序,如David [40.],Amigo [41.],webgestalt [42.只需将基因标识符列出作为输入。Ingenueny途径分析允许用户输入基因表达数据或基因标识符。

鼠标数据应用程序

作为一种可以用WGCNA进行的分析类型的示例,我们描述了来自雌性小鼠的肝脏表达数据的网络分析。该分析的数据和生物学发现已描述于[14.]。简单地说,用超过23000个探针集的微阵列测量雌性小鼠肝脏的mRNA水平。除表达数据外,还测量了多个生理和代谢性状。由于计算上的原因,[14.,为了简单起见,我们将使用相同的一组基因(尽管我们注意到提出的软件包也能够处理所有的基因)。虽然我们确实使用相同的数据,模块检测方法略有不同,结果相似但不相同。用于执行此分析的代码是我们网页上的教程的一部分。

网络和18个识别的模块在图中示出4 a、B。要了解模块的生理学意义,我们将18个模块eigengenes与体重,胆固醇水平,胰岛素水平等生理特性相关联。完整的模块特征相关表在附带的教程中介绍。

在下文中,我们只将鼠标体重视为样品特征。以下三个模块的模块eIgengenes与体重高度相关:棕色(409个基因,重量相关R.= 0.59,相关性p值P.= 5×10-14)、红色(221个基因,R.= 0.51,P.= 3 × 10-10)和鲑鱼(91个基因,R.= 0.43,P.= 2×10-7)。

我们使用了在线软件David [40.]来确定与已知基因本体相关的三个体重相关模块是否显著富集。棕色模块在“糖蛋白”(P.= 2×10-24,本杰明校正)和“信号”(P.= 1×10-22)。红色模块富集在“细胞周期”(P.= 9×10-24)和“染色体”(P.= 5×10-20)。鲑鱼模块在“脂质合成”类别中最具显着富集(P.= 1×10-16)。总体而言,高浓缩分数表明这些模块确实是生物学上有意义的。

为了研究模块之间的关系,我们将其eigengenes相关联。通常,可以通过使用EIGENGENES(即节点对应于EIGENGENES之间的相关网络来研究模块之间的关系。在模块之间的这些元网络中,模块之间的邻接反映了模块EigEngenes之间的相关性,并且EigEngenes的模块称为Meta模块[12.]。诸如体重等的样品特征可以作为EIGENGENE网络的附加节点结合。样品特征和Eigengene之间的邻接有时被称为egengene意义[11.]。数字4C,D使用树木图(分层集群树)和热线图绘图描绘EIGENGENE网络。我们发现Eigengenes可能表现出高度显着的相关性,例如,红色和棕色模块高度相关。相关的EIGENGEN组对应于元模块,并且可识别为EIGENGENE树枝图的分支,并且作为沿着热图绘图的对角线的红线。数字4C.表示有四个元模块(分支)。体重落在元模块内,将蓝色,棕色,红色,三文鱼和黄色模块分组。在实践中,很难确定元模块的底层模块是否真正截然不同,或者是否应该合并。有时基因本体信息可以提供一些线索。

有趣的是在体重相关模块中找到居中位于体重相关模块中,因为它们的表达配置文件表示整个模块的[11.]。要查找血管内集线器基因,可以使用模块成员措施K.,等式6.。数字4E显示了基于体重基因的基因意义测量之间的散点图GS.一世,等式2和模块成员在棕色模块中。

基因意义和模块隶属之间的高相关意味着棕色模块中的常规也与体重高度相关。这表明基因意义和模块隶属(颅内连接)可以在系统生物筛选方法中组合用于寻找体重相关基因的生物筛选方法[15.]。数字4F.显示了棕色模块中最相关基因的Visant图。这一简要描述说明了WGCNA如何产生需要在独立数据集中验证的可测试假设。本示例和图的基础教程4.可以在我们的网页上找到。

教程

我们提供一套全面的在线教程,通过关联网络分析的主要步骤指导用户。教程提供R代码用户可以将和粘贴到r会话中,以及输入和输出的注释和解释。该代码被组织成短部分,每个部分地址解决特定任务。特别是,教程涵盖了以下主题:相关网络施工,逐步和自动模块检测,共识模块检测,eigengene网络分析,差异网络分析,与外部软件包的接口以及数据仿真。教程使用模拟和实际基因表达数据集。

讨论

WGCNA包与R的其他网络相关封装互补,例如Bioconductor中的一般网络结构[6.],基因网络浓缩分析[43.]基因共表达网络的功能分析[44.], 和别的。虽然大多数现有包装仅关注未加权网络,但WGCNA实现了加权和未加权相关网络的方法。WGCNA可以用作数据探索工具或作为基因筛选(排名)方法。例如,WGCNA可用于探索网络中的模块(群集)结构,以测量基因和模块之间的关系(模块成员信息),探讨模块(Eigengene网络)之间的关系,以及秩序基因之间的关系O.R.mO.dules (e.g. with regard to their relationship with a sample trait). WGCNA can be used to generate testable hypotheses for validation in independent data sets. For example, WGCNA may suggest that a module (e.g. a putative pathway) is associated with a disease outcome. Since correlation networks are based on correlations between quantitative variables, one can use a correlation test p-value [1或者基于回归的p值,用于评估变量对之间的统计显着性。例如,将显着性级别连接到模糊模块隶属度措施是简单的 K. C O. R. 一世 问: 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ 。标准微阵列数据挖掘技术与基因共表达网络分析之间的关系在[11.]。

用户应该意识到WGCNA包中实现的方法的局限性。首先,WGCNA假设微阵列数据已经经过适当的预处理和标准化。为了规范化表达式数据,几个R函数已经在Bioconductor包中实现[45.]。虽然所有归一化方法都与WGCNA兼容,但我们建议使用生物学最有意义的归一化方法关于所考虑的应用程序。其次,类似于大多数其他数据挖掘方法,在处理技术人工制品,组织污染物或实验设计不良时,WGCNA的结果可以偏置或无效。第三,虽然已经实现了几种共表达模块检测方法,但包不提供确定哪种方法最好的方法。虽然在几个真实数据应用程序中已经良好地执行了默认的分层群集方法,但是希望将这些和其他方法与多个真实的基准数据集进行比较。第四,此包仅限于无向网络。在文献中呈现了定向边缘和构建定向网络的方法,例如在[46.-48.]。

结论

WGCNA R包提供了一套全面的功能来执行加权相关网络分析。WGCNA包还可以用来描述基因表达谱、图像数据、遗传标记数据、蛋白质组学数据等高维数据之间的相关结构。

可用性和需求

项目名称:WGCNA R包

项目主页:欧宝直播官网apphttp://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

操作系统:平台独立

编程语言:R

许可证:GNU GPL 3

致谢

我们要感谢董军,Tova Fuller, Dan Geschwind, Winden Kellen, Lin Wen, Jake Lusis, Mike Mason, Jeremy Miller, Paul Mischel, Stan Nelson, Mike Oldham, Angela Presson, Atila Van Nas和Lin Wang的有益讨论和建议。这项研究得到了P50CA092131、5P30CA016042-28和NS050151-01的部分资助。

参考

  1. 1。

    Fisher RA:在小样本推导的相关系数的“可能的误差”上。梅尔多斯1915,1:1-32。

    谷歌学术

  2. 2。

    周X,Kao MC,Wong W:基因表达数据的最短路径分析的转异质功能注释。美国国家科学学会主办2002,99(20):12783-12788。

    pmed中央CAS.文章PubMed.谷歌学术

  3. 3.

    Steffen M,Petti A,Aach J,D'Haeeleer P,教堂G:信号转导网络的自动建模。欧宝娱乐合法吗2002,3:34。

    pmed中央文章PubMed.谷歌学术

  4. 4.

    STUART JM,SEGAL E,Koller D,KIM SK:一种基因 - 用于全球保护遗传模块的基因共存网络。科学2003,302(5643):249-255。

    CAS.文章PubMed.谷歌学术

  5. 5。

    关键词:基因共表达网络,加权分析,遗传算法STAT APPL GEAT MOL BIOL2005,4:第17条。

    谷歌学术

  6. 6。

    Carey VJ,Gentry J,Whalen E,Gentleman R:Biocomiond中的网络结构和算法。生物信息学2005年,21日:135 - 136。

    CAS.文章PubMed.谷歌学术

  7. 7。

    Schaefer J,Strimmer K:一种推断大规模基因关联网络的经验贝叶斯方法。生物信息学2005,21(6):754-764。

    CAS.文章谷歌学术

  8. 8。

    Chuan Cl,Jen Ch,Chen Cm,Shieh GS:一种推断滞后遗传互动的模式识别方法。生物信息学2008,24(9):1183-1190。

    CAS.文章PubMed.谷歌学术

  9. 9。

    Cokus S,Rose S,Haynor D,Gronbech-Jensen N,Pellegrini M:在酵母酿酒酵母中建模细胞周期转录因子网络。欧宝娱乐合法吗2006年,7:381。

    pmed中央文章PubMed.谷歌学术

  10. 10。

    Horvath S,Zhang B,Carson M,Lu K,朱S,Felciano R,Laurance M,Zhae W,Shu Q,Lee Y,Scheck A,Liau L,Wu H,Geschwind D,Febbo P,Kornblum H,Cloughesy T,纳尔逊S,Mischel P:胶质母细胞瘤中的致癌信号网络分析将Aspm鉴定为新的分子靶标。美国国家科学学会主办2006,103(46):17402-17407。

    pmed中央CAS.文章PubMed.谷歌学术

  11. 11.

    霍维斯S,东杰:基因共表达网络分析的几何解释。PLoS计算生物学2008年。

    谷歌学术

  12. 12.

    Langfelder P,Horvath S:Eigengene网络用于研究共表达模块之间的关系。BMC系统生物学2007年,1:54。

    pmed中央文章PubMed.谷歌学术

  13. 13。

    Carlson Mr,张B,Fang Z,Horvath S,Mishel PS,Nelson SF:基因连接,功能和序列保护:来自模块化酵母共同表达网络的预测。BMC基因组学2006.,7(40):

    谷歌学术

  14. 14。

    Ghazalpour A,Doss S,Zhang B,Plaisier C,Wang S,Schadt E,Thomas A,Drake T,Lusis A,Horvath S:集成遗传和网络分析,表征与小鼠重量相关的基因。Plos Genetics.2006年,2 (8):e130。

    pmed中央文章PubMed.谷歌学术

  15. 15.

    Fuler T,Ghazalpour A,Aten J,Drake T,Lusis A,Horvath S:加权基因共同表达网络分析策略应用于小鼠体重。哺乳动物基因组2007,6(18):463-472。

    文章谷歌学术

  16. 16。

    Emilsson V,Thorleifsson G,Zhang B,Leonardson A,Zink F,朱J,Carlson S,Helgason A,Walters G,Gunnarsdottir S,Mouy M,Steinthorsdottir V,Eiriksdottir G,Bjornsdottir G,Reynisdottir I,Gudbjartsson D,Helgadotir A那Jonasdottir A, Jonasdottir A, Styrkarsdottir U, Gretarsdottir S, Magnusson K, Stefansson H, Fossdal R, Kristjansson K, Gislason H, Stefansson T, Leifsson B, Thorsteinsdottir U, Lamb J, Gulcher MJ, Reitman , Kong A, Schadt E, Stefansson K: Genetics of gene expression and its effect on disease.自然2008,452(7186):423-8。

    CAS.文章PubMed.谷歌学术

  17. 17。

    van nas a,guhathakurta d,王某,yehya s,horvath s,张b,ingram drake l,chaudhuri g,schadt e,drake t,arnold a,lusis a:阐明性腺激素在性尿基因中的作用表达网络。内分泌学2008年。

    谷歌学术

  18. 18。

    研究表明,人类和黑猩猩大脑中基因共同表达网络的保存与进化。美国国家科学学会主办2006,103(47):17973-17978。

    pmed中央CAS.文章PubMed.谷歌学术

  19. 19。

    米勒JA,Oldham MC,Geschwind DH:Alzheimer疾病和正常老化转录变化的系统水平分析。J Neurosci.2008,28(6):1410-1420。

    pmed中央CAS.文章PubMed.谷歌学术

  20. 20。

    Oldham MC,Konopka G,Iwamoto K,Langfelder P,Kato T,Horvath S,Geschwind DH:人类大脑中转录组的功能组织。自然神经科学2008,11(11):1271-1282。

    pmed中央CAS.文章PubMed.谷歌学术

  21. 21。

    Keller MP,Choi Y,Wang P,Belt Davis D,Rabaglia Me,Oler,Stapleton DS,Argmann C,Schueler KL,Edwards S,Steinberg Ha,Chaibub Neto E,Kleinhanz R,Turner S,Hellerstein Mk,Schadt EE,Yandell BS,KENDZIORSKI C,ATTIE AD:2型糖尿病的基因表达网络模型将细胞周期调节与糖尿病易感性联系起来。基因组res.2008,18(5):706-716。

    pmed中央CAS.文章PubMed.谷歌学术

  22. 22。

    Presson A,Sobel E,Papp J,Suarez C,惠斯勒T,Rajeevan M,Vernon S,Horvath S:集成加权基因同学网络分析与慢性疲劳综合征的应用。BMC系统生物学2008.,2(95):

    谷歌学术

  23. 23。

    Weston D,Gunter L,Rogers A,Wullschleger S:将基因,共抑制模块和分子签名连接到植物中的环境应激表型。BMC系统生物学2008.,2:

    谷歌学术

  24. 24。

    威尔科克斯RR:强大估计和假设检测介绍。学术出版社;1997.

    谷歌学术

  25. 25。

    YIP A,Horvath S:基因网络互连和广义拓扑重叠度量。欧宝娱乐合法吗2007,8:22。

    pmed中央文章PubMed.谷歌学术

  26. 26。

    Ravasz E,Somera A,Mongru D,Oltvai Z,BarabásiA:代谢网络中模块化的分层组织。科学2002,297(5586):1551-1555。

    CAS.文章PubMed.谷歌学术

  27. 27。

    李A,Horvath S:网络邻域分析,具有多节点拓扑重叠度量。生物信息学2007,23(2):222-231。

    文章PubMed.谷歌学术

  28. 28。

    Kaufman L,Rousseeuw P:在数据中查找组:集群分析介绍。纽约:John Wiley&Sons,Inc;1990年。

    谷歌学术

  29. 29。

    Langfelder P,Zhang B,Horvath S:从分层群集树定义群集:R的动态树木切割包。生物信息学2008年,24(5):719 - 720。

    CAS.文章PubMed.谷歌学术

  30. 30.

    Dudoit S, Fridlyand J:一种基于预测的重采样方法,用于估计数据集中的簇数。基因组医学杂志2002,3(7):Research0036。

    pmed中央文章PubMed.谷歌学术

  31. 31。

    Hastie T,Tibshirani R,Sherlock G,Eisen M,Brown P,Botstein D:忽略基因表达阵列的缺失数据。技术报告,斯坦福统计局1999年。

    谷歌学术

  32. 32。

    Troyanskaya O,Cantor M,Sherlock G,Brown P,Hastie T,Tibshirani R,Botstein D,Altman RB:DNA微阵列的缺失值估计方法。生物信息学2001,17(6):520-525。

    CAS.文章PubMed.谷歌学术

  33. 33。

    Dong J,Horvath S:了解模块中的网络概念。BMC系统生物学2007年,1:24。

    pmed中央文章PubMed.谷歌学术

  34. 34。

    Watts DJ,Strogatz Sh:'小世界'网络的集体动态。自然1998、393(6684):440 - 2。

    CAS.文章PubMed.谷歌学术

  35. 35。

    Dudoit S,Yang Y,Callow M,Speed T:用于在复制的cDNA微阵列实验中鉴定差异表达基因的统计方法。STATISTICA SINICA.2002年。

    谷歌学术

  36. 36。

    (2006)空间数据工具。美国国家大气研究中心技术代表2007. [http://www.image.ucar.edu/gsp/software/fields.]

    谷歌学术

  37. 37。

    胡智,史尼特金,戴利斯。系统生物学中网络的整合框架。短暂Bioinform2008,9(4):317-325。

    pmed中央CAS.文章PubMed.谷歌学术

  38. 38。

    Shannon P,Markiel A,Ozier O,Baliga NS,Wang JT,Ramage D,Amin N,Schwikowski B,IDEKER T:Cytoscape:用于生物分子交互网络的集成模型的软件环境。基因组研究2003,13(11):2498-2504。

    pmed中央CAS.文章PubMed.谷歌学术

  39. 39。

    Frohlich H,Speer N,Poustka A,Beiszbarth T:Gosim - 一个R-Package,用于计算术语和基因产品之间的信息理论逐渐相似之处。欧宝娱乐合法吗2007.,8:

    谷歌学术

  40. 40.

    Dennis G,Sherman B,Hosack D,Yang J,Gao W,Lane H,Lempicki R:David:用于注释,可视化和集成发现的数据库。基因组医学杂志2003年,4 (5):P3。

    文章PubMed.谷歌学术

  41. 41.

    Ashburner M,Ball Ca,Blake Ja,Botstein D,Butler H,Cherry JM,Davis Ap,Dolinski K,Dwight SS,EPPIG JT,Harris Ma,Hill DP,ISSEL-Tarver L,Kasarskis A,Lewis S,Matese JC,Richardson Je,Ringwald M,Rubin Gm,Sherlock G:基因本体:生物学统一的工具。NAT Genet.2000,25:25-29。

    pmed中央CAS.文章PubMed.谷歌学术

  42. 42.

    张B,Kirov S,Snoddy J:WebGestAlt:一种用于探索各种生物背景中基因集的集成系统。核酸res.2005,33(Web服务器问题):W741-W748。

    pmed中央CAS.文章PubMed.谷歌学术

  43. 43。

    Liu M,Liberzon A,Kong SW,Lai Wr,Park PJ,Kohane是,KASIF S:3型糖尿病模型中受影响的生物过程的网络分析。Plos Genet.2007年,3 (6):e96。

    pmed中央文章PubMed.谷歌学术

  44. 44。

    基于非监督多实例学习的基因组数据功能分析。在机器学习:ECML 2006。Springer Berlin / Heidelberg;2006年:186-197。

    谷歌学术

  45. 45。

    绅士R,Huber W,Carey V,Irtizarry R,Dudoit S:使用R和Biocumon的生物信息学和计算生物学解决方案。在。Springer-Verlag纽约;2005年。

    谷歌学术

  46. 46。

    OPGEN-RHEIN R,Strimmer K:从与因果网络的相关性:一个简单的近似学习算法及其在高维植物基因表达数据中的应用。BMC系统生物学2007.,1:

    谷歌学术

  47. 47。

    ATEN J,FURER T,LUSIS A,Horvath S:使用遗传标记在定量特征网络中定向边缘:NEO软件。BMC系统生物学2008.,2:

    谷歌学术

  48. 48。

    Chaibub Neto E,Ferrara CT,Attie Ad,Yandell BS:推断出占状群体的因果表型网络。遗传学2008,179(2):1089-1100。

    pmed中央文章PubMed.谷歌学术

下载参考

作者信息

隶属关系

作者

通讯作者

对应于史蒂夫·霍法

额外的信息

作者的贡献

这两个作者都共同开发了这些方法并写了这篇文章。PL将功能打包到R包中。这位作者都读到并批准了最终手稿。

作者的原始提交的图像文件

权利和权限

本文在BioMed Central Ltd.的许可下发布了这是一个开放的访问文章,根据欧宝体育2021足球欧洲杯买球平台Creative Commons归因许可(http://creativeCommons.org/licenses/by/2.0.),允许在任何媒介上不受限制地使用、分发和复制,但前提是原稿被适当引用。

重印和权限

关于这篇文章

引用这篇文章

Langfelder,P.,Horvath,S.WGCNA:用于加权相关网络分析的R包。欧宝娱乐合法吗9,559(2008)。https://doi.org/10.1186/1471-2105-9-559.

下载引用

关键字

  • 相关网络
  • 模块成员资格
  • 模块eigengene.
  • 棕色模块
  • 分层群体树木图
\