跳到主要内容

加权相关网络分析的R包

摘要

背景

相关网络在生物信息学应用中得到越来越多的应用。例如,加权基因共表达网络分析是一种系统生物学方法,用于描述基因在微阵列样本之间的相关模式。加权相关网络分析(WGCNA)可用于寻找高度相关基因的聚类(模块),使用模块特征基因或模块内hub基因对这些聚类进行总结,使模块彼此之间以及与外部样本特征相关联(使用特征基因网络方法)。并用于计算模块的隶属度。相关网络促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶点。这些方法已成功应用于各种生物学背景,如癌症、小鼠遗传学、酵母遗传学和脑成像数据分析。虽然相关网络方法的部分已在单独的出版物中进行了描述,但有必要提供一个用户友好的、全面的、一致的软件实现和附带的教程。

结果

WGCNA R软件包是R函数的综合集合,用于执行加权相关网络分析的各个方面。该软件包包括网络构建、模块检测、基因选择、拓扑特性计算、数据模拟、可视化以及与外部软件接口的功能。除了R软件包,我们还提供R软件教程。虽然方法的开发是由基因表达数据推动的,但底层的数据挖掘方法可以应用于各种不同的环境。

结论

WGCNA软件包为加权相关网络分析提供了R函数,如基因表达数据的共表达网络分析。R包及其源代码和其他资料可在以下网站免费获得http://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

背景

在生物学中,关联网络越来越多地被用于分析大型、高维数据集。相关网络是建立在定量测量之间的相关性的基础上的,这些相关性可以被描述n×矩阵X= (x伊尔,其中行索引对应于网络节点(= 1,…,n)和列索引(l= 1,…,)对应于样本测量值:

X = x j = x 1 x 2 x n MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiwaGLaeyypa0Jaei4waSLaemiEaG3aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGGDbqxcqGH9aqpdaqadaqaauaabeqaeeaaaaqaaiabdIha4naaBaaaleaacqaIXaqmaeqaaaGcbaGaemiEaG3aaSbaaSqaaiabikdaYaqabaaakeaacqWIVlctaeaacqWG4baEdaWgaaWcbaGaemOBa4gabeaaaaaakiaawIcacaGLPaaaaaa@422B@
(1)

我们指的是th行x随着-th节点配置文件穿过样品测量。

有时定量测量(称为样本特征)提供用于列的列X.例如,T=(T1,…,T)可以测量生存时间,也可以是一个二元指标变量(疾病状态)。抽象地说,我们定义了一个样本特征T作为矢量与数据矩阵的列相对应的组件X.样本特征可以用来定义节点显著性测度。例如,一个基于特质节点意义的措施可以定义为两个变量之间相关性的绝对值th节点配置文件x以及样本特征

TGS.= |天哪xT) |。(2)

或者,相关测试p值[1或以回归为基础的p值来评估之间的统计显著性x以及样本特征T可以用来定义基于p值的节点显著性度量,例如通过定义

GS.= -logp(3)。

相关网络方法背后的基本原理是使用网络语言来描述行之间的成对关系(相关性)X(公式1)尽管存在其他统计技术来分析相关矩阵,网络语言对生物学家来说是特别直观的,并允许简单的社会网络类比。相关网络可用于解决包括以下在内的许多分析目标。首先,关联网络可以用来寻找相互连接节点的集群(模块)。因此,网络模块是一组行X(公式1)根据适当定义的互连性度量而紧密相连。

第二个分析目标是通过一个代表来总结给定模块的节点概要,例如,一个集中位于模块中的高度连接的集线器节点。将分析集中在模块或它们的代表相当于一种基于网络的数据简化方法。将模块而不是节点关联到一个样本特征可以缓解多重测试问题。

第三个分析目标是识别“重要”模块。朝向此结束,节点意义测量可用于识别具有高平均节点的模块(称为模块意义)。

第四个分析目标是根据所有网络节点与已识别模块的距离来注释它们。这可以通过定义模块成员关系的模糊度量来实现,该度量将二进制模块成员关系指标概括为定量度量。模块隶属度的模糊度量可以用来识别位于两个或多个模块之间和接近它们的节点。

第五个分析目标是定义给定节点种子集的网络邻域。直观地说,一个邻居由节点组成,这些节点与给定的节点集高度相连。因此,邻域分析有助于通过关联筛选策略找到与给定的感兴趣节点集交互的节点。

第六分析目标是基于节点筛选标准筛选节点,该节点可以基于节点意义测量,在网络拓扑特性上(例如高连接)等。

第七分析目标是将一个网络与另一个网络相比。该差分网络分析可用于识别不同条件之间的连接模式或模块结构的变化。第八分析目标是在两个或更多网络之间找到共享模块(共识模块分析)。由于根据定义共识模块是多个网络中的构建块,因此它们可能代表网络的基本结构属性。

上述的分析目标显示不完整的枚举相关网络可以用来作为数据探索性技术(类似聚类分析,因子分析,或其他尺寸减小技术)和作为筛选方法。例如,相关网络可以用于筛选,涉及到的样品的性状模块和intramodular集线器。相关网络允许一个以生成应该在独立的数据或在设计的验证实验进行验证检验的假设。

基因Co-Expression网络

接下来,我们将重点讨论基因共表达网络,它代表了相关网络方法的主要应用。共表达网络被发现对描述基因转录本之间的成对关系很有用[2-9.]. 在共表达网络中,我们将节点称为“基因”,即节点配置文件x作为基因表达谱,并对节点进行显著性度量GS.作为基因显著性度量。表中提供了重要网络相关术语的词汇表1. 这里我们介绍一个R软件包,它总结和扩展了我们早期关于加权基因共表达网络分析(WGCNA)的工作[5.10.-12.].WGCNA已被用于分析脑癌的基因表达数据[10.]酵母细胞周期[13.],小鼠遗传学[14.-17.],灵长类动物的脑组织[18.-20.], 糖尿病 [21.]慢性疲劳患者[22.]和植物[23.].虽然这些出版物提供了各种形式的R软件代码,但仍需要一个全面的R包,对方法和功能进行总结和标准化。为了满足这一需求,我们引入了WGCNA R包,该包还包括用于共表达网络分析的增强和新颖功能。

表1 WGCNA术语表。

结果

数字1提供典型分析步骤及其背后的基本原理的概述。要确定一个共表达模块是否具有生物学意义,可以使用功能富集和基因本体信息。

图1
图1

WGCNA方法论概述.该流程图介绍了加权基因共表达网络分析的主要步骤的简要概述。

WGCNA软件包中包含的功能概述

WGCNA软件包包含一整套功能,用于对大型高维数据集执行相关网络分析。WGCNA包中的功能可分为以下几类:1.网络建设;2.模块检测;3.模块和基因选择;4.拓扑性质的计算;5.数据模拟;6.可视化;7.与外部软件包的接口。我们网站上发布的R软件包手册中提供了已实现功能的详尽列表和详细说明。在此,我们简要概述了该软件包的主要功能,并重点介绍了新的贡献。

第1类:网络建设的功能

一个网络完全由它的邻接矩阵的一个ij,一个对称的n×n在[0,1]中具有分量的矩阵一个ij编码节点之间的网络连接强度j.为了计算邻接矩阵,有一个中间量叫做co-expression相似年代ij首先定义。默认方法定义了共表达相似性年代ij作为节点配置文件之间的相关系数的绝对值j年代ij= |天哪xxj)|。

WGCNA软件包还实现了替代的共表达测度,例如更稳健的相关性测度(双权重中相关性[24.或者是矛曼的相关)。可以定义符号的共表达措施以跟踪共表达信息的符号。为方便起见,我们定义了共表达相似度测量,使得它在[0,1]中取得值。

使用阈值处理过程,将共表达相似性转化为邻接。一个未加权的网络邻接一个ij基因表达谱之间xxj可以通过硬阈值来定义共表达相似性年代ij作为

一个 j = 1 如果 年代 j τ ; 0. 否则 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpdaGabaqaauaabaqaciaaaeaacqaIXaqmaeaacqqGPbqAcqqGMbGzcqqGGaaicqWGZbWCdaWgaaWcbaGaemyAaKMaemOAaOgabeaakiabgwMiZkabes8a0jabcUda7aqaaiabicdaWaqaaiabb + gaVjabbsha0jabbIgaOjabbwgaLjabbkhaYjabbEha3jabbMgaPjabbohaZjabbwgaLjabcYcaSaaaaiaawUhaaaaa @ 4E15 @
(4)

在哪里τ为硬阈值参数。因此,两个基因是相连的(一个ij= 1),如果它们的表达式配置文件之间的绝对相关性超过(硬)阈值τ.硬阈值过程在函数signumAdjacencyFunction中实现。虽然未加权网络被广泛使用,但它不能反映底层共表达信息的连续性,因此可能导致信息丢失。相反,加权网络允许邻接值在0和1之间连续。加权网络邻接性可以通过将共表达相似度提高到某次幂来定义[5.10.]:

一个 j = 年代 j β MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpcqWGZbWCdaqhaaWcbaGaemyAaKMaemOAaOgabaGaeqOSdigaaOGaeiilaWcaaa@3841@
(5)

β≥1。功能邻接从表达数据计算邻接矩阵。等式的邻接5.意味着加权邻接一个ij在两个基因之间与它们在对数标度上的相似性成比例,日志一个ij)=β×日志年代ij).加权和非加权网络的邻接函数都要求用户选择阈值参数,例如应用近似无标度拓扑准则[5.]. 该软件包提供有助于选择参数的函数pickSoftThreshold、pickHardThreshold,以及用于评估网络是否呈现无标度拓扑的函数scaleFreePlot。图形2A在模拟表达式数据中显示标识无标度拓扑的图。

图2
图2.

网络可视化情节.A.全网络连接分发的日志记录曲线图。这x-axis显示整个网络连接的对数,y-轴为相应频率分布的对数。在这幅图上,分布近似遵循一条直线,这被称为近似无标度拓扑。B.经典多维标度结果。在这个图中,模块倾向于形成独立的“手指”。分子内枢纽基因位于指尖。C.网络热图图。层次集群树状图中的分支对应于模块。用颜色编码的模块成员资格显示在树状图下方和右侧的颜色条中。在热图中,高共表达互联性由逐渐饱和的黄色和红色表示。模块对应于高度相互关联的基因块。 Genes with high intramodular connectivity are located at the tip of the module branches since they display the highest interconnectedness with the rest of the genes in the module.

第2类:模块检测的功能

一旦网络被构建,模块检测通常是逻辑上的下一步。模块被定义为紧密相连的基因簇。网络互连性的几种度量方法见[25.].默认情况下,我们使用拓扑重叠度量[5.25.-27.,因为它在几个应用程序中都工作得很好。WGCNA使用无监督聚类识别基因模块,即不使用先验定义的基因集。用户可以选择几种模块检测方法。默认的方法是使用标准R函数hclust的分层聚类[28.];分层聚类树木图的分支对应于模块,可以使用多种可用的分支切割方法之一来识别,例如恒定高度切割或两个动态分支切割方法[29.].

在图中2C我们展示了基因网络的网络热图图(互连图),以及相应的层次聚类树状图和生成的模块。图形2B.通过多维缩放图(标准CMDR功能cmdscale)提供模块结构的替代可视化。

分层集群的一个缺点是很难确定数据集中有多少(如果有的话)集群。虽然动态树木切割方法的高度和形状参数为分支切割和模块检测提供了改进的灵活性,但如何选择最优切割参数或如何估计数据集中的聚类数量仍然是一个有待研究的问题[30.].虽然我们的默认参数值在一些应用中工作得很好,在实践中,我们建议开展集群稳定性/鲁棒性分析。的共表达模块可以反映真实生物信号(例如,途径)或它可以反映噪声(例如一个技术工件,组织污染,或假阳性)。为了测试所标识的模块是否是生物学上有意义的,可以使用基因本体信息(功能富集分析)。为此,我们提供了介绍如何使用相关的外部软件包和数据库接口WGCNA包的R教程。

总结模块的配置文件

已经实施了几种选择,总结了给定模块的基因表达轮廓。例如,函数moduleegenes表示模块表达式-th模块由模块eigengeneE.,定义为表达式矩阵的第一个主分量。的eigengeneE.可以被认为是一个加权平均表达式。特征基因计算包含了在包impute中实现的缺失值的imputation [31.32.].或者,用户可以使用模块内连接性度量来定义连接最紧密的模块内枢纽基因作为模块代表。可以证明,模块内hub基因与模块特征基因高度相关[11.].

模块隶属度的模糊度量

分层聚类和大多数其他标准聚类方法,如围绕Medoids的分区(PAM) [28.导致二进制模块赋值,即一个节点在模块内或模块外。在某些应用中,为所有节点定义一个连续的、模糊的模块隶属度度量可能是有利的。这种度量对于识别位于模块边界附近的节点,或两个或多个模块之间的节点特别有用。如[11.],节点的模块成员资格在模块中可以定义为

K c o r = 天哪 x E. 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaakiabcQda6iabg2da9iabbogaJjabb + gaVjabbkhaYjabcIcaOiabdIha4naaBaaaleaacqWGPbqAaeqaaOGaeiilaWIaemyrau0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGGSaalaaa @ 47F6 @
(6)

在哪里x是节点的配置文件E.是模块的模块eigengene.模块成员度量 K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ 位于[- 1,1],并指定节点的距离是模块= 1,…,.大| K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ |,更类似的节点是指该基因的特征基因th模块。在某些刊物内[14.15.], K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ 是指基于有符号模块特征基因(ME)的连通性测度K.这就是为什么我们将相应的R函数命名为signedKME。

自动块的模块检测

许多微阵列基因表达测量报告了成千上万个不同基因(或探针)的表达水平。由于内存大小和处理器速度限制,建立和分析如此大量节点之间的完整网络可以在计算上具有挑战性。WGCNA包包含几种解决这一挑战的改进。功能BlockWiseModules旨在处理大数据集中的网络结构和模块检测。使用k-means聚类的变体(函数投影kemeans),函数首先将群集节点进入大型群区,称为块(功能ropersivekmeans)。接下来,将分层群集应用于每个块,并且模块被定义为所得树形图的分支。为了跨块综合模块检测结果,执行自动模块合并步骤(功能MergeCloseModules),其合并其Eigengenes高度相关的模块。块明智的方法的时间和内存节省是大量的:标准,单块网络分析n节点需要On2)内存和On3.)计算,而按块计算的方法则使用块大小nb只需要O n b 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa@2FA6@ )内存和On n b 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa@2FA6@ )通过计算,可以在标准计算机上对7000个区块中的50000个基因进行分析。

共识模块检测

当处理代表不同网络的多个邻接矩阵时,发现它是很有趣的共识的模块,定义为存在于所有或大多数网络中的模块[12.].直观地说,只有当所有的输入网络都同意这种连接时,两个节点才应该连接在一个共识网络中。这自然建议将两个节点之间的共识网络相似性定义为输入网络相似性的最小值。在某些情况下,用合适的分位数(例如第一个四分位数)替换最小值可能是有用的,因为生成的度量可能更健壮。为了最大限度地控制和灵活性,共识模块检测可以一步一步地执行,或者使用blockwiseConsensusModule函数一步完成,该函数以类似于在单个数据集中按块计算模块的方式计算给定数据集上的共识模块。

第3类:模块和基因选择的功能

寻找具有生物学或临床意义的模块和基因是许多共表达分析的主要目标。生物学或临床意义的定义取决于所考虑的研究问题。抽象地说,我们将基因显著性度量定义为一个函数GS.将非负数分配给每个基因;越高GS.生物重要的是基因.在功能性富集分析中,基因意义措施可能表明途径成员。在基因敲除实验中,基因意义可能表明淘汰基础。微阵列样品特质T可以用来定义一个基于性状的基因显著性度量为性状与表达谱之间的绝对相关,公式2.模块显著性的衡量可以定义为模块基因的平均基因显著性(图)3A).在处理样品特质时T,用于测量模块特征基因之间的统计显著性E.和特征T可以例如使用从非变量回归模型中获得的相关性(等式2)或P值(等式3)之间的相关性(等式2)E.T. 具有高性状显著性的模块可能代表与样本性状相关的路径。在与性状相关的模块中具有高模块成员的基因(图3B.)是自然需要进一步验证的候选者[10.14.15.18.].

图3.
图3.

模块和eigengene网络图.A.跨模块平均基因显著性的Barplot。在这个例子中,我们使用了一个基于性状的基因显著性方程2.一个模块的平均基因显著性越高,该模块与感兴趣的临床特征的相关性越显著。B.基因意义散点图(y-axis)与模块成员资格(x-axis)的最显著模块(绿色模块,见面板A)。在与兴趣特征相关的模块中,具有高模块成员的基因通常也具有高基因显著性。C.模块特征基因(以颜色标记)和微阵列样本性状的层次聚类树状图y.D.特征基因网络中包含性状的邻接关系的热图y.Heatmap中的每一行和列对应于一个模块Eigengene(由颜色标记)或特征(标记为y).在热图中,绿色表示低邻接(负相关),而红色表示高邻接(正相关)。

第四类:为研究拓扑性质功能

网络的许多拓扑性质可以用网络概念简捷地描述,也称为网络统计或指数[11.33.].网络概念包括全网连通性(度)、模块内连通性、拓扑重叠、聚类系数、密度等。对模块内连接等网络概念的差异分析可能揭示基因表达的调控变化[15.18.].所述WGCNA包实现多种功能,如softConnectivity,intramodularConnectivity,TOMSimilarity,clusterCoef,networkConcepts,用于计算这些网络的概念。基础研发功能,可用于创建这些概念汇总统计和跨网络测试他们之间的分歧。

用于测量簇结构网络的概念

基因聚类树木和汤姆剧情可视化互连模式通常表明存在大模块。网络理论提供了丰富的直观网络概念,用于描述集群树和热图中描绘的基因之间的成对关系[11.].为了说明这一点,我们描述了以下两个网络概念。通过目视检查数字2C4B.,基因似乎是高度相互关联的,例如,蓝绿色模块基因在TOM图中形成一个红色的正方形。模组基因之间紧密连接的特性可使用模块的密度,其被定义为所述模块基因的平均邻接的概念来衡量:

图4.
图4.

WGCNA分析雌性小鼠肝脏表达数据.A.通过平均连杆等级聚类获得的基因树枝图。树木图下面的颜色行显示了由动态树切割确定的模块分配。B.基因网中拓扑重叠的热映射图。在热图中,每行和柱对应于基因,浅色表示低拓扑重叠,并且逐渐较暗的红色表示更高的拓扑重叠。沿着对角线的较暗的平方对应于模块。基因树木和模块分配沿左侧和顶部显示。C.模块EigEngenes的分层群集总结在聚类分析中发现的模块。树木图(META模块)的分支组合在一起呈正相关的eigengenes。D.特征网络中的邻接互联网的热图曲线图,包括特征重量。 Each row and column in the heatmap corresponds to one module eigengene (labeled by color) or weight. In the heatmap, green color represents low adjacency (negative correlation), while red represents high adjacency (positive correlation). Squares of red color along the diagonal are the meta-modules. E. A scatterplot of gene significance for weight (GS, Equation2)对模块的成员(MM,等式6.)在棕色模块中。GS和MM表现出非常显着的相关性,暗示棕色模块的轮毂基因也倾向于与重量高度相关。F.棕色模块中30个最高连接基因的网络。在该网络中,我们只显示相应拓扑重叠的连接高于0.08的阈值。

D. e n 年代 t y 一种 = σ. σ. j 一个 j n n - 1 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiraqKaemyzauMaemOBa4Maem4CamNaemyAaKMaemiDaqNaemyEaKNaeiikaGIaemyqae0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaqhaaqaaiabdMgaPjabdQgaQbqaaiabcIcaOiabdghaXjabcMcaPaaaaeaacqWGQbGAcqGHGjsUcqWGPbqAaeqacqGHris5aaqaaiabdMgaPbqabiabggHiLdaabaGaemOBa42aaWbaaeqabaGaeiikaGIaemyCaeNaeiykaKcaaiabcIcaOiabd6gaUnaaCaaabeqaaiabcIcaOiabdghaXjabcMcaPaaacqGHsislcqaIXaqmcqGGPaqkaaaaaa@5AE0@
(7)

在哪里一种表示这一点n×n模块的基因所形成的子网络所对应的邻接矩阵.另一个有用的概念是聚类系数的基因,这是一个衡量“小圈子”的标准[34.]. 明确地

C l u 年代 t e r C o e f = σ. l σ. l 一个 l 一个 l 一个 σ. l 一个 l 2 - σ. l 一个 l 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4qamKaemiBaWMaemyDauNaem4CamNaemiDaqNaemyzauMaemOCaiNaem4qamKaem4Ba8MaemyzauMaemOzay2aaSbaaSqaaiabdMgaPbqabaGccqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaWgaaqaaiabdMgaPjabdYgaSbqabaGaemyyae2aaSbaaeaacqWGSbaBcqWGTbqBaeqaaiabdggaHnaaBaaabaGaemyBa0MaemyAaKgabeaaaeaacqWGTbqBcqGHGjsUcqWGPbqAcqGGSaalcqWGSbaBaeqacqGHris5aaqaaiabdYgaSjabgcMi5kabdMgaPbqabiabggHiLdaabaWaaiWaaeaadaqadaqaamaaqababaGaemyyae2aaSbaaeaacqWGPbqAcqWGSbaBaeqaaaqaaiabdYgaSjabgcMi5 kabdmgapbqabiabgghildaacagloagaayzkaawaawbaaeqabagaegomaidaaiabgkhitmaaqababagaeiikagiaemyyae2aasbaaeaacqwgpbqacqwgsbabaeqaaiabcmcapmaacaaabeqaaiabikdayaaaaeaacqwgsbabcqghgjsucqwgpbqaaeqacqghris5aagaay5eaiaaw2haaaaacqgguaglaaa@77ab@
(8)

在未加权的网络中,ClusterCoef当且仅当所有邻居的基因等于1也是相互联系的。对于加权网络,0≤一个ij≤1表示0≤ClusterCoef≤1 (5.].均值聚类系数已被用于测量网络中的模块结构的存在的程度[26.34.].

第5类:与模块化结构模拟芯片数据功能

简单但足够逼真的模拟数据通常对于评估新型数据挖掘方法来说往往是重要的。WGCNA包包括仿真功能SimulatedateSxpr,SimulateMultieXPR,SimulatedAtexpr5Modules,导致具有可自定义模块化(群集)结构的表达式数据集。用户可以通过指定一组种子Eigengenes,每个模块的种子Eigengenes选择模块化结构,每个模块都构建。模拟模块基因以表现出与种子的逐渐降低的相关性,这导致血管内连续较低的基因。用户可以指定模块大小和背景基因的数量,即模块之外的基因。可以模拟种子EIGENGENES以反映模块之间的依赖关系(函数simulategengenetwork)。

类别6:可视化功能

表达式数据中的模块结构和网络连接可以通过几种不同的方式进行可视化。例如,共表达模块结构可以通过使用TOMplot功能生成的基因-基因连接的热图来可视化。图中给出了例子2C4B..另一种选择是多维缩放图;图中给出了一个例子2B..模块之间的关系可以通过特征基因的层次聚类树状图或对应的特征基因网络的热图(功能标签为heatmap)来总结,如图所示3C,D,4C,D. 该软件包包括几个附加功能,旨在帮助用户可视化输入数据和结果。这些功能依赖于R和sma软件包中提供的基本绘图功能[35.]和域[36.].

类别7:与其他软件包的接口功能

为了增强WGCNA结果与其他网络可视化包和基因本体分析软件的集成,我们创建了几个r函数和相应的教程。例如,我们的R函数ExportNetWorkToVisant和ExportNorwworkTocyToscape允许用户以适合Visant的格式导出网络[37.]及Cytoscape [38.], 分别。

我们的在线R教程还展示了如何将WGCNA结果与R中直接提供的基因本体包(如GOSim)进行交互[39.].许多基于基因本体论的功能富集分析软件程序,如David [40],Amigo [41.],webgestalt [42.只需将基因标识符列出作为输入。Ingenueny途径分析允许用户输入基因表达数据或基因标识符。

鼠标数据应用程序

作为一种可以用WGCNA进行的分析类型的示例,我们描述了来自雌性小鼠的肝脏表达数据的网络分析。该分析的数据和生物学发现已描述于[14.].简单地说,用超过23,000个探针组的微阵列测量了雌性小鼠肝脏中的mRNA水平。除表达数据外,还测量了多种生理和代谢特性。由于计算原因,[14.]被限制为最多连接3600个基因,为了简单起见,我们将使用同一组基因(尽管我们注意到,目前提供的包也能够处理所有基因)。虽然我们使用相同的数据,但模块检测方法略有不同,结果相似但不相同。用于执行此分析的代码是发布在我们网页上的教程的一部分。

网络和18个识别的模块在图中示出4 a、B.要了解模块的生理学意义,我们将18个模块eigengenes与体重,胆固醇水平,胰岛素水平等生理特性相关联。完整的模块特征相关表在附带的教程中介绍。

在下文中,我们将只考虑小鼠体重为样本特征。以下三个模块的模块特征基因与体重高度相关:褐色(409个基因,与体重相关性r= 0.59,相关p值p= 5×10-14),红色(221个基因,r= 0.51,p= 3 × 10-10)和鲑鱼(91个基因,,r= 0.43,p= 2×10-7).

我们使用了在线软件David [40],以确定与体重相关的三个模块是否相对于已知的基因本体论显著富集。棕色模块在“糖蛋白”类别中显著富集(p= 2×10-24,本杰明校正)和“信号”(p= 1 × 10-22).红色模块富集在“细胞周期”(p= 9×10-24)及“染色体”(p= 5×10-20).鲑鱼模块在“脂质合成”类别中最具显着富集(p= 1 × 10-16).总体而言,高富集得分表明这些模块的确是生物学意义。

为了研究模块之间的关系,我们将它们的特征因子关联起来。一般情况下,模块之间的关系可以通过特征基因之间的关联网络(即特征基因对应的节点)来研究。在这些模块之间的元网络中,模块之间的邻接关系反映了模块特征基因之间的相关性,特征基因中的模块称为元模块[12.].诸如体重等的样品特征可以作为EIGENGENE网络的附加节点结合。样品特征和Eigengene之间的邻接有时被称为egengene意义[11.]. 数字4C,D描绘使用树形图(聚类树)和热图情节特征基因网络。我们发现,特征基因可能会表现出高度的相关性显著,例如红色和棕色模块是高度相关的。相关特征基因对应于元模块组,并且识别为的特征基因树状分支,并且作为沿对角线热图情节微红正方形。数字4C表明有四个元模块(分支)。体重落在元模块组合在一起,蓝色,棕色,红色,鲑鱼和黄模块内。在实践中,难以确定下方的元模块的模块是否是真正的不同或它们是否应该合并。有时候,基因本体信息可以提供一些线索。

有趣的是,在与体重相关的模块中发现位于中心位置的模块内hub基因,因为它们的表达谱代表了整个模块的表达[11.].要找到模块内的枢纽基因,可以使用模块隶属度度量K方程式6.. 图形4E显示了基于体重的基因显著性测量之间的散点图GS.方程式2和brown模块中的模块成员关系。

基因意义和模块隶属之间的高相关意味着棕色模块中的常规也与体重高度相关。这表明基因意义和模块隶属(颅内连接)可以在系统生物筛选方法中组合用于寻找体重相关基因的生物筛选方法[15.]. 图形4F.在棕色模块中显示了一个Visant图中连接最紧密的基因。本文简要说明了WGCNA如何导致需要在独立数据集中验证的可测试假设。本教程是本示例和图的基础4.可以在我们的网页上找到。

教程

我们提供了一套全面的在线教程,指导用户通过相关网络分析的主要步骤。本教程提供了用户可以复制并粘贴到R会话中的R代码,以及输入和输出的注释和解释。代码被组织成简短的部分,每个部分处理一个特定的任务。特别是,本教程涵盖了以下主题:相关网络构建、分步和自动模块检测、共识模块检测、特征基因网络分析、差分网络分析、与外部软件包的接口和数据仿真。本教程使用了模拟和真实的基因表达数据集。

讨论

WGCNA包与R的其他网络相关封装互补,例如Bioconductor中的一般网络结构[6.,基因网络富集分析[43.]基因共表达网络的功能分析[44.),和其他人。虽然大多数现有的包只关注非加权网络,但WGCNA实现了加权和非加权相关网络的方法。WGCNA可以作为一种数据探索工具,也可以作为一种基因筛选(排序)方法。例如,WGCNA可以用来探索网络中的模块(集群)结构,测量基因与模块之间的关系(模块隶属信息),探索模块之间的关系(特征基因网络),以及对基因或模块进行排序(例如它们与样本特征的关系)。WGCNA可用于生成可检验的假设,用于独立数据集的验证。例如,WGCNA可能表明一个模块(例如一个假定的途径)与疾病结局相关。由于相关网络是基于数量变量之间的相关性,我们可以使用相关检验p-value [1或以回归为基础的p值来评估变量对之间的统计显著性。例如,可以直接给模糊模块的隶属度度量附加一个显著性级别 K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ .标准微阵列数据挖掘技术与基因共表达网络分析的关系在[11.].

用户应该意识到在WGCNA包中实现的方法的局限性。首先,WGCNA假设微阵列数据已经经过适当的预处理和标准化。为了规范化表达数据,Bioconductor包中实现了几个R函数[45.].尽管所有的归一化方法与WGCNA数学兼容,我们建议使用生物最有意义的归一化方法相对于考虑中的应用。其次,与其他多数数据挖掘方法,WGCNA的结果与技术的文物,组织污染或实验设计差的问题时有偏差或无效。第三,虽然几个共表达模块的检测方法被实现,该包装不提供手段,以确定哪些方法是最好的。虽然默认层次聚类方法在几个真实数据的应用程序都表现不错,但希望比较多个实际基准数据集这些和其他方法。第四,这个包仅限于无向网络。用于定向边缘和构建有向网络的方法已在文献中被提出,例如在[46.-48.].

结论

WGCNA R包为执行加权相关网络分析提供了一套全面的函数。WGCNA软件包还可以用来描述基因表达谱、图像数据、遗传标记数据、蛋白质组学数据和其他高维数据之间的相关结构。

可用性和需求

项目名称:WGCNA R包

项目主页:欧宝直播官网apphttp://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

操作系统:平台独立

编程语言:R

许可证:GNU GPL 3

致谢

我们要感谢董俊、Tova Fuller、Dan Geschwind、Winden Kellen、Wen Lin、Jake Lusis、Mike Mason、Jeremy Miller、Paul Mischel、Stan Nelson、Mike Oldham、Angela Presson、Atila Van Nas和Lin Wang的有益讨论和建议。这项工作得到了P50CA092131、5P30CA016042-28和NS050151-01的部分资助。

参考文献

  1. 1。

    Fisher RA:在小样本推导的相关系数的“可能的误差”上。密特隆1915,1:1-32。

    谷歌学者

  2. 2。

    周X,Kao MC,Wong W:基因表达数据的最短路径分析的转异质功能注释。美国国家科学院学报2002, 99(20):12783–12788.

    公共医学中心中科院文章PubMed.谷歌学者

  3. 3.

    Steffen M,Petti A,Aach J,D'Haeeleer P,教堂G:信号转导网络的自动建模。欧宝娱乐合法吗2002, 3: 34.

    公共医学中心文章PubMed.谷歌学者

  4. 4。

    斯图尔特JM,西格尔E,科勒d,金SK:一个基因共表达网络的保守遗传模块的全球探索。科学2003, 302(5643):249–255.

    中科院文章PubMed.谷歌学者

  5. 5。

    张志强,张志强,张志强。基于遗传算法的基因共表达网络分析。Stat Appl Genet Mol Biol2005,4:第17条。

    谷歌学者

  6. 6.

    作者简介:凯瑞(Carey VJ), Gentry J (Gentry J), Whalen E (Whalen E), Gentleman R (Gentleman R)。生物信息学2005年,21日:135 - 136。

    中科院文章PubMed.谷歌学者

  7. 7.

    基于经验的贝叶斯方法推断大规模基因关联网络。生物信息学2005, 21(6):754–764.

    中科院文章谷歌学者

  8. 8.

    庄春林,陈春明,谢桂生:一种基于模式识别的遗传滞后相互作用研究。生物信息学2008年,24(9):1183至1190年。

    中科院文章PubMed.谷歌学者

  9. 9

    Cokus S,Rose S,Haynor D,Gronbech-Jensen N,Pellegrini M:在酵母酿酒酵母中建模细胞周期转录因子网络。欧宝娱乐合法吗2006年,7:381。

    公共医学中心文章PubMed.谷歌学者

  10. 10。

    陆Horvath)年代,张B,卡尔森M, K,朱年代,Felciano R, Laurance M,赵W,蜀Q,李Y,舍,Liau L,吴H, Geschwind D, Febbo P, Kornblum) H, Cloughesy T,纳尔逊年代,米歇尔P:致癌信号网络分析在胶质母细胞瘤识别该小说作为一个分子的目标。美国国家科学院学报2006, 103(46):17402–17407.

    公共医学中心中科院文章PubMed.谷歌学者

  11. 11.

    董军:基因共表达网络分析的几何解释。PLoS计算生物学2008.

    谷歌学者

  12. 12.

    Langfelder P,Horvath S:Eigengene网络用于研究共表达模块之间的关系。BMC系统生物学2007, 1: 54.

    公共医学中心文章PubMed.谷歌学者

  13. 13。

    张博,方志刚,王志刚,王志刚:基因连接、功能和序列守恒:酵母共表达网络的预测。BMC基因组学2006.,7(40):

    谷歌学者

  14. 14。

    Ghazalpour A,Doss S,Zhang B,Plaisier C,Wang S,Schadt E,Thomas A,Drake T,Lusis A,Horvath S:集成遗传和网络分析,表征与小鼠重量相关的基因。公共科学图书馆遗传学2006年,2 (8):e130。

    公共医学中心文章PubMed.谷歌学者

  15. 15.

    基于加权基因共表达网络分析方法的小鼠体重分析。哺乳动物基因组2007, 6(18):463–472.

    文章谷歌学者

  16. 16。

    张Emilsson V, Thorleifsson G B, Leonardson,辛克F,朱J,卡尔森,Helgason,沃尔特斯G, Gunnarsdottir年代,Mouy M, Steinthorsdottir V, Eiriksdottir G, Bjornsdottir G, Reynisdottir我,配图D, Helgadottir,采取,采取,Styrkarsdottir U, Gretarsdottir年代,Magnusson K, Stefansson H, Fossdal R, Kristjansson K,Gislason H, Stefansson T, Leifsson B, Thorsteinsdottir U, Lamb J, Gulcher MJ, Reitman, Kong A, Schadt E, Stefansson K:基因表达的遗传学及其对疾病的影响。自然2008、452(7186):423 - 8。

    中科院文章PubMed.谷歌学者

  17. 17.

    van Nas A, Guhathakurta D, Wang S, Yehya S, Horvath S, Zhang B, Ingram Drake L, Chaudhuri G, Schadt E, Drake T, Arnold A, Lusis A:阐明性腺激素在两性二态基因共表达网络中的作用。内分泌学2008.

    谷歌学者

  18. 18.

    《人类和黑猩猩大脑中基因共表达网络的保护与进化》。美国国家科学院学报2006、103(47):17973 - 17978。

    公共医学中心中科院文章PubMed.谷歌学者

  19. 19.

    阿尔茨海默病和正常衰老中转录变化的系统水平分析。J >2008年,28(6):1410 - 1420。

    公共医学中心中科院文章PubMed.谷歌学者

  20. 20.

    Oldham MC, Konopka G, Iwamoto K, Langfelder P, Kato T, Horvath S, Geschwind DH:人脑转录组的功能组织。自然神经科学2008年,11(11):1271 - 1282。

    公共医学中心中科院文章PubMed.谷歌学者

  21. 21.

    凯勒MP,崔Y,王P,带戴维斯D, Rabaglia我,ole, Stapleton DS, Argmann C, Schueler KL,爱德华兹,斯坦伯格哈,Chaibub否决权E, Kleinhanz R,特纳年代,Hellerstein可,斯凯特EE,扬德尔BS, Kendziorski C,阿克塞罗德广告:2型糖尿病的基因表达网络模型在胰岛细胞周期调控糖尿病易感性的链接。基因组Res2008年,18(5):706 - 716。

    公共医学中心中科院文章PubMed.谷歌学者

  22. 22。

    Presson A, Sobel E, Papp J, Suarez C, Whistler T, Rajeevan M, Vernon S, Horvath S:整合加权基因共表达网络分析在慢性疲劳综合征中的应用。BMC系统生物学2008.,2(95):

    谷歌学者

  23. 23。

    Weston D,Gunter L,Rogers A,Wullschleger S:将基因,共抑制模块和分子签名连接到植物中的环境应激表型。BMC系统生物学2008.,2:

    谷歌学者

  24. 24。

    威尔科克斯RR:强大估计和假设检测介绍.学术出版社;1997.

    谷歌学者

  25. 25。

    YIP A,Horvath S:基因网络互连和广义拓扑重叠度量。欧宝娱乐合法吗2007年,8:22。

    公共医学中心文章PubMed.谷歌学者

  26. 26。

    张志强,王志强,王志强,等。代谢网络模块化的层次结构研究。科学2002、297(5586):1551 - 1555。

    中科院文章PubMed.谷歌学者

  27. 27。

    Li A,Horvath S:具有多节点拓扑重叠度量的网络邻域分析。生物信息学2007,23(2):222-231。

    文章PubMed.谷歌学者

  28. 28。

    考夫曼L,罗西乌P:在数据中查找组:集群分析介绍. 纽约:约翰·威利父子公司;1990

    谷歌学者

  29. 29.

    张斌,张立军,张立军:基于层次聚类树的聚类定义:动态树切割包。生物信息学2008年,24(5):719 - 720。

    中科院文章PubMed.谷歌学者

  30. 30.

    Dudoit S, Fridlyand J:一种基于预测的重采样方法,用于估计数据集中的聚类数量。基因组医学杂志2002,3(7):Research0036。

    公共医学中心文章PubMed.谷歌学者

  31. 31.

    黑斯蒂T,Tibshirani R,夏洛特G,艾森男,布朗P,博茨泰因d:插补数据缺失的基因表达阵列。技术报告,斯坦福统计局1999

    谷歌学者

  32. 32.

    Troyanskaya O, Cantor M, Sherlock G, Brown P, Hastie T, Tibshirani R, Botstein D, Altman RB: DNA微阵列缺失值估算方法。生物信息学2001,17(6):520-525。

    中科院文章PubMed.谷歌学者

  33. 33.

    董杰,Horvath S:理解模块中的网络概念。BMC系统生物学2007, 1: 24.

    公共医学中心文章PubMed.谷歌学者

  34. 34。

    Watts DJ, Strogatz SH:“小世界”网络的集体动态。自然1998、393(6684):440 - 2。

    中科院文章PubMed.谷歌学者

  35. 35。

    陈志强,杨永强,陈志强,等。基因芯片技术在不同基因表达中的应用。Statistica中央研究院2002.

    谷歌学者

  36. 36。

    (2006) FDT:领域:空间数据工具。技术代表,国家大气研究中心,Boulder, CO2007. [http://www.image.ucar.edu/GSP/Software/Fields

    谷歌学者

  37. 37。

    王志强,王志强,王志强。基于神经网络的系统生物学研究。短暂Bioinform2008年,9(4):317-325。

    公共医学中心中科院文章PubMed.谷歌学者

  38. 38。

    Wang JT, Ramage D, Amin N, Schwikowski B, Ideker T: Cytoscape:一种生物分子相互作用网络集成模型的软件环境。基因组研究2003年,13(11):2498 - 2504。

    公共医学中心中科院文章PubMed.谷歌学者

  39. 39。

    GOSim -一个用于计算术语和基因产物之间的信息理论GO相似性的r -包。欧宝娱乐合法吗2007.8:

    谷歌学者

  40. 40.

    杨建军,杨建军,高伟,Lane H, Lempicki R: DAVID:面向标注、可视化和集成发现的数据库。基因组医学杂志2003年,4 (5):P3。

    文章PubMed.谷歌学者

  41. 41.

    Ashburner M,Ball Ca,Blake Ja,Botstein D,Butler H,Cherry JM,Davis Ap,Dolinski K,Dwight SS,EPPIG JT,Harris Ma,Hill DP,ISSEL-Tarver L,Kasarskis A,Lewis S,Matese Jc,Richardson Je,Ringwald M,Rubin Gm,Sherlock G:基因本体:生物学统一的工具。NAT Genet.2000年,25日:25 - 29。

    公共医学中心中科院文章PubMed.谷歌学者

  42. 42.

    张B,Kirov S,Snoddy J:WebGestAlt:一种用于探索各种生物背景中基因集的集成系统。核酸研究2005, 33(Web服务器版本):W741-W748。

    公共医学中心中科院文章PubMed.谷歌学者

  43. 43.

    Liu M,Liberzon A,Kong SW,Lai Wr,Park PJ,Kohane是,KASIF S:3型糖尿病模型中受影响的生物过程的网络分析。基因库2007年,3 (6):e96。

    公共医学中心文章PubMed.谷歌学者

  44. 44.

    Henegar C, Clement K, Zucker JD:基因组数据功能分析的非监督多实例学习。在机器学习:ECML 2006.Springer Berlin / Heidelberg;2006年:186-197。

    谷歌学者

  45. 45.

    绅士R,Huber W,Carey V,Irtizarry R,Dudoit S:使用R和Biocumon的生物信息学和计算生物学解决方案。在. 斯普林格·维拉格纽约;2005

    谷歌学者

  46. 46。

    Opgen Rhein R,Strimer K:从相关性到因果网络:一种简单的近似学习算法及其在高维植物基因表达数据中的应用。BMC系统生物学2007.,1:

    谷歌学者

  47. 47。

    利用遗传标记定位定量性状网络的边缘:NEO软件。BMC系统生物学2008.,2:

    谷歌学者

  48. 48。

    Chaibub Neto E, Ferrara CT, Attie AD, Yandell BS:从分离群体推断因果表现型网络。遗传学2008, 179(2):1089–1100.

    公共医学中心文章PubMed.谷歌学者

下载参考

作者信息

从属关系

作者

相应的作者

对应到史蒂夫·霍法

额外的信息

作者的贡献

两位作者共同开发了这些方法并撰写了这篇文章。PL将函数打包到一个R包中。两位作者都阅读并批准了最终手稿。

作者的原始提交的图像文件

权利和权限

本文在BioMed Central Ltd.的许可下发布了这是一个开放的访问文章,根据欧宝体育2021足球欧洲杯买球平台Creative Commons归因许可(http://creativecommons.org/licenses/by/2.0),允许在任何媒介上无限制地使用、分发和复制,但必须正确引用原作。

重印和许可

关于这篇文章

引用这篇文章

Langfelder,P.,Horvath,S.WGCNA:用于加权相关网络分析的R包。欧宝娱乐合法吗9,559(2008)。https://doi.org/10.1186/1471-2105-9-559.

下载引文

关键字

  • 相关网络
  • 模块成员资格
  • 模块eigengene.
  • 棕色模块
  • 分层集群系统树图