跳到主要内容

加权相关网络分析的R包

摘要

背景

相关网络在生物信息学应用中得到越来越多的应用。例如,加权基因共表达网络分析是一种系统生物学方法,用于描述基因在微阵列样本之间的相关模式。加权相关网络分析(WGCNA)可用于寻找高度相关基因的聚类(模块),使用模块特征基因或模块内hub基因对这些聚类进行总结,使模块彼此之间以及与外部样本特征相关联(使用特征基因网络方法)。并用于计算模块的隶属度。相关网络促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶点。这些方法已成功应用于各种生物学背景,如癌症、小鼠遗传学、酵母遗传学和脑成像数据分析。虽然相关网络方法的部分已在单独的出版物中进行了描述,但有必要提供一个用户友好的、全面的、一致的软件实现和附带的教程。

结果

WGCNA R软件包是一个R函数的综合集合,用于执行加权相关网络分析的各个方面。该软件包包括网络构建、模块检测、基因选择、拓扑属性计算、数据模拟、可视化和与外部软件接口的功能。除了R包,我们还提供了R软件教程。虽然这些方法的发展是由基因表达数据驱动的,但底层数据挖掘方法可以应用于各种不同的设置。

结论

WGCNA软件包为加权相关网络分析提供了R函数,如基因表达数据的共表达网络分析。R包及其源代码和其他资料可在以下网站免费获得http://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

背景

在生物学中,关联网络越来越多地被用于分析大型、高维数据集。相关网络是建立在定量测量之间的相关性的基础上的,这些相关性可以被描述n×矩阵X= [xIL.,其中行索引对应于网络节点(= 1,…,n)和列索引(l= 1,…,)对应于样本测量值:

X x j x 1 x 2 x n MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiwaGLaeyypa0Jaei4waSLaemiEaG3aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGGDbqxcqGH9aqpdaqadaqaauaabeqaeeaaaaqaaiabdIha4naaBaaaleaacqaIXaqmaeqaaaGcbaGaemiEaG3aaSbaaSqaaiabikdaYaqabaaakeaacqWIVlctaeaacqWG4baEdaWgaaWcbaGaemOBa4gabeaaaaaakiaawIcacaGLPaaaaaa@422B@
(1)

我们指的是th行x随着th节点配置文件样品测量。

有时是定量措施(称为样本特征)提供用于列的列X.例如,T=(T1,…,T)可以测量生存时间,也可以是一个二元指标变量(疾病状态)。抽象地说,我们定义了一个样本特征T作为矢量对应于数据矩阵列的组件X.样本特征可以用来定义节点显著性测度。例如,一个基于特征的节点显著性度量可以定义为th节点配置文件x样本特质

TGS.= |corxT) |。(2)

或者,一个相关检验p-value [1或以回归为基础的p值来评估之间的统计显著性x样本特质T可以用来定义基于p值的节点显著性度量,例如通过定义

GS.=日志p。(3)

相关网络方法背后的基本原理是使用网络语言来描述行之间的成对关系(相关性)X(公式1)尽管存在其他统计技术来分析相关矩阵,网络语言对生物学家来说是特别直观的,并允许简单的社会网络类比。相关网络可用于解决包括以下在内的许多分析目标。首先,关联网络可以用来寻找相互连接节点的集群(模块)。因此,网络模块是一组行X(等式1)根据适当定义的互连度量紧密连接。

第二分析目标是通过代表来总结给定模块的节点配置文件,例如,高度连接的集线器节点,其位于模块中。将模块或其代表的分析集中在基于网络的数据减少方法。将模块与节点相关联而气可以缓解多个测试问题。

第三个分析目标是识别“重要”模块。朝向此结束,节点意义测量可用于识别具有高平均节点的模块(称为模块意义)。

第四个分析目标是根据所有网络节点与已识别模块的距离来注释它们。这可以通过定义模块成员关系的模糊度量来实现,该度量将二进制模块成员关系指标概括为定量度量。模块隶属度的模糊度量可以用来识别位于两个或多个模块之间和接近它们的节点。

第五个分析目标是定义给定节点种子集的网络邻域。直观地说,一个邻居由节点组成,这些节点与给定的节点集高度相连。因此,邻域分析有助于通过关联筛选策略找到与给定的感兴趣节点集交互的节点。

第六分析目标是基于节点筛选标准筛选节点,该节点可以基于节点意义测量,在网络拓扑特性上(例如高连接)等。

第七分析目标是将一个网络与另一个网络相比。该差分网络分析可用于识别不同条件之间的连接模式或模块结构的变化。第八分析目标是在两个或更多网络之间找到共享模块(共识模块分析)。由于根据定义共识模块是多个网络中的构建块,因此它们可能代表网络的基本结构属性。

上述分析目标的不完全枚举表明,相关网络可以作为一种数据探索技术(类似于聚类分析、因子分析或其他降维技术)和一种筛选方法。例如,相关网络可以用来筛选与样本特征相关的模块和模块内集线器。相关网络允许人们生成可测试的假设,这些假设应该在独立数据或设计的验证实验中得到验证。

基因Co-Expression网络

接下来,我们将重点讨论基因共表达网络,它代表了相关网络方法的主要应用。共表达网络被发现对描述基因转录本之间的成对关系很有用[2- - - - - -9].在共表达网络中,我们将节点称为“基因”,即节点概要x作为基因表达谱,并以节点显著性测度GS.作为基因显著性测量。一个重要的网络相关术语的词汇表可以在表中找到1.在这里,我们介绍了一个R软件包,总结和扩展了我们早期的加权基因共表达网络分析(WGCNA)工作[510.- - - - - -12.].WGCNA已被用于分析脑癌的基因表达数据[10.,酵母细胞周期[13.,老鼠遗传学[14.- - - - - -17.],灵长类动物的脑组织[18.- - - - - -20.], 糖尿病 [21.]慢性疲劳患者[22.]和植物[23.].虽然这些出版物具有各种形式可用的软件代码,但需要一个全面的R包,总结和标准化方法和功能。为了解决这种需求,我们介绍了WGCNA R包,该包装还包括增强和新颖的共表达网络分析功能。

表1 WGCNA术语表。

结果

数字1提供典型分析步骤及其背后的基本原理的概述。要确定一个共表达模块是否具有生物学意义,可以使用功能富集和基因本体信息。

图1
图1

WGCNA方法论概述.该流程图介绍了加权基因共表达网络分析的主要步骤的简要概述。

WGCNA软件包中包含的功能概述

WGCNA软件包包含一套全面的功能,用于对大型高维数据集进行相关网络分析。WGCNA包中的功能可以分为以下几类:网络建设;2.模块检测;3.模块与基因选择;4.拓扑性质的计算;5. data simulation; 6. visualization; 7. interfacing with external software packages. An exhaustive list of implemented functions together with detailed descriptions is provided in the R package manual posted on our web site. Here we briefly outline the main functionality of the package and highlight new contributions.

第1类:网络建设的功能

一个网络完全由它的邻接矩阵的一个IJ.,一个对称的n×n在[0,1]中具有分量的矩阵一个IJ.编码节点之间的网络连接强度j.为了计算邻接矩阵,有一个中间量叫做co-expression相似年代IJ.首先定义。默认方法定义了共表达相似性年代IJ.作为节点配置文件之间的相关系数的绝对值j年代IJ.= |corxxj)|。

WGCNA软件包还实现了替代的共表达测度,例如更稳健的相关性测度(双权重中相关性[24.或者是矛曼的相关)。可以定义符号的共表达措施以跟踪共表达信息的符号。为方便起见,我们定义了共表达相似度测量,使得它在[0,1]中取得值。

使用阈值处理过程,将共表达相似性转化为邻接。一个未加权的网络邻接一个IJ.基因表达谱之间xxj可以通过硬阈值来定义共表达相似性年代IJ.作为

一个 j 1 如果 年代 j τ 0 否则 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpdaGabaqaauaabaqaciaaaeaacqaIXaqmaeaacqqGPbqAcqqGMbGzcqqGGaaicqWGZbWCdaWgaaWcbaGaemyAaKMaemOAaOgabeaakiabgwMiZkabes8a0jabcUda7aqaaiabicdaWaqaaiabb + gaVjabbsha0jabbIgaOjabbwgaLjabbkhaYjabbEha3jabbMgaPjabbohaZjabbwgaLjabcYcaSaaaaiaawUhaaaaa @ 4E15 @
(4)

在哪里τ是“硬”阈值参数。因此,两个基因被连接(一个IJ.= 1),如果它们的表达式配置文件之间的绝对相关性超过(硬)阈值τ.硬阈值过程在函数signumAdjacencyFunction中实现。虽然未加权网络被广泛使用,但它不能反映底层共表达信息的连续性,因此可能导致信息丢失。相反,加权网络允许邻接值在0和1之间连续。加权网络邻接性可以通过将共表达相似度提高到某次幂来定义[510.]:

一个 j 年代 j β MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpcqWGZbWCdaqhaaWcbaGaemyAaKMaemOAaOgabaGaeqOSdigaaOGaeiilaWcaaa@3841@
(5)

β≥1。功能邻接从表达数据计算邻接矩阵。等式的邻接5意味着加权邻接一个IJ.在两个基因之间与它们在对数标度上的相似性成比例,日志一个IJ.)=β×日志年代IJ.).用于加权和未加权网络的邻接功能要求用户选择阈值参数,例如通过应用近似虚拓扑标准[5].该包提供了函数pickSoftThreshold、pickHardThreshold来帮助选择参数,以及函数scaleFreePlot来评估网络是否呈现无标度拓扑。数字2A在模拟表达式数据中显示标识无标度拓扑的图。

图2.
图2.

网络可视化情节.A.全网络连接分发的日志记录曲线图。这x-axis显示整个网络连接的对数,y-轴为相应频率分布的对数。在这幅图上,分布近似遵循一条直线,这被称为近似无标度拓扑。B.经典多维标度结果。在这个图中,模块倾向于形成独立的“手指”。分子内枢纽基因位于指尖。C.网络热图图。层次集群树状图中的分支对应于模块。用颜色编码的模块成员资格显示在树状图下方和右侧的颜色条中。在热图中,高共表达互联性由逐渐饱和的黄色和红色表示。模块对应于高度相互关联的基因块。 Genes with high intramodular connectivity are located at the tip of the module branches since they display the highest interconnectedness with the rest of the genes in the module.

第2类:模块检测的功能

一旦网络被构建,模块检测通常是逻辑上的下一步。模块被定义为紧密相连的基因簇。网络互连性的几种度量方法见[25.].默认情况下,我们使用拓扑重叠度量[525.- - - - - -27.,因为它在几个应用程序中都工作得很好。WGCNA使用无监督聚类识别基因模块,即不使用先验定义的基因集。用户可以选择几种模块检测方法。默认的方法是使用标准R函数hclust的分层聚类[28.];分层聚类树木图的分支对应于模块,可以使用多种可用的分支切割方法之一来识别,例如恒定高度切割或两个动态分支切割方法[29.].

在图中2C我们展示了一个基因网络的网络热图(互连图),以及相应的层次聚类树状图和生成的模块。数字2B.通过多维缩放图(标准R函数cmdscale)提供模块结构的替代可视化。

分层集群的一个缺点是很难确定数据集中有多少(如果有的话)集群。虽然动态树木切割方法的高度和形状参数为分支切割和模块检测提供了改进的灵活性,但如何选择最优切割参数或如何估计数据集中的聚类数量仍然是一个有待研究的问题[30.].虽然我们的默认参数值在几个应用程序中工作得很好,但在实践中,我们建议进行集群稳定性/稳健性分析。共表达模块可能反映真实的生物信号(如通路),也可能反映噪音(如技术伪影、组织污染或假阳性)。为了检测识别的模块是否具有生物学意义,可以使用基因本体论信息(功能富集分析)。为此,我们提供了一个R教程,描述如何将WGCNA包与相关的外部软件包和数据库连接起来。

总结模块的配置文件

已经实施了几种选择,总结了给定模块的基因表达轮廓。例如,函数moduleegenes表示模块表达式-th模块由模块eigengeneE,定义为表达式矩阵的第一个主分量。的eigengeneE可以被认为是一个加权平均表达式。特征基因计算包含了在包impute中实现的缺失值的imputation [31.32.].或者,用户可以使用模块内连接性度量来定义连接最紧密的模块内枢纽基因作为模块代表。可以证明,模块内hub基因与模块特征基因高度相关[11.].

模块成员资格的模糊衡量

分层群集和大多数其他标准聚类方法,如麦细管(PAM)分区[28.导致二进制模块赋值,即一个节点在模块内或模块外。在某些应用中,为所有节点定义一个连续的、模糊的模块隶属度度量可能是有利的。这种度量对于识别位于模块边界附近的节点,或两个或多个模块之间的节点特别有用。如[11.],节点的模块成员资格在模块中可以被定义为

K c o r cor x E 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaakiabcQda6iabg2da9iabbogaJjabb + gaVjabbkhaYjabcIcaOiabdIha4naaBaaaleaacqWGPbqAaeqaaOGaeiilaWIaemyrau0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGGSaalaaa @ 47F6 @
(6)

在哪里x是节点的配置文件E是模块的模块eigengene.模块成员度量 K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ 位于[- 1,1],并指定节点的距离是模块= 1,…,.较大的| K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ |,更类似的节点的特征基因th模块。在某些刊物内[14.15.], K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ 被称为签名模块Eigengene(ME)的连接度量K.这就是为什么我们命名为相应的R函数signedkme的原因。

自动块的模块检测

许多微阵列基因表达测量报告了成千上万个不同基因(或探针)的表达水平。由于内存大小和处理器速度限制,建立和分析如此大量节点之间的完整网络可以在计算上具有挑战性。WGCNA包包含几种解决这一挑战的改进。功能BlockWiseModules旨在处理大数据集中的网络结构和模块检测。使用k-means聚类的变体(函数投影kemeans),函数首先将群集节点进入大型群区,称为块(功能ropersivekmeans)。接下来,将分层群集应用于每个块,并且模块被定义为所得树形图的分支。为了跨块综合模块检测结果,执行自动模块合并步骤(功能MergeCloseModules),其合并其Eigengenes高度相关的模块。块明智的方法的时间和内存节省是大量的:标准,单块网络分析n节点需要On2)内存和On3.)计算,而按块计算的方法则使用块大小nb只需要O n b 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa@2FA6@ )内存和On n b 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa@2FA6@ )的计算,使在标准计算机上对7000个基因块中的50000个基因进行分析成为可能。

共识模块检测

当处理代表不同网络的多个邻接矩阵时,发现它是很有趣的共识的模块,定义为存在于所有或大多数网络中的模块[12.].直观地,只有当所有输入网络都同意该连接时,两个节点应仅在共识网络中连接。这自然建议在两个节点之间定义共识网络相似性,作为输入网络相似度的最小值。在某些情况下,由于所得到的措施可能更加稳健,因此可以用合适的量级(例如第一四分位数)更换最小的情况。可以逐步执行共识模块检测,以实现最大控制和潜在能力,或者在一个步骤中使用函数blockwiseConsensusmodule来计算横跨给定数据集的共识模块以类似于单个的块 - 方向模块检测数据集。

第3类:模块和基因选择的功能

寻找生物学或临床意义显著的模块和基因是许多共表达分析的主要目标。生物学或临床意义的定义取决于所考虑的研究问题。摘要我们将基因显著性度量定义为一个函数GS.将非负数分配给每个基因;越高GS.生物重要是基因.在功能性富集分析中,基因意义措施可能表明途径成员。在基因敲除实验中,基因意义可能表明淘汰基础。微阵列样品特质T可以用来定义一个基于性状的基因显著性度量为性状与表达谱之间的绝对相关,公式2.模块意义的衡量标准可以定义为模块基因的平均基因意义(图3A).在处理样品特质时T,用于测量模块特征基因之间的统计显著性E和特征T可以例如使用从非变量回归模型中获得的相关性(等式2)或P值(等式3)之间的相关性(等式2)ET.具有高特质显著性的模组可能代表与样本特质相关的路径。在与性状相关的模块中具有高模块隶属度的基因(图)3B.)是自然需要进一步验证的候选者[10.14.15.18.].

图3.
图3.

模块和eigengene网络图.A.跨模块平均基因显著性的Barplot。在这个例子中,我们使用了一个基于性状的基因显著性方程2.一个模块的平均基因显著性越高,该模块与感兴趣的临床特征的相关性越显著。B.基因意义散点图(y-axis)与模块成员关系(x- 在最重要的模块(绿色模块,见图A)中。在与兴趣特征相关的模块中,具有高模块成员的基因通常也具有高基因意义。C.模块eigengenes的分层聚类树木图(由其颜色标记)和微阵列样品特征y.D.特征基因网络中包含性状的邻接关系的热图y.Heatmap中的每一行和列对应于一个模块Eigengene(由颜色标记)或特征(标记为y).在热图中,绿色表示低邻接(负相关),而红色表示高邻接(正相关)。

类别4:研究拓扑性质的函数

网络的许多拓扑性质可以用网络概念简捷地描述,也称为网络统计或指数[11.33.].网络概念包括全网连通性(度)、模块内连通性、拓扑重叠、聚类系数、密度等。对模块内连接等网络概念的差异分析可能揭示基因表达的调控变化[15.18.].WGCNA包实现了softConnectivity、intramodularConnectivity、TOMSimilarity、clusterCoef、networkConcepts等功能,用于计算这些网络概念。基本R函数可用于创建这些概念的汇总统计,并用于测试它们在网络中的差异。

用于测量集群结构的网络概念

基因聚类树木和汤姆剧情可视化互连模式通常表明存在大模块。网络理论提供了丰富的直观网络概念,用于描述集群树和热图中描绘的基因之间的成对关系[11.].为了说明这一点,我们描述了以下两个网络概念。通过目视检查数字2C4B.,基因似乎是高度相互关联的,例如,蓝绿色模块基因在TOM图中形成一个红色的正方形。模组基因之间紧密连接的特性可以用模块密度的概念来测量,模块密度定义为模块基因的平均邻接度:

图4.
图4.

雌性小鼠肝脏表达数据的实施例WGCNA分析.A.通过平均连杆等级聚类获得的基因树枝图。树木图下面的颜色行显示了由动态树切割确定的模块分配。B.基因网中拓扑重叠的热映射图。在热图中,每行和柱对应于基因,浅色表示低拓扑重叠,并且逐渐较暗的红色表示更高的拓扑重叠。沿着对角线的较暗的平方对应于模块。基因树木和模块分配沿左侧和顶部显示。C.模块EigEngenes的分层群集总结在聚类分析中发现的模块。树木图(META模块)的分支组合在一起呈正相关的eigengenes。D.特征网络中的邻接互联网的热图曲线图,包括特征重量。 Each row and column in the heatmap corresponds to one module eigengene (labeled by color) or weight. In the heatmap, green color represents low adjacency (negative correlation), while red represents high adjacency (positive correlation). Squares of red color along the diagonal are the meta-modules. E. A scatterplot of gene significance for weight (GS, Equation2)与模块成员(MM,等式6)在棕色模块中。GS和MM表现出非常显着的相关性,暗示棕色模块的轮毂基因也倾向于与重量高度相关。F.棕色模块中30个最高连接基因的网络。在该网络中,我们只显示相应拓扑重叠的连接高于0.08的阈值。

D e n 年代 t y 一个 σ. σ. j 一个 j n n - 1 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiraqKaemyzauMaemOBa4Maem4CamNaemyAaKMaemiDaqNaemyEaKNaeiikaGIaemyqae0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaqhaaqaaiabdMgaPjabdQgaQbqaaiabcIcaOiabdghaXjabcMcaPaaaaeaacqWGQbGAcqGHGjsUcqWGPbqAaeqacqGHris5aaqaaiabdMgaPbqabiabggHiLdaabaGaemOBa42aaWbaaeqabaGaeiikaGIaemyCaeNaeiykaKcaaiabcIcaOiabd6gaUnaaCaaabeqaaiabcIcaOiabdghaXjabcMcaPaaacqGHsislcqaIXaqmcqGGPaqkaaaaaa@5AE0@
(7)

在哪里一个表示这一点n×n模块的基因所形成的子网络所对应的邻接矩阵.另一个有用的概念是聚类系数的基因,这是一个“浮灵”的衡量标准[34.].具体地说,

C l u 年代 t e r C o e f σ. l σ. l 一个 l 一个 l 一个 σ. l 一个 l 2 - σ. l 一个 l 2 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4qamKaemiBaWMaemyDauNaem4CamNaemiDaqNaemyzauMaemOCaiNaem4qamKaem4Ba8MaemyzauMaemOzay2aaSbaaSqaaiabdMgaPbqabaGccqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaWgaaqaaiabdMgaPjabdYgaSbqabaGaemyyae2aaSbaaeaacqWGSbaBcqWGTbqBaeqaaiabdggaHnaaBaaabaGaemyBa0MaemyAaKgabeaaaeaacqWGTbqBcqGHGjsUcqWGPbqAcqGGSaalcqWGSbaBaeqacqGHris5aaqaaiabdYgaSjabgcMi5kabdMgaPbqabiabggHiLdaabaWaaiWaaeaadaqadaqaamaaqababaGaemyyae2aaSbaaeaacqWGPbqAcqWGSbaBaeqaaaqaaiabdYgaSjabgcMi5 kabdmgapbqabiabgghildaacagloagaayzkaawaawbaaeqabagaegomaidaaiabgkhitmaaqababagaeiikagiaemyyae2aasbaaeaacqwgpbqacqwgsbabaeqaaiabcmcapmaacaaabeqaaiabikdayaaaaeaacqwgsbabcqghgjsucqwgpbqaaeqacqghris5aagaay5eaiaaw2haaaaacqgguaglaaa@77ab@
(8)

在未加权的网络中,ClusterCoef当且仅当所有邻居的基因等于1也是相互联系的。对于加权网络,0≤一个IJ.≤1表示0≤ClusterCoef≤1 (5].平均聚类系数被用来衡量模块结构在网络中的存在程度[26.34.].

类别5:模块化结构模拟微阵列数据的功能

简单但足够逼真的模拟数据通常对于评估新型数据挖掘方法来说往往是重要的。WGCNA包包括仿真功能SimulatedateSxpr,SimulateMultieXPR,SimulatedAtexpr5Modules,导致具有可自定义模块化(群集)结构的表达式数据集。用户可以通过指定一组种子Eigengenes,每个模块的种子Eigengenes选择模块化结构,每个模块都构建。模拟模块基因以表现出与种子的逐渐降低的相关性,这导致血管内连续较低的基因。用户可以指定模块大小和背景基因的数量,即模块之外的基因。可以模拟种子EIGENGENES以反映模块之间的依赖关系(函数simulategengenetwork)。

类别6:可视化功能

表达式数据中的模块结构和网络连接可以通过几种不同的方式进行可视化。例如,共表达模块结构可以通过使用TOMplot功能生成的基因-基因连接的热图来可视化。图中给出了例子2C4B..另一种选择是多维缩放图;图中给出了一个例子2B..模块之间的关系可以通过特征基因的层次聚类树状图或对应的特征基因网络的热图(功能标签为heatmap)来总结,如图所示3C,D,4C,D.该包包括几个额外的功能,旨在帮助用户可视化输入数据和结果。这些函数依赖于R和sma包提供的基本绘图函数[35.]和域[36.].

第7类:用于与其他软件包连接的功能

为了增强WGCNA结果与其他网络可视化包和基因本体分析软件的集成,我们创建了几个r函数和相应的教程。例如,我们的R函数ExportNetWorkToVisant和ExportNorwworkTocyToscape允许用户以适合Visant的格式导出网络[37.]及Cytoscape [38.),分别。

我们的在线R教程还展示了如何将WGCNA结果与R中直接可用的基因本体包连接起来,例如GOSim [39.].许多基于基因本体论的功能富集分析软件程序,如David [40],Amigo [41.],webgestalt [42.只需将基因标识符列出作为输入。Ingenueny途径分析允许用户输入基因表达数据或基因标识符。

鼠标数据应用程序

作为一种可以用WGCNA进行的分析类型的示例,我们描述了来自雌性小鼠的肝脏表达数据的网络分析。该分析的数据和生物学发现已描述于[14.].简单地说,用超过23,000个探针组的微阵列测量了雌性小鼠肝脏中的mRNA水平。除表达数据外,还测量了多种生理和代谢特性。由于计算原因,[14.限制在3600个最相关的基因,为简单起见,我们将使用相同的基因组(尽管我们注意到所提出的包装也能够处理所有基因)。虽然我们使用相同的数据,但模块检测方法略有不同,结果相似但不相同。用于执行此分析的代码是在我们的网页上发布的教程的一部分。

网络和18个识别的模块在图中示出4a,b.要了解模块的生理学意义,我们将18个模块eigengenes与体重,胆固醇水平,胰岛素水平等生理特性相关联。完整的模块特征相关表在附带的教程中介绍。

在下面,我们将只考虑小鼠体重作为样本性状。以下三个模块的模块特征基因与体重高度相关:棕色(409个基因,与体重相关)r= 0.59,相关p值p= 5×10-14年),红色(221个基因,r= 0.51,p= 3×10-10年)和鲑鱼(91个基因,r= 0.43,p= 2×10-7).

我们使用了在线软件David [40[确定是否在已知的基因本体中判断三种体重相关模块是否显着富集。棕色模块在“糖蛋白”分类中有显着富集(p= 2×10-24年,本杰明校正)和“信号”(p= 1 × 10-22年).红色模块富集在“细胞周期”(p= 9×10-24年)及“染色体”(p= 5×10-20).鲑鱼模块在“脂质合成”类别中最具显着富集(p= 1 × 10-16年).总的来说,高富集分数表明这些模块确实具有生物学意义。

为了研究模块之间的关系,我们将它们的特征因子关联起来。一般情况下,模块之间的关系可以通过特征基因之间的关联网络(即特征基因对应的节点)来研究。在这些模块之间的元网络中,模块之间的邻接关系反映了模块特征基因之间的相关性,特征基因中的模块称为元模块[12.].诸如体重等的样品特征可以作为EIGENGENE网络的附加节点结合。样品特征和Eigengene之间的邻接有时被称为egengene意义[11.].数据4C,D使用树形图(层次聚类树)和热图来描述特征基因网络。我们发现特征基因可能表现出高度显著的相关性,例如红色和棕色模组是高度相关的。相关的特征基因组对应于元模块,可识别为特征基因树状图的分支,并沿热图对角线呈红色方形。数据4C表示有四个元模块(分支)。体重属于将蓝色、棕色、红色、鲑鱼色和黄色模块组合在一起的元模块。在实践中,很难确定元模块底层的模块是否真正不同,或者是否应该合并它们。有时基因本体信息可以提供一些线索。

有趣的是,在与体重相关的模块中发现位于中心位置的模块内hub基因,因为它们的表达谱代表了整个模块的表达[11.].要找到模块内的枢纽基因,可以使用模块隶属度度量K,方程6.数字4E显示了基于体重的基因显著性测量之间的散点图GS.,方程2和brown模块中的模块成员关系。

基因意义和模块隶属之间的高相关意味着棕色模块中的常规也与体重高度相关。这表明基因意义和模块隶属(颅内连接)可以在系统生物筛选方法中组合用于寻找体重相关基因的生物筛选方法[15.].数字4F.显示棕色模块中最相关基因中的游戏图。此简要说明说明WGCNA如何导致在独立数据集中需要验证的可测试假设。这个例子和数字的教程4可以在我们的网页上找到。

教程

我们提供了一套全面的在线教程,指导用户通过相关网络分析的主要步骤。本教程提供了用户可以复制并粘贴到R会话中的R代码,以及输入和输出的注释和解释。代码被组织成简短的部分,每个部分处理一个特定的任务。特别是,本教程涵盖了以下主题:相关网络构建、分步和自动模块检测、共识模块检测、特征基因网络分析、差分网络分析、与外部软件包的接口和数据仿真。本教程使用了模拟和真实的基因表达数据集。

讨论

WGCNA包与R的其他网络相关封装互补,例如Bioconductor中的一般网络结构[6,基因网络富集分析[43.]基因共表达网络的功能分析[44.),和其他人。虽然大多数现有的包只关注非加权网络,但WGCNA实现了加权和非加权相关网络的方法。WGCNA可以作为一种数据探索工具,也可以作为一种基因筛选(排序)方法。例如,WGCNA可以用来探索网络中的模块(集群)结构,测量基因与模块之间的关系(模块隶属信息),探索模块之间的关系(特征基因网络),以及对基因或模块进行排序(例如它们与样本特征的关系)。WGCNA可用于生成可检验的假设,用于独立数据集的验证。例如,WGCNA可能表明一个模块(例如一个假定的途径)与疾病结局相关。由于相关网络是基于数量变量之间的相关性,我们可以使用相关检验p-value [1或以回归为基础的p值来评估变量对之间的统计显著性。例如,可以直接给模糊模块的隶属度度量附加一个显著性级别 K c o r 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa @ 369C @ .标准微阵列数据挖掘技术与基因共表达网络分析的关系在[11.].

用户应该意识到在WGCNA包中实现的方法的局限性。首先,WGCNA假设微阵列数据已经经过适当的预处理和标准化。为了规范化表达数据,Bioconductor包中实现了几个R函数[45.].虽然所有的归一化方法在数学上都与WGCNA兼容,但我们建议使用生物学上最有意义的归一化方法来考虑应用。第二,与大多数其他数据挖掘方法类似,WGCNA在处理技术人工制品、组织污染或糟糕的实验设计时,结果可能会有偏差或无效。第三,虽然实现了几种共表达式模块检测方法,但该包没有提供确定哪种方法最好的方法的方法。虽然默认的分层聚类方法在几个实际数据应用程序中表现良好,但最好将这些方法和其他方法在多个实际基准数据集上进行比较。第四,这个包仅限于无向网络。已有文献介绍了边的定位和有向网络的构造方法,如[46.- - - - - -48.].

结论

WGCNA R包提供了一组全面的功能,用于执行加权相关网络分析。WGCNA包也可用于描述基因表达谱,图像数据,遗传标记数据,蛋白质组学数据和其他高维数据之间的相关结构。

可用性和需求

项目名称:WGCNA R包

项目主页:欧宝直播官网apphttp://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

操作系统:平台独立

编程语言:R

许可证:GNU GPL 3

致谢

我们要感谢董俊、Tova Fuller、Dan Geschwind、Winden Kellen、Wen Lin、Jake Lusis、Mike Mason、Jeremy Miller、Paul Mischel、Stan Nelson、Mike Oldham、Angela Presson、Atila Van Nas和Lin Wang的有益讨论和建议。这项工作得到了P50CA092131、5P30CA016042-28和NS050151-01的部分资助。

参考文献

  1. 1。

    Fisher RA:在小样本推导的相关系数的“可能的误差”上。密特隆1915,1:1-32。

    谷歌学者

  2. 2。

    周X,Kao MC,Wong W:基因表达数据的最短路径分析的转异质功能注释。Proc Natl Acad Sci USA2002、99(20):12783 - 12788。

    公共医学中心中科院文章PubMed.谷歌学者

  3. 3.

    Steffen M,Petti A,Aach J,D'Haeeleer P,教堂G:信号转导网络的自动建模。欧宝娱乐合法吗2002年,3:34。

    公共医学中心文章PubMed.谷歌学者

  4. 4。

    王志强,王志强,王志强:保守基因模块的基因共表达网络。科学2003、302(5643):249 - 255。

    中科院文章PubMed.谷歌学者

  5. 5。

    张志强,张志强,张志强。基于遗传算法的基因共表达网络分析。Stat Appl Genet Mol Biol2005,4:第17条。

    谷歌学者

  6. 6.

    作者简介:凯瑞(Carey VJ), Gentry J (Gentry J), Whalen E (Whalen E), Gentleman R (Gentleman R)。生物信息学2005年,21日:135 - 136。

    中科院文章PubMed.谷歌学者

  7. 7.

    基于经验的贝叶斯方法推断大规模基因关联网络。生物信息学2005年,21(6):754 - 764。

    中科院文章谷歌学者

  8. 8.

    庄春林,陈春明,谢桂生:一种基于模式识别的遗传滞后相互作用研究。生物信息学2008年,24(9):1183 - 1190。

    中科院文章PubMed.谷歌学者

  9. 9.

    Cokus S,Rose S,Haynor D,Gronbech-Jensen N,Pellegrini M:在酵母酿酒酵母中建模细胞周期转录因子网络。欧宝娱乐合法吗2006,7:381。

    公共医学中心文章PubMed.谷歌学者

  10. 10。

    陆Horvath)年代,张B,卡尔森M, K,朱年代,Felciano R, Laurance M,赵W,蜀Q,李Y,舍,Liau L,吴H, Geschwind D, Febbo P, Kornblum) H, Cloughesy T,纳尔逊年代,米歇尔P:致癌信号网络分析在胶质母细胞瘤识别该小说作为一个分子的目标。Proc Natl Acad Sci USA2006、103(46):17402 - 17407。

    公共医学中心中科院文章PubMed.谷歌学者

  11. 11.

    董军:基因共表达网络分析的几何解释。PLO计算生物学2008.

    谷歌学者

  12. 12.

    Langfelder P,Horvath S:Eigengene网络用于研究共表达模块之间的关系。BMC系统生物学2007年,1:54。

    公共医学中心文章PubMed.谷歌学者

  13. 13。

    张博,方志刚,王志刚,王志刚:基因连接、功能和序列守恒:酵母共表达网络的预测。BMC基因组学2006.,7(40):

    谷歌学者

  14. 14。

    Ghazalpour A,Doss S,Zhang B,Plaisier C,Wang S,Schadt E,Thomas A,Drake T,Lusis A,Horvath S:集成遗传和网络分析,表征与小鼠重量相关的基因。公共科学图书馆遗传学2006年,2 (8):e130。

    公共医学中心文章PubMed.谷歌学者

  15. 15.

    基于加权基因共表达网络分析方法的小鼠体重分析。哺乳动物的基因组2007年,6(18):463 - 472。

    文章谷歌学者

  16. 16。

    张Emilsson V, Thorleifsson G B, Leonardson,辛克F,朱J,卡尔森,Helgason,沃尔特斯G, Gunnarsdottir年代,Mouy M, Steinthorsdottir V, Eiriksdottir G, Bjornsdottir G, Reynisdottir我,配图D, Helgadottir,采取,采取,Styrkarsdottir U, Gretarsdottir年代,Magnusson K, Stefansson H, Fossdal R, Kristjansson K,Gislason H, Stefansson T, Leifsson B, Thorsteinsdottir U, Lamb J, Gulcher MJ, Reitman, Kong A, Schadt E, Stefansson K:基因表达的遗传学及其对疾病的影响。自然2008、452(7186):423 - 8。

    中科院文章PubMed.谷歌学者

  17. 17.

    van Nas A, Guhathakurta D, Wang S, Yehya S, Horvath S, Zhang B, Ingram Drake L, Chaudhuri G, Schadt E, Drake T, Arnold A, Lusis A:阐明性腺激素在两性二态基因共表达网络中的作用。内分泌学2008.

    谷歌学者

  18. 18.

    《人类和黑猩猩大脑中基因共表达网络的保护与进化》。Proc Natl Acad Sci USA2006、103(47):17973 - 17978。

    公共医学中心中科院文章PubMed.谷歌学者

  19. 19.

    阿尔茨海默病和正常衰老中转录变化的系统水平分析。J >2008年,28(6):1410 - 1420。

    公共医学中心中科院文章PubMed.谷歌学者

  20. 20.

    Oldham MC, Konopka G, Iwamoto K, Langfelder P, Kato T, Horvath S, Geschwind DH:人脑转录组的功能组织。自然神经科学2008年,11(11):1271 - 1282。

    公共医学中心中科院文章PubMed.谷歌学者

  21. 21.

    凯勒MP,崔Y,王P,带戴维斯D, Rabaglia我,ole, Stapleton DS, Argmann C, Schueler KL,爱德华兹,斯坦伯格哈,Chaibub否决权E, Kleinhanz R,特纳年代,Hellerstein可,斯凯特EE,扬德尔BS, Kendziorski C,阿克塞罗德广告:2型糖尿病的基因表达网络模型在胰岛细胞周期调控糖尿病易感性的链接。基因组Res2008年,18(5):706 - 716。

    公共医学中心中科院文章PubMed.谷歌学者

  22. 22。

    Presson A, Sobel E, Papp J, Suarez C, Whistler T, Rajeevan M, Vernon S, Horvath S:整合加权基因共表达网络分析在慢性疲劳综合征中的应用。BMC系统生物学2008.,2(95):

    谷歌学者

  23. 23。

    Weston D,Gunter L,Rogers A,Wullschleger S:将基因,共抑制模块和分子签名连接到植物中的环境应激表型。BMC系统生物学2008.,2:

    谷歌学者

  24. 24。

    Wilcox Rr:强大估计和假设检测介绍.学术出版社;1997年。

    谷歌学者

  25. 25。

    YIP A,Horvath S:基因网络互连和广义拓扑重叠度量。欧宝娱乐合法吗2007年,8:22。

    公共医学中心文章PubMed.谷歌学者

  26. 26。

    张志强,王志强,王志强,等。代谢网络模块化的层次结构研究。科学2002、297(5586):1551 - 1555。

    中科院文章PubMed.谷歌学者

  27. 27。

    李志强,李志强,李志强:基于多节点拓扑重叠测度的网络邻域分析。生物信息学2007,23(2):222-231。

    文章PubMed.谷歌学者

  28. 28。

    考夫曼L,卢梭P:在数据中查找组:集群分析介绍.纽约:John Wiley & Sons, Inc;1990.

    谷歌学者

  29. 29.

    张斌,张立军,张立军:基于层次聚类树的聚类定义:动态树切割包。生物信息学2008,24(5):719-720。

    中科院文章PubMed.谷歌学者

  30. 30。

    Dudoit S, Fridlyand J:一种基于预测的重采样方法,用于估计数据集中的聚类数量。基因组Biol.2002,3(7):Research0036。

    公共医学中心文章PubMed.谷歌学者

  31. 31.

    Hastie T, Tibshirani R, Sherlock G, Eisen M, Brown P, Botstein D:基因表达阵列缺失数据的输入。技术报告,斯坦福统计局1999.

    谷歌学者

  32. 32.

    Troyanskaya O, Cantor M, Sherlock G, Brown P, Hastie T, Tibshirani R, Botstein D, Altman RB: DNA微阵列缺失值估算方法。生物信息学2001,17(6):520-525。

    中科院文章PubMed.谷歌学者

  33. 33.

    董婧,霍瓦斯:理解模块中的网络概念。BMC系统生物学2007年,1:24。

    公共医学中心文章PubMed.谷歌学者

  34. 34。

    Watts DJ, Strogatz SH:“小世界”网络的集体动态。自然1998,393(6684):440-2。

    中科院文章PubMed.谷歌学者

  35. 35。

    陈志强,杨永强,陈志强,等。基因芯片技术在不同基因表达中的应用。Statistica中央研究院2002.

    谷歌学者

  36. 36。

    (2006) FDT:领域:空间数据工具。技术代表,国家大气研究中心,Boulder, CO2007.[http://www.image.ucar.edu/GSP/Software/Fields

    谷歌学者

  37. 37。

    王志强,王志强,王志强。基于神经网络的系统生物学研究。短暂Bioinform2008年,9(4):317 - 325。

    公共医学中心中科院文章PubMed.谷歌学者

  38. 38。

    Wang JT, Ramage D, Amin N, Schwikowski B, Ideker T: Cytoscape:一种生物分子相互作用网络集成模型的软件环境。基因组研究2003年,13(11):2498 - 2504。

    公共医学中心中科院文章PubMed.谷歌学者

  39. 39。

    GOSim -一个用于计算术语和基因产物之间的信息理论GO相似性的r -包。欧宝娱乐合法吗2007.8:

    谷歌学者

  40. 40。

    杨建军,杨建军,高伟,Lane H, Lempicki R: DAVID:面向标注、可视化和集成发现的数据库。基因组Biol.2003,4(5):P3。

    文章PubMed.谷歌学者

  41. 41。

    Ashburner M,Ball Ca,Blake Ja,Botstein D,Butler H,Cherry JM,Davis Ap,Dolinski K,Dwight SS,EPPIG JT,Harris Ma,Hill DP,ISSEL-Tarver L,Kasarskis A,Lewis S,Matese JC,Richardson Je,Ringwald M,Rubin Gm,Sherlock G:基因本体:生物学统一的工具。Nat麝猫2000年,25日:25 - 29。

    公共医学中心中科院文章PubMed.谷歌学者

  42. 42。

    张B,Kirov S,Snoddy J:WebGestAlt:一种用于探索各种生物背景中基因集的集成系统。核酸Res2005, 33(Web服务器版本):W741-W748。

    公共医学中心中科院文章PubMed.谷歌学者

  43. 43.

    Liu M,Liberzon A,Kong SW,Lai Wr,Park PJ,Kohane是,KASIF S:3型糖尿病模型中受影响的生物过程的网络分析。公共科学图书馆麝猫2007年,3 (6):e96。

    公共医学中心文章PubMed.谷歌学者

  44. 44.

    Hegar C,Clement K,Zucker JD:无监督的多实例学习基因组数据的功能分析。在机器学习:ECML 2006.Springer Berlin / Heidelberg;2006年:186-197。

    谷歌学者

  45. 45.

    绅士R,Huber W,Carey V,Irtizarry R,Dudoit S:使用R和Biocumon的生物信息学和计算生物学解决方案。在.斯普林格出版社纽约;2005.

    谷歌学者

  46. 46。

    从关联到因果网络:一种简单的近似学习算法及其在高维植物基因表达数据中的应用。BMC系统生物学2007.,1:

    谷歌学者

  47. 47。

    利用遗传标记定位定量性状网络的边缘:NEO软件。BMC系统生物学2008.,2:

    谷歌学者

  48. 48。

    Chaibub Neto E, Ferrara CT, Attie AD, Yandell BS:从分离群体推断因果表现型网络。遗传学2008、179(2):1089 - 1100。

    公共医学中心文章PubMed.谷歌学者

下载参考

作者信息

从属关系

作者

相应的作者

对应到Steve Horvath.

附加信息

作者的贡献

两位作者共同开发了这种方法并撰写了这篇文章。PL将这些函数打包到R包中。两位作者都阅读并批准了最终的手稿。

作者的原始提交的图像文件

权利和权限

本文在BioMed Central Ltd.的许可下发布了这是一个开放的访问文章,根据欧宝体育2021足球欧洲杯买球平台Creative Commons归因许可(http://creativecommons.org/licenses/by/2.0),允许在任何媒介上无限制地使用、分发和复制,但必须正确引用原作。

再版和权限

关于这篇文章

引用这篇文章

Langfelder,P.,Horvath,S.WGCNA:用于加权相关网络分析的R包。欧宝娱乐合法吗9,559(2008)。https://doi.org/10.1186/1471-2105-9-559

下载引用

关键字

  • 相关网络
  • 会员模块
  • 模块eigengene.
  • 棕色模块
  • 分层集群系统树图