跳到主要内容

代谢组关联研究中的多次测试校正

摘要

背景

在处理高维、嘈杂和共线性的多变量组学数据(如代谢组学图谱)时,寻找分子标记物和结果之间的统计显著关系是一项挑战。排列程序允许估计调整的显著性水平,而不假设代谢组变量之间的独立性。然而,代谢谱和结果的复杂非正常结构可能会使排列结果产生偏差,导致过于保守的阈值估计,即低于Bonferroni或Sidak校正的阈值估计。

方法

在单变量排列过程中,我们采用了基于多元(log-)正态分布的参数模拟方法,以获得调整的显著性水平,这些显著性水平在不同结果之间是一致的,同时有效地控制了I型错误率。接下来,我们推导了基于非冗余代谢变量相关矩阵的谱分解的非冗余代谢变量数量估计的另一种闭式表达式。该方法的性能测试不同的模型参数化和跨广泛的相关水平的变量使用合成和真实数据集。

结果

我们发现,基于排列的公式和更实用的封闭形式表达式都能有效地表明系统所表现出的独立代谢效应的数量,同时保证推导出的调整阈值在具有不同性质的结果度量中是稳定的。

背景

在组学研究中,为每个个体收集了数以百计到数以万计的分子变量,从而得到高度共线的高维多元数据。在分析这些数据时,许多假设检验是同时进行的,因此针对多重检验进行调整的有效方法是一个中心课题,特别是在全代谢组关联研究(MWAS)的背景下[1]。目的是检测分子浓度和疾病结果之间的统计学显着关系,同时最小化假阳性关联的风险。使用广泛使用的多种测试方法是错误的发现率(FDR)[2,它控制着所有被拒绝的假设中错误被拒绝的预期比例。这种方法在独立或阳性依赖试验中是有效的。虽然已经有一些尝试处理相关测试,如[3.]提出了一个简单但高度保守的过程,在一般的测试之间的相关性仍然是一个问题的FDR方法。除FDR校正外,家族级错误率(FWER)程序控制了至少一个错误结论(即至少一个I型错误)的概率。与FDR相比,FWER提供了更严格的I型错误控制。然而,传统的wer方法,如Bonferroni [4.或Sidak [5.当测试相关时,已知调整过度保守。另一方面,基于重采样的方法,例如排列测试是标准工具,以同时评估不同相关分子量与感兴趣的结果的关联。这些程序可以以参数或非参数方式进行。参数方法是当假设(例如数据的正常性)保持相对高的功率时的优选方法。然而,在MWA的上下文中,代谢型材非常罕见地通常分布也不存在对称分布,这可能偏离所选择的意义测试的结果。

因此,本研究的首要目标是克服这个问题,并在具有不同分布特性的结果中得出一个有效而稳定的代谢组范围显著性水平(MWSL)。该方法基于参数逼近方法构建的置换过程,通过多元正态分布和对数正态分布来描述代谢谱集,同时保留其复杂的相关结构,直到二阶矩。同时有效地控制预期的总体I型错误率\α(\ \)的水平。虽然所提出的基于反采样的方法准确且渐近地一致,但它需要密集的计算。在基因组研究的背景下,在估计非冗余分子量的数量的基于闭合形式的基于特征值的基于分子变量的光谱分解的基于闭合的特征值的测量的背景下,已经有几次尝试制定问题。[6.7.8.9.), (10.发现不充分准确地作为所提出的置换过程的有效替代品。因此,本研究的第二个目的是导出MWSL的无置换闭合形式估计,以表达非冗余分子量的数量。基于置换的MWSL制定和更实用的闭合表达式在合成和实际数据上测试。

方法

基于置换的MWSL估计

置换算法

假设数据由N.观察,让y成为利益的结果,\ (X =(间的{1},\ ldots间{M}) ^ T \)的向量m预测器或特征,和\ (Z = (Z_ {1}, \ ldots Z_ {P}) ^ T \)的向量P.固定的协变量的影响。基于排列的MWSL估计可以描述如下。

  • 步骤(1):洗牌,即重新取样,不替换结果变量y和一组固定的效果混杂Z.如果有的话。以这种方式,N.受试者在无关联的无效假设下重新采样。

  • 步骤(2):估计结果和特征集之间的关系,同时考虑可能的混杂效应,计算m回归模型以单变量的方法,即一次使用一个特征。从每个型号存储P.价值与兴趣的特征相关联。在适当的情况下,可以使用回归方法以外的方法来检验关联,如相关或t检验。

  • 步骤(3):提取集的最小值mP.值表示拒绝所有的最高阈值m零假设。

  • 步骤(4):重复步骤(1)- (3)K.次,在哪里K.至少是N./2次 [11.]。的K.最低P.值是新矢量的元素问:

  • 步骤(5):对问:,并把(\αK (\ \))-这个向量的值。这个值是MWSL估计值。将MWSL估计的真实位置作为一个带参数的二项随机变量,可以得到一个近似置信区间K.\α(\ \)。然后,使用正常近似到二项式,我们获得了\(z _ {(1- \ alpha)\%} \)通过提取元素来限制问:在职位上下午\(αK)(\ \ \{α(1 - \ \√{\αK(1 -α)\}\}\)

  • 步骤(6):计算使用Bonferroni校正ENT =获得相同意义级别所需的独立测试数量的有效测试(ENT)的有效测试数量\(\ frac {\ alpha} {\ text {mwsl}} \)。耳鼻喉科评估测量的程度m标记是非冗余的。因此,比率r =\ \(压裂{\文本{ENT}} {M} \ % \)有效测试次数和实际测试次数(ANT或m)是特征间依赖的度量,当考虑高度相关的特征时,期望接近0%。

以前在不同的研究中以前应用了基于置换的程序。经过 [12.]来接近致密SNP和重测序数据的全基因组意义阈值,或通过[13.]的尿液代谢情况。最近在核磁共振代谢谱研究的背景下[14.]采用置换算法对血清葡萄糖水平进行一系列MWAS。与直觉相反的是,我们发现ENT的估计值大于ANT,葡萄糖的R比超过400%。利用本文提出的方法,我们将该算法推广到一个更灵活的回归环境中。13.],虽然我们提供了一个强大的框架,以避免偏见估计,如[14.]。

参数的模拟方法

置换过程的基本假设是P.值适当校准,即每个代谢物特定的P.值是均匀分布的,即P.价值\(_ m \)\(\ SIMU U(0,1)\)在哪里\ (m = 1, \ ldots m \)当零假设为真时。因为MWSL是最小值P.跨代谢物特定测试的价值,它所需要的是一个校准不好的测试与错误的小P.偏置MWSL估计的值。通常在代谢组科中,研究该特征通常不会分布。尽管如此,常态有时只有很重要。当特征和结果都有歪斜分发时,它很重要[15.],虽然当特征或结果通常分布时,它的效果很小。在这种情况下,我们通过采用多元正常和多变量的对数正常分布来描述显着性水平估计的置换方法的性质,以至少大约是相关的特征,并有效地获得MWSL的稳定估计控制最大整体I型错误率\α(\ \)的水平。我们假设数据已经集中,所以平均值等于零。因此,\(x \ sim {{\ mathcal {n}}} _ {m}(\ mu,\ sigma ^ *)\)多元正态分布是用来模拟特征集的吗\(文本{E} \μ= \ [X] =(文本{E} \[间的{1}),\ ldots文本{E} \[间{M})) ^ T = {\ mathbf {0}} \)是个m-维的零均值向量,和\(\ sigma ^ * \)是个\ ((M \乘以M) \)协方差矩阵的收缩估计[16.]。收缩估计器始终是正定的,条件良好,更有效,因此优选为无偏估计\(\ sigma \),或相关的最大可能性估算器\ \(σ_文本{毫升}}{\ \)。在特征的概率密度偏好的情况下,我们使用多元日志正常近似。在这种情况下,首先将特征转换为即,将其最小值的绝对值加上一个单元被添加到其原始值。该算法应用于真实数据和模拟场景,以说明不同模型参数化和各种类型的结果的结果,以及调查特征和特征与结果之间的不同相关级别。

ENT的实用近似

计算置换测试的经验方法P.价值受到这样一个事实的阻碍:需要大量的排列来正确地估计小的,因此有趣的P.值。因此,我们现在提出了一个更有效的替代标准排列检验来推导MWSL。从置换程序中区分非冗余变量的有效数量在Section中被定义为ENT方法,这里我们将这种实际逼近方法的估计称为Meff。以前已经证明,一组变量之间的集体相关性可以用特征值的方差(\λ(\ \)s)来自相关矩阵[6.17.]。特别地,变量之间的高相关导致高\λ(\ \)S,即当所有变量完全相关时,第一个\λ(\ \)=相关矩阵(M)中的变量个数,其余为\λ(\ \)s是零。反之亦然,在变量之间没有相关性的情况下,所有的\λ(\ \)S等于1,方差为0。因此,方差\λ(\ \)S将在零之间的范围和m。基于该概念,在基因组学领域,已经提出了几种方法,用于从变体之间的相关性估计孔。其中,[7.]建议使用方差的\λ(\ \)s估算None /完全相关变量的限制案例的ENT,以及特征值的差异与最大值的比率m为中级水平的情况。[8.)建议总结\λ(\ \)S,在代替1后\λ(\ \)S大于1。[9.]建议将ent定义为\λ(\ \)S可以解释数据内的一定百分比的变化。但是,目前尚不清楚如何选择百分比作为过大或小的价值将导致过于保守或自由的FWER。[10.]提出了一种基于\λ(\ \)S比率功能。在我们分析的背景下,这些作者提出的MEFF措施并不充分准确,作为置换过程的有效替代,我们提出了与代谢组学之间的相关性直接相关的经验闭合形式表达,如下所示

$ ${对齐}\ \开始文本{Meff} _{\文本{MWSL}} ={\离开(\压裂{\总和_ {m = 1} ^ m {\ sqrt{\λ_m}}} {\ log(\λ_1)}\右)}^{2}\ \大/ \ \离开(\压裂{\ _ {m = 1}和m ^{\λ_m}}{\λ_1}+ \ sqrt{\λ_1}\右)。\{对齐}$ $

这个公式平衡了来自\ \(λ_m \)\ (m = 1, \ ldots m \)利用第一特征值的贡献,从代谢物浓度的相关矩阵中估计特征值\ \(λ_1 \)它测量矩阵中的主要群集,其变量数和特征之间的平均相关性[18.]。该制剂对相关变化的背景感兴趣,即至少两个变体是依赖的,即\ \(λ1 _1 > \),因此\(\ log(\ lambda _1)> 0 \)

接下来,MWSL可以基于以下内容派生出来。

  • 步骤(1):计算文本\ (\ {Meff} _{\文本{MWSL}} \)用拟议的配方。

  • 步骤(2):可以基于Bonferroni校正导出MWSL I. MWSL =\(\ frac {\ alpha} {\ text {meff} _ {\ text {mwsl}}}}}}

另外,作为置换过程的替代方法的完整算法可以描述如下。

  • 步骤(1):计算文本\ (\ {Meff} _{\文本{MWSL}} \)用拟议的配方。

  • 步骤(2):下零假设下P.每种代谢物的值遵循均匀的分布,即P.价值\(_ m \)\(\ SIMU U(0,1)\),在那里\ (m = 1, \ ldots m \)。最小值的分布P.值可以通过最小阶数统计量(r=1)来近似,即\ (U_ {(1)} \ sim \)Beta(1,m),在分子变量不相关的情况下,Beta\((1米)\)\ (M \ leqslant M \)对于相关的特征。高度相关特征的极限情况\(m'= 1(<< m)\)从Beta(1,1)等于a的beta(1,1)来取样减少(0,1),因此文本\ (\ {Meff} _{\文本{MWSL}} \)可用于近似最小的分布P.从测试版中取样的值\(文本(1 \ {Meff} _{\文本{MWSL}}) \)

  • 步骤(3):MWSL及其各自的\ (z_{(1 -α)\}\)置信极限可如第(1)节所述推导置换算法“,置换过程的步骤(5) - (6)。

结果

实验代谢组学数据研究

使用MWA方法来研究人血清之间的关联\(^ {1} \)多民族动脉粥样硬化研究(MESA)的H NMR代谢谱和各种临床结果[19.]。数据已广泛描述[14.]。简而言之,队列包括参与者(51%的女性,49%的男性),44-84岁,(平均= 63岁)来自四个不同的民族:中美,非洲裔美国人,西班牙裔和高加索人,都招募2000年和2002年在美国的临床中心,在基线下没有症状心血管疾病。收集人口,病史,人体测量和生活方式数据以及糖尿病信息以及脂质和血压处理的信息。使用代谢型材使用\(^ {1} \)H NMR在600 MHz,并在[20.]。兴趣的结果是葡萄糖浓度和体重指数(BMI)。桌子1为临床结果测量的描述性统计,而表2报告研究中使用的固定效果协变量的描述性统计数据。考虑了三组NMR光谱:(1)标准水抑制一维光谱(NOESY),(2)Carr-purcell-Meiboom-Gill谱(CPMG),以及(3)较低分辨率版本CPMG数据(盒装脚注1)。BINNED版本包括m=655个特征,而NOESY和CPMG包含m= 30,590个功能。Binned数据示例包括N.= 3,500个个人,而Noesy和CPMG数据则具有N.= 3867个人。执行所有MWSL计算\(\ alpha = 0.05 \)

表1临床结果措施的描述性统计数据
表2固定效应协变量的描述性统计
表3实际数据:估计从置换方法(ENT的非冗余变体数量的比较(作为ENT估算的平均值获得的所有临床结果的平均值,通过多变量正常和多变量对数正常方法)并通过基于代谢物浓度的相关矩阵的特征值的近似程序(MEFF)
表4真实数据:MWSL估计比较置换法和近似程序生成的最小分布P.值为Beta(1,MeffMWSL
表5模拟数据:从置换方法(ENT的数量的估计比较从置换方法(作为ENT估计的所有模拟的不相关和相关结果)通过多变量正常和多变量对数所考虑的估计的平均值的比较正常方法)和通过基于代谢物浓度的相关矩阵的特征值的近似过程(MEFF)
表6模拟数据:置换方法和近似过程之间的MWSL估计比较生成最小值的分布P.价值作为beta(1,MeffMWSL
表7 BINNED数据:用括号括起来的95%置信区间的ENT估计,以及各种模拟结果测量的排列程序的I型误差估计:连续的、离散二进制的、离散计数的、事件时间生存率
表8模拟数据(ANT=655,N.T.= 1500, PCs = 350): ENT以括号内的95%置信区间估计,以及从排列程序中对各种模拟结果测量(连续、离散二元、离散计数、事件时间生存)进行的I型误差估计
图1
图1

Binned数据:跨临床结果测量的耳朵和变体的不同近似:原始数据,多变量正常,多变量对数正常。误差条代表95%的置信极限。K.= 10,000个排列

图2
figure2

CPMG数据:耳鼻喉科临床结果测量和变量的不同近似值:原始数据,多变量正常,多变量对数正常。误差条代表95%的置信极限。K.= 10,000个排列

图3
图3

noesy数据:跨临床结果测量的耳朵和变体的不同近似:原始数据,多变量正常,多变量对数正常。误差条代表95%的置信极限。K.= 10,000个排列

图4
装具

耳鼻喉科:在相关变量之间的非相关结果。误差条代表95%的置信极限。K.= 5,000个排列

图5
figure5

在相关变化的相关变化中的相关结果。误差条代表95%的置信极限。K.= 5,000个排列

根据对BINNED数据的常规排列程序,如图所示。1当考虑真实特征时,在横跨不同结果的耳朵估计中存在不稳定性,特别是葡萄糖的ENT估计在蚂蚁上方。当数据从多变量对数正常或正常模拟时,如部分中所述“参数的模拟方法“ENT估计在不同的结果上是稳定的,并且在350左右的平均ENT的特征总数低于350和R比率约50%。为了评估该结果的冗余的有效性,我们认为主要成分分析(PCA)作为估计ENT的替代方法[6.7.8.]。前350台pc所解释的累积差异比例约为99%。这与数据中有效存在350个不相关特征的解释一致。

数字2报告了耳鼻喉科对CPMG数据的估计。在没有任何转换的情况下,对于不同结果的ENT估计有很大的差异,特别是对于血糖水平超过R = 400%的非常高且没有意义的估计。另一方面,当组特性模拟多元正态和多变量对数正态分布分布对应的ENT估计是下面的总数的特性,和稳定的不同结果平均ENT约16000特性和R比率约为50%。在这种情况下,所提出的置换法用于估计ENT的有效性是明显的,因为基于pca的ENT估计将受限于pc的最大数量(\ \ (n = 3866)如马克斯。电脑是N.1)。

数字3.报告NOES数据的估计值低于r = 100%,但在考虑原始功能集时,跨结果都有所不同。当考虑来自多变量(log-)正常分布的模拟特征被认为是我们获得的较低的ENT值,而不是来自CPMG数据的较低的值,平均ENT为约2700个特征,R比率约为9%。由于与NOESY相比,该结果是由于CPMG光谱中的宽信号的影响降低,与NOESY相比,这与较弱的协方差结构相关联。通过将PCA应用于Noesy数据,前2,700个PC解释的累积比例约为99%,这符合我们的研究结果。

接下来,利用“ENT的实用近似,我们推导出被提议的文本\ (\ {Meff} _{\文本{MWSL}} \)。桌子3.提供与[7.8.9.), (10.],以及排列过程的ENT估计,它是通过多元和对数多元正规变换得到的结果的平均估计。考虑到特征值结构在非常大数据集情况下的复杂性,提出了一种新的算法文本\ (\ {Meff} _{\文本{MWSL}} \)在大多数情况下,似乎能够持续量化,至少大约,代谢组变量的相关结构。在这个Meff估计的基础上,为了得到MWSL及其置信限,我们从Beta(1,文本\ (\ {Meff} _{\文本{MWSL}} \)),使我们得到的MWSL估计相同的数量级,从排列程序,如表所示4.

仿真研究

我们现在通过考虑一系列分子变量的不同相关水平以及结果与变量之间的相关情况来扩大调查范围。首先,我们生成各种变量集,每个变量都有一个特定的、有界的相关水平。这是按照节中描述的算法执行的。参数算法生成合成变量”。具体来说,我们生成了九组变量,覆盖了正相关水平的整个范围。接下来,我们生成与变量相关和不相关的结果,我们将在置换过程中使用这些结果来估计不同组相关的分子变量。不相关的成果通过参数分布容易模拟不同形状,例如对称结果的正态分布,左偏斜结果的偏斜正态分布,以及右偏斜结果的威布尔分布。数字4.在相关变化和不相关结果的情况下,显示ENT估计。模拟相关的结果可以作为少数随机选择的分子变体的线性组合,包括添加噪声,或者通过基于Cholesky分解的过程,如在段中详细的算法按照“参数算法生成合成变量”。数字5.从各种合成分子变化和相关模拟结果的置换过程中显示来自置换过程的ENT估计。我们得出结论,与结果的相关性对ENT之间的关系没有可辨别的差异和变化的相关性。最后,我们申请文本\ (\ {Meff} _{\文本{MWSL}} \)近似值来导出表中的结果5.6.。排列过程中的耳鼻喉科从图中的结果中取平均值。4.5.。在这个模拟环境中文本\ (\ {Meff} _{\文本{MWSL}} \)近似优于其他可用的方法,并能很好地描述基于排列的ENT估计。

方法的验证

当一个真实的零假设被拒绝时,就会出现I型错误(假阳性)。要检查排列程序是否适用于FWER\α(\ \)级别,对于每个代谢变化和跨置换复制,我们测量I类型的错误率作为具有a的出现次数P.值小于或等于MWSL。我们不是使用原始的实际数据结果,而是使用多元(log-)Normal排列程序来计算MWSL。特别是,我们采用了一个来自正态分布的连续结果,一个来自二项分布的离散-二项结果,一个来自泊松分布的离散计数结果,以及来自Cox比例风险模型的时间到事件生存结果,如[21.]。我们在MESA BINNED数据上对我们的结果进行基准测试,同时也在使用PCA的非参数方法获得的一组合成变量上进行基准测试(见第6.2节)。我们将数据分为测试集和非测试集,计算非测试数据的PCA模型,并基于该模型对测试数据进行预测。这种方法允许我们根据真实数据的结构生成合成数据,而不涉及bootstrap/permutation方法[22.]我们已经专用用于估计MWSL。按照第7.2节算法应用于MESA Binned数据的算法,我们定义了测试通过随机抽样设置\(n_t = 1,500 \)\ (n_{{\酒吧{t}}} = 3500 - 1500 = 2000 \)分别观察。从PCA上看设置我们选择350个用于构建模拟的PC测试分子变量的集合\({{\ hat {x}}} _ t \)。桌子7.和表格8.确认MWSL过程有效地控制靠近(默认)的FWER\α(\ \)水平的5%。

结论

在本文中,我们通过估计控制家庭明智错误率的显著性水平阈值来评估多共线组学数据的单变量检验显著性。所提出的程序是基于通过单变量回归模型的迭代排列方法,而其他度量关联可以在适当的时候使用。通过多变量正态分布和多变量对数正态分布等参数方法模拟分子变量,保留数据中的相关结构,同时将假阳性率控制在期望的水平。当置换程序应用于近似数据时,MWSL在具有不同性质的结果度量中是稳定的。

在MWA中,代谢型材通常表现出高度的共同性,并且通过我们的发现,在所有场景中,当应用参数方法以近似数据的结构时,通过置换过程估计的MWSL大于通过代谢物宽的Bonferroni或SIDAK校正获得的阈值。因此,相应的ENT总是小于实际测试数量,因为它主要取决于数据内的相关程度。共同性的程度总结了R.有效测试次数与实际测试次数的比率(%)。对于本文中的示例,R.被发现为CPMG数据(高分辨率和Binned版本)的50%左右,为Noesy高分辨率约为9%。这与NOESY数据中的频谱变量之间的预期更高程度的相关性一致。与其他方法一样,可以暂时解释为置换基于置换的ENT的提出的闭合MEFF近似值作为系统呈现的独立代谢过程的数量。MWSL或MEFF估计都可以在分析的下游采用以识别差异调节的代谢物。

可用性数据和材料

MWSL是一个开源R.软件包可行的https://github.com/AlinaPeluso/PhenoMeNal。在该包中,我们提供了较低分辨率的CPMG数据,在文本中称为MESA BINNED数据。一个R教程可以作为补充材料。

笔记

  1. 1。

    装箱法是核磁共振代谢组学中一种常用的数据缩减方法。

缩写

mwas:

Metabolome-Wide关联研究

罗斯福:

假发现率

FWER:

家庭明智的错误率

MWSL:

代谢物 - 范围内的重要性水平

五官科:

有效试验次数

蚂蚁:

实际测试次数

参考文献

  1. 1。

    Holmes E, Loo RL, Stamler J, Bictash M, Yap IK, Chan Q, Ebbels T, De Iorio M, Brown IJ, Veselkov KA等。人类代谢表型多样性及其与饮食和血压的关系。大自然。2008;453(7193):396。

    中科院文章谷歌学者

  2. 2。

    控制错误发现率:一种实用而强大的多重检测方法。J R Stat Soc: Ser B(方法)。1995; 57(1): 289 - 300。

    谷歌学者

  3. 3。

    Benjamini Y, Yekutieli D等。依赖条件下多重测试中错误发现率的控制。安Stat。2001;29(4):1165 - 88。

    文章谷歌学者

  4. 4.

    Bonferroni C. Teoria的统计数据是e类calcolo delle probabilità。佛罗伦萨经济商业科学高级研究院1936;8:3-62。

    谷歌学者

  5. 5。

    Šidák z多元正态分布均值的矩形置信区域。中国医学科学杂志,1996,6(318):626-33。

    谷歌学者

  6. 6。

    金梦JM。间隔映射基因组扫描中多重比较的简单校正。遗传。2001; 87(1):52。

    中科院文章谷歌学者

  7. 7。

    一个简单的修正,多重测试单核苷酸多态性的连锁不平衡彼此。中国生物医学工程学报,2004;

    中科院文章谷歌学者

  8. 8.

    李静,季玲。基于相关矩阵特征值的多位点分析中的多重检验调整方法。遗传。2005;95(3):221。

    中科院文章谷歌学者

  9. 9.

    高晓明,杨晓东,杨晓东。使用相关的单核苷酸多态性进行遗传关联研究的多重检验校正方法。麝猫论文。2008;32(4):361 - 9。

    文章谷歌学者

  10. 10。

    Galwey NW。有效测试数量的新措施,是比较非独立意义测试的家庭的实用工具。遗传曲调。2009; 33(7):559-68。

    文章谷歌学者

  11. 11.

    牙科炎E,politis dn。定期图统计信息的本地引导。J时间肛门。1999; 20(2):193-222。

    文章谷歌学者

  12. 12.

    Hoggart CJ, Clark TG, De Iorio M, Whittaker JC, Balding DJ。致密snp和重测序数据的全基因组意义。遗传论文。2008;32(2):179 - 85。

    文章谷歌学者

  13. 13。

    Chadeau-Hyam M,EBBELS TM,Brown IJ,Chan Q,Stamler J,Huang CC,Daviglus ML,Ueshima H,Zhao L,Holmes E等。代谢分析和代谢物 - 宽协会研究:生物标志物鉴定的重要性水平。J蛋白质组。2010; 9(9):4620-7。

    中科院文章谷歌学者

  14. 14。

    Castagné R, Boulangé CL, Karaman I, Campanella G, Santos Ferreira DL, Kaluarachchi MR, Lehne B, Moayyeri A, Lewis MR, Spagou K, et al。改善全代谢组相关性研究的可视化和解释:在基于人群的队列中应用非靶向1H-NMR代谢谱。蛋白质组学杂志2017;16(10):3623-33。

    文章谷歌学者

  15. 15.

    Box Ge,Watson GS。对回归测试的非正常性的鲁棒性。Biometrika。1962; 49(1-2):93-106。

    文章谷歌学者

  16. 16。

    SchäferJ,斯特米默·克。大规模协方差矩阵估计的收缩方法和功能基因组学的影响。遗传学和分子生物学中的统计应用。2005; 4(1)。

  17. 17。

    Cheverud JM,Rutledge J,Atchley WR。作者:王莹,王莹,王莹,王莹,王莹,王莹,王莹,王莹,王莹,王莹,王莹,王莹,王莹,中国农业科进化。1983; 37(5):895-905。

    文章谷歌学者

  18. 18.

    弗里德曼S,韦斯伯格HF。解释相关矩阵的第一个特征值。心理教育。1981;41(1):11-21。

    文章谷歌学者

  19. 19.

    《图片报》,Bluemke DA, Burke GL, Detrano R, Diez Roux AV, Folsom AR, Greenland P, JacobsJr DR, Kronmal R, Liu K,等。动脉粥样硬化的多民族研究:目的和设计。流行病学杂志。2002;156(9):871-81。

    文章谷歌学者

  20. 20.

    Karaman I, Ferreira DL, Boulangé CL, Kaluarachchi MR, Herrington D, Dona AC, Castagné R, Moayyeri A, Lehne B, Loh M,等。大规模代谢流行病学中多队列非靶向1h nmr代谢组学数据集成处理的工作流。蛋白质组学杂志2016;15(12):4188-94。

    中科院文章谷歌学者

  21. 21.

    计算生存时间来模拟cox比例风险模型。Stat地中海,2005;24(11):1713 - 23所示。

    文章谷歌学者

  22. 22。

    黑斯廷斯WK。Monte Carlo采样方法使用马尔可夫链及其应用;1970年。

  23. 23。

    海厄姆新泽西。计算最接近的相关矩阵——一个来自金融的问题。中国科学院研究生院学报。2002;22(3):329-43。

    文章谷歌学者

  24. 24。

    Martens H,Martens M.多变量分析质量。一个介绍。布里斯托尔:IOP出版;2001年。

    谷歌学者

  25. 25。

    Horizo​​ n2020 EC。现象(苯组和代谢分析):医学代谢组织大规模计算(2015-2018)。https://phenomenal-h2020.eu/

下载参考

致谢

我们感谢Marc Chadeau-Hyam博士和Raphaele Castagne博士进行有用的讨论。

资金

这项工作是“现象”项目的一部分[25.],欧盟委员会授予EC654241。罗伯特C Glen和Timothy M D EBBELS由NIHR Imperial Biomedical研究中心(BRC)部分支持。资金机构在研究的设计,收集,分析,解释或写作稿件的设计中没有发挥任何作用。

作者信息

从属关系

作者

贡献

AP执行了所有分析,并写了稿件。AP产生了R软件实现。AP和TE构思并计划该项目。TE和RG监督整个工作。RG为分析提供资金。所有作者都修订并批准了最终的稿件。

相应的作者

对应到Timothy M. D. EBBELS

伦理宣言

同意出版物

不适用。

伦理批准和同意参与

不适用。

利益争夺

Timothy M D Ebbels是编辑委员会成员。作者们宣称他们没有相互竞争的利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1

。MWSL R教程。

附录

附录

参数算法生成合成变量

  • 步骤(1):生成一个正方形\ ((M \乘以M) \)相关矩阵一种假设所有变量都有单位方差,即m对角线上的元素是1。的\([m(m-1)] / 2 \)从一定间隔的均匀分布中采样上三角矩阵的元件,例如,通过一定间隔。间隔内的高相关水平[0.75,0.85],[0.45,0.55]中的中相关性,或[0.25,0.35]中的低相关性。下三角形元素从上三角形复制。

  • 步骤(2):作为\λ(\ \)S of.一种必须大于零,计算S.作为与相关矩阵最接近的正定一种达到\(\ {\ min {{\ left \ | a-s \ light \ |} _f:\,s \,\ text {是一个相关矩阵} \} \),在那里\({\ left \ | a \ light \ |} ^ 2_f = \ sum _ {i,j} a ^ 2_ {ij} \)如[23.]。

  • 步骤(3):推导下三角矩阵L.通过矩阵的Cholesky分解S.这样S.=”。

  • 步骤(4):m多变量正常特征,零意味着产品ZL在。。之间\ ((n \乘以M) \)矩阵Z.m随机n(0,1)i.i.d.功能,和\ ((M \乘以M) \)下三角矩阵L.。模拟功能的相关性非常接近矩阵中分配的那些一种

生成合成变量的非参数算法

  • 步骤(1):随机抽样\(n_t \)从原始数据矩阵的变量观察X,构建\ ((n_t \乘以M) \)测试一套变体\(x_t \),\ (n_{{\酒吧{t}}} \乘以M) \)\(间的{{\酒吧{t}}} \),\(n_t \ (n_{{\酒吧{t}}} = n-n_t \)

  • 步骤(2):标准化测试集合通过减去他们各自的列向量的意思即。\μ_t (\ \)\ \(μ_{{\酒吧{t}}} \),除以标准差,即\(\ sigma _t \)\(\ sigma _ {{\ bar {t}}}} \),分别获得\ (Z_t \)\(z _ {{\ bar {t}}}} \)

  • 步骤(3):计算PCA通过奇异值分解(SVD)使之\ (Z_{{\酒吧{t}}} = U_{{\酒吧{t}}} \σ_{{\酒吧{t}}} V_{{\酒吧{t}}} ^ t \),在那里\(v _ {{{\ bar {t}}} ^ t \)是个\ ((M \乘以M) \)矩阵的负载,而PC得分作为乘积\((n _ {{{\ bar {t}}} \ times n _ {{\ bar {t}}})\)矩阵\ (U_{{\酒吧{t}}} \)特征向量的\ (Z_{{\酒吧{t}}} Z_{{\酒吧{t}}} ^ t \),\ (n_{{\酒吧{t}}} \乘以M) \)对角矩阵\(\ sigma _ {{\ bar {t}}}} \)

  • 步骤(4):使用装载机\(v _ {{\ bar {t}}}} \)结合测试\(x_t \)计算\((n_t \ times m)\)矩阵\({{\帽子{你}}}_t{\σ}}{\帽子_t \)PC预测得分测试集,即。\({{\帽子{你}}}_t{\σ}}{\帽子_t = X_t V_{{\酒吧{t}}} \)

  • 步骤(5):建立\((n_t \ times m)\)模拟测试一套变体\(\ hat {z_t} \)为第(4)步中预测得分与负荷矩阵的乘积\(v _ {{{\ bar {t}}} ^ t \)从步骤(3)这样\({{\帽子{Z}}} _t ={{\帽子{你}}}_t{\σ}}{\帽子_t V_{{\酒吧{t}}} ^ t \)。我们注意到这一点S.PC,有\ (le M S \ \),可选用于预测,因此\({{\帽子{Z}}} _t \)将导致产品的产品\((n_t \ times s)\)PC矩阵和\((s \ times m)\)装载矩阵。

  • 步骤(6):从模拟测试一套标准化功能\({{\帽子{Z}}} _t \)计算\ ((M \乘以M) \)一组模拟特性\({{\ hat {x}}} _ t = {{\ hat {z}}} _ t \ sigma _t + \ mu _t \)

要以这种方式模拟变量集,数据的样本大小应该足够大,以便数据在测试集和非测试集之间分割,并且不允许遗漏值。然而,对该方法的一种可能的扩展是将非线性迭代偏最小二乘(NIPALS)算法考虑为一种改进的PCA,以容纳缺失的值[24.]。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

Peluso, A., Glen, R. & Ebbels, T.M.D.在全代谢组相关性研究中的多重测试校正。欧宝娱乐合法吗22,67(2021)。https://doi.org/10.1186/s12859-021-03975-2

下载引用

关键词

  • 弗兰克-威廉姆斯
  • mwa
  • MWSL
  • 多次测试
  • 排列
  • 相关的测试
\