跳过主要内容

高维常常介质的总调节效应估算

摘要

背景

环境暴露可以通过不同的机制调控中间分子表型,如基因表达,从而导致不同的健康结果。揭示潜在高维中间表型在环境暴露和性状之间关系中的作用具有重要的科学意义。中介分析是研究这种关系的重要工具。然而,它主要集中在低维度的设置上,缺乏对总体中介效应的良好衡量。在这里,我们扩展R²(R\(^ 2 \))效果尺寸测量,最初在单介子设置中提出,在混合模型框架中的中等和高维介体设置。

结果

根据广泛的模拟,我们将我们的措施和估算程序与多种常用的调解措施进行比较,包括产品,比例和比例措施。我们的R.\(^ 2 \)基于正确指定的模型,基于第二次措施具有小的偏差和方差。为了缓解由非调解器引起的潜在偏差,我们研究了两个可变选择程序,即迭代确保独立筛选和虚假发现率控制,以排除非调解器。我们建立了拟议的估计程序的一致性,并引入了基于重采样的置信区间。通过应用提出的估计程序,我们发现,在1711个个体的Framingham心脏研究中,基因表达谱可以解释38%的收缩压变异。CRAN上有R包“RSQMED”。

结论

平方(右\(^ 2 \))特别是在高维环境下,是一种有效的衡量总体中介效应的方法。

背景

了解通过分子表型(例如基因表达(GE)和DNA甲基化等环境风险因子和健康特征的关系,可以为疾病病因和暴露生物学提供机械洞察。具体地,环境风险因素可能导致表观遗传变化,例如DNA甲基化的变化,然后改变DNA可访问性和染色质结构,从而调节与疾病过程相关的GE和进一步的下游分子表型。现代流行病学研究能够测量大量标记,从数万个GES到近一百万个CPG位点在DNA甲基化研究中。越来越多的证据表明许多这些中间表型可以位于环境暴露和下游健康结果之间的途中[12]. 如何测量从环境风险因素到表型终点的不同类型的分子表型在路径中的总体贡献具有重大的科学意义。中介分析是探索这种关系的一种自然方法,它可以帮助研究人员描述两个变量(因变量和自变量)为什么以及如何相关[3.].

我们的激励科学问题在这里是时间年龄的年龄是如何通过分子表型影响不同的健康特征。具体而言,我们有兴趣探讨GES在年龄和两种健康特征,血压(BP)和肺功能之间的途径中的中介作用。作为广泛的健康状况的重要风险因素,年龄可以被视为生活方式,氧化应激或其他累计环境风险因素的代理。研究人员发现Ge型材与各种生物途径中的老化过程相关联,特别是那些涉及过表达炎症和免疫应答基因的那些和胶原蛋白和能量代谢基因的曝光表达[4.5.].另一方面,发现肺功能降低和收缩压增压率的增加与许多与炎症和改变的免疫改变有关的变化相关,这些变化可以反映在分子水平上[6.7.8.9.]. 我们不探索特定基因的介导效应,而是打算量化潜在高维GEs在介导年龄与健康特征之间关系方面的总体作用,即总的介导效应。据我们所知,已在低维环境下对现有的总中介效应大小度量进行了研究,其中许多基于均值差异,即第一矩估计(稍后详述)。对中等和高维设置的关注较少[10],尽管这样的测量可能在指导更具体的分析和提供机理见解方面特别有用。

要填补差距,我们延长了总调解效果规模测量,R形级(R\(^ 2 \))测量,最初由FairChild等人在单一中介模型中提出。[11],到多维和高维介体模型。简而言之,r\(^ 2 \)度量是一种二阶矩度量,量化因变量中的方差量,该因变量对自变量和中介变量都是公共的,由公共性分析得出[1213]. 作为基于变异的估计,它提供了现有措施的替代方案,尤其是在文献中报道的调解效应可能存在相反方向的情况下[1415]以及我们的激励示例(附加文件1:图S3)。我们证明了R\(^ 2 \)基于二阶措施有许多统计价值,易于解释。此外,我们基于混合效应模型的估计方法可以良好地适应多维和高维介质。但是,在解决真实数据中的激励问题时,我们面临着额外的挑战,即真正的调解员的识别并不知道先验。事实上,这对于任何具有高维度的类似问题并不琐碎。我们建立了一致的估计过程,首先使用具有Oracle属性的变量选择方法[16来过滤掉使R偏倚的非介质\(^ 2 \)-基于二阶矩测度,得到稳定的R\(^ 2 \)基于选定的中介的估计。除了理论论证外,我们还从各种角度进行了广泛的模拟,包括偏差、方差、有限样本一致性性能以及置信区间(CI)的覆盖概率。我们证明了我们的方法具有全面的性能。然后,我们利用Framingham心脏研究(FHS)的数据来回答我们的问题。FHS数据共包含17,873个具有相应GEs的候选基因,1711名受试者用于BP评估,1378名受试者用于肺功能评估。由于FHS中的GE水平是同时测量的,我们假设GE水平之间存在无向相关性,跟随Huang和Pan 2016 [17[Boca等,2013 [18].尽管如此,我们证明了r\(^ 2 \)基于介质中的介导的路径,即介质在有条件依赖于暴露时,使用第二次测量也可行使用。我们研究的主要考虑因素是总调节效应的大小,而不是假设检测,以考虑效果是否存在[17181920].

结果

仿真结果

模拟设置I

表格1呈现在方法中的高维设置下的偏差和方差,即(H1)至(H5),如方法详述。当模型包括真正的介质(H1,H5),非调解器\(\ mathbf {m} ^ {(1)} \)(H3),和噪声变量(H4),\(r ^ 2_ {mediated} \)估计量有非常小的偏差和方差。当产品、比例和比率测量的估计器有相对较高的偏差时\ (n = p_0 \)在场景(H2)至(H4)下,可能是因为它需要估计大量系数。除此之外\(r ^ 2_ {mediated} \)估算器在预期的预期下偏离情景(H2),表明不包括非调解员的重要性\(\ mathbf {m} ^ {(2)} \).我们进一步证实,我们对随机效应分布的正常假设对拼盘(方案(H6) - (H12)(H12)(H12))相当强大1:第1.5.3节,如表S3所示)。另一方面,在低维设置下,我们发现混合效应模型在估计方面有稍好的表现\(r ^ 2_ {mediated} \)与固定效应模型相比,方法中定义的共享过简单效应(SOS);然而,固定效应模型在估计产品、比例和比例度量方面有更好的性能(附加文件)1:表S1)。

表1高维设置下的偏差和标准差(模拟设置I):每种场景第一行的偏差和第二行的标准差

仿真设置II

我们检验了迭代确定独立筛选(SIS)和错误发现率(FDR)选择真中介的性能\({\ mathbf {m}} \)\(\ mathbf {m} _ \ mathbf {0} \).数字1显示偏差\(r ^ 2_ {mediated} \)使用迭代SIS和FDR执行变量选择\(\ mathbf {m} ^ {(2)} \)\(\ mathbf {m} ^ {(1)} \)被包括在内。的偏差、标准差和MSE的数值\(r ^ 2_ {mediated} \)卢索回归估计的产品措施在附加文件中呈现1:表S6和S7。我们发现:(1)只有\(\ mathbf {m} ^ {(1)} \),使用不适当的变量选择方法,即FDR,引入了较大的偏差(图。1d);(2)何时\(\ mathbf {m} ^ {(2)} \)存在,应用迭代SIS将偏差减少到更小的尺度,同时包括没有变量选择的所有变量具有大量偏置(图。1一种)。FDR方法如此保守拾取真正的调解器,即低真正的阳性率,使得偏差变为负值(图。1B,D)。虽然未显示,我们将FDR截止值差异为0.01至0.25,发现更自由的截止有时会更好地控制偏差量,具体取决于真实调解员的百分比。尽管如此,介质的真正比例通常是未知的。因此,我们决定在以下分析中使用迭代SIS进行变量选择。结果在偏差,标准偏差(SD)和误差(MSE)的均规推定介导的误差(MSE)方面没有太大变化。\(p_0 = 15,000 \)(见附加文件1详见1.6.1节)。

图1
图1

基于两步变量选择方法,迭代SIS或FDR(模拟设置II)的模拟复制偏差箱线图。x轴对应真实介质的百分比;y轴表示模拟复制的偏差。一种B.非调解人\(\ mathbf {m} ^ {(2)} \)除了真正的调解员之外还包含;CD.非调解人\(\ mathbf {m} ^ {(1)} \)除了真正的调解人之外。Rsq(所有):\(r ^ 2_ {mediated} \)基于所有的数据,没有变量选择;Rsq (VS):\(r ^ 2_ {mediated} \)基于迭代SIS选择的变量(一种C),或由罗斯福(B.D.);RSQ(TRUE):\(r ^ 2_ {mediated} \)基于基于所有数据的真正模型/中介模板集。数据值和偏差和偏差和偏差和偏差和方差在附加文件中可用1:表S4和S5

仿真设置III

我们进一步评估了迭代SIS变量选择与混合效应估计程序的有限样本性能\(r ^ 2_ {mediated} \).随着样本尺寸增加,偏差和SD\({\帽子{R}} ^ 2 _{介导}\)通过更精确地选择真正的介体(平均真阳性率和假阳性率在附加文件中报告),降低1:表S6)。此外,我们在不同数量的真正调解器中评估了基于引导的CI的覆盖概率,其中样本大小为1500.我们发现当真正的调解器的数量为0时,因此,因此,真实的\(r ^ 2_ {mediated} \)如果为0,则在整个模拟复制的所有引导样本中均未选择任何中介体,从而导致恒定的0估计值。此外,当真实中介体的数量分别为15、150和300时,98.0%、98.0%和94.5%的CI覆盖了真实值。最后,我们确实观察到,当中介变量与给定样本量高度相关时,变量选择的表现较差,尽管\(r ^ 2_ {mediated} \)没有恶化太多(附加文件1:表(S7))。我们还观察到,退回额外文件中提出的协变量1第1.4节可以通过减少由于潜在的暴露-中介混杂因素而导致的中介之间的相关性来帮助提高变量选择的性能(附加文件1:第1.7.4节和表S8)。

真实数据示例:Framingham心脏研究

我们假设按照肺功能或收缩性BP对年龄的效果通过Ge水平的变化介导。我们对参加第八和第九次考试的欧洲祖先的FHS后代队列进行了调解分析,其中观察之间的平均间隔为6年。肺功能通过升中强制致动容量(FVC)测量,使用至少两个可接受的动作中的最高值。以MMHG的两个顺序读数测量BP。如果参与者报告在BP测量时提取抗高血压药物,则将15mmHg添加到收缩式BP中[21].协变量是人口学变量,体重(磅),性别,身高(英寸)和吸烟情况(曾否)。我们重点研究了在协变量、表型兴趣和系谱信息上没有缺失测量的受试者,结果是FVC的最终样本量为1378例,收缩压为1711例。我们处理表型的个体间相关性,由于家族相关性,通过采用具有随机效应的线性混合模型的残差,该模型遵循一个具有零均值向量的多元正态分布,协方差矩阵与来自系谱信息的亲属矩阵成比例[22].使用Affymetrix人外显子1.0 ST基因芯片平台从空腹外周血中测量了17,873个基因的GE图谱,其细节在以前的出版物中有描述[23].我们在第八次检查中使用年龄和GE水平,并且在第九次检查时使用FVC和收缩性BP,使得建立了暴露于介质和介质与表型的时间优先级。要考虑可能的混淆效果,我们从年龄,血统相关的表型和17,873个基因表达水平退回协变量,并使用后续分析中所产生的残留物(也看到附加文件1:涉及协变量的一般估计程序的第1.4节)。

我们假设有一小部分基因参与了从实际年龄到这两种健康特征的途径。正如我们的模拟研究所支持的。1),我们没有进行任何预筛查\(\ mathbf {m} ^ {(1)} \);相反,我们只执行变量选择来排除\(\ mathbf {m} ^ {(2)} \).结果总结在表格中2.我们发现,年龄和GE在FVC中的共同方差估计为0,而收缩压有相当大的共同方差。具体来说,在考虑体重、身高、性别和吸烟状况作为协变量后,20.7%的FVC变异可以用年龄来解释,但使用迭代SIS-MCP选择的中介因子的数量在FVC中为0,这表明在调整了年龄后,GE水平的变化并不影响FVC。使用拉索回归和FDR控制方法进一步证实了这一点。由于GE水平是从全血而不是肺组织中采集的,血液中GE水平与肺功能的相关性可能不如与血液特征的相关性。另一方面,我们发现,6.9%的收缩压变异可以解释为年龄,和2.6% (95% CI =(−0.3%、6.6%))通常可以用年龄来解释了,和182个基因的充电器被迭代的姐姐,占38.1% (95% CI =(−8.5%、77.1%))的方差解释为年龄,以SOS。注意,根据比例测量,总效应的0.8% (95% CI =(−17%,14%))是由GEs介导的。此外,比值和产物测度的CIs在0附近几乎是对称的,表明存在个体途径的双向中介效应。额外的文件1图S3也证实了这两种健康特征之间的关系。

表2使用Framingham心脏研究数据估计的调解效果大小。

我们进一步进行了对收缩性BP的所选介质的途径富集分析,并有四个名义上重大的途径具有支持其年龄和收缩期BP之间潜在调解作用的生物学证据(附加档案1:表S9)。例如,核苷酸切除修复途径被证明与年龄相关的血管功能障碍有关,而年龄相关的血管功能障碍又与高血压有关[24]. 未来有必要使用更大样本量和更多相关组织进行分析,以估计总的中介效应。

讨论

我们已经扩展了现有的r\(^ 2 \)最初在单介子模型中提出的测量到多维和高维介质模型,目的是将该措施应用于高维常规介质。与单介子模型的估计方法不同,我们提出了一种自上而下的方法:我们估计了一方的方法:而不是估计每一个回归系数。\(r ^ 2_ {mediated} \)基于混合模型框架中随机系数的方差分量。这种方法可以非常有效,特别是对于大量的调解器,因为它大大减少了所需的参数数量。这\(r ^ 2_ {mediated} \)令人满意地估计正确指定的模型,但在高维设置下识别真正的调解器是一个具有挑战性的问题。这\(r ^ 2_ {mediated} \)当与曝光相关的变量而不是与从属变量相关联的变量偏见。为此,我们展示了使用迭代SIS可以在很大程度上减轻这种偏差,而使用所有可用的GES导致高估,并且使用具有严格FDR截止的假设测试方法导致低估。要在变量选择步骤后绘制有效的选择后推断,我们将数据拆分为半部:我们使用前半部分进行变量选择和后半部分进行估计。但是也可能并且可能更有效,但尚未彻底研究迭代SIS,以在更统一的框架中使用所有数据(具有某些调整)[25].我们使用非参数bootstrap方法来计算CI,并表明它具有令人满意的覆盖概率,样本量可与FHS数据相媲美。在真实数据分析中,我们使用暴露残差、介质和结果与协变量进行正交。与模拟中直接调整协变量相比,它有助于提高变量选择的性能(附加文件)11.7.4节)。另外,也可以很容易地显示出相应的\ (R ^ 2 \)这些都是片面的\ (R ^ 2 \),从而\(r ^ 2_ {mediated} \)是给予协变者解释的额外方差量(附加文件11.4.1:部分)。

\(r ^ 2_ {mediated} \)是一个非常有用的措施,因为可以客观地评估并在研究中进行比较[26].例如,我们能够通过不同类型的分子表型比较同一暴露 - 特征对的总调节效果,例如Ge和DNA甲基化[27]或在不同组织中的Ge。我们还可以通过同一组调解器进行同一曝光和多个特征的总调节效果。使用FHS数据设置为我们的激励示例,我们估计\(r ^ 2_ {mediated} \)作为年龄和两个特征的总调节效果衡量,即FVC和收缩压BP,通过使用相同的GES作为候选介质。年龄是一种有趣和重要的环境暴露。一些研究用甲基化预测生物年龄,其可以作为整体健康状况的代理[2829].我们使用调解分析检查了不同的视角的关系。有趣的是,在产品/比例/比率措施中发现了GES中发现了大量与年龄相关的变异。\(95\%\)由于来自单个通路的双向中介效应,CI集中在0左右。

分子数据的中介分析容易产生混淆和反向因果关系[30].发展的利益是发展的\(r ^ 2_ {mediated} \)在纵向设置下测量。纵向分析允许检查GE型材的变化是否更可能在卫生特征的变化之前。它还可以处理未测量的混淆,因为每个受试者都是对自己的控制。

\(r ^ 2_ {mediated} \)以前被认为只有一个启发值,主要是因为它在某些情况下可能为负值。当这种情况发生时,研究人员可能会发现难以解释。我们强调\(r ^ 2_ {mediated} \)测量是二阶常见效果,因此不再是比例措施[12].便于使用\(r ^ 2_ {mediated} \)的取值范围\(r ^ 2_ {mediated} \)在附加文件1:第1.2.3节命题1-3。通常,当直接效果的比率和总效果的幅度超过某个阈值(大于1)时,\(r ^ 2_ {mediated} \)变为负;然而,在高维设置下,阈值可以非常高,使得负值的发生是不常见的。最后,我们开发了一个R封装'RSQMED',其在CRAN上公开提供,实施建议\(r ^ 2_ {mediated} \)测量估计及其CI。目前的r\(^ 2 \)基于second-moment的度量方法关注的是连续结果,而只有附加的中介效应,而没有暴露-中介交互作用。对二进制和时间到事件结果以及非加性中介效应的扩展值得进一步研究。

结论

我们为高维调解分析提出了一种自上而下的方法,以回答我们的激励问题:基因表达如何在年龄和卫生特征之间调节的基因表达如何。在FHS中,我们表明基因表达在介导从年龄到收缩血压的途径中发挥了重要作用,有趣的是,所选介质在与炎症和年龄相关的血管功能障碍相关的途径中富集。r.\(^ 2 \)结合我们提出的估计方法的测度具有可泛化性,并具有许多吸引人的统计特性,如它与现有测度的紧密联系,对中介间复杂依赖结构的自适应,低偏差和方差,一致的置信区间覆盖概率。在多维和高维介质模型中,它可以作为一个良好的起点,指导更具体的下游生物分析。

方法

审查常用的总效果规模措施

中介模型(图。2)由以下方程式组成。在不丧失一般性的情况下,我们假设因变量、独立变量和中介变量标准化为均值0和方差1。

$$ \ begin {对齐}&y = cx + e_1,\结束{对齐} $$
(1)
$$ \ begined {对齐}&y = r x + \ sum _ {j = 1} ^ p m_jb_j + e_2,\ neg {对齐} $$
(2)
$$ \ begin {对齐}&m_j = a_jx + xi _j。\结束{对齐} $$
(3)

P.是调解人的总数。什么时候\(p = 1 \),它对应于单介子模型(图。2一种);否则,它对应于多中介模型(图。2b)。y是连续的依赖变量;X是独立变量;\(m_j \)jth调解人;e_2 \ \ (e_1),及\(\ xi_j \)是每个方程的残差;(a_j,b_j,r \)C是回归系数,通常通过最大似然估计(MLE)方法估计。范围C是总效果和R.是直接的效果。

图2
图2.

调解分析的演示。X为自变量,Y为因变量,且\(m_j \)是真正的调解人;一种Single-mediator模型;B.多介子模型;C表明(m ^ {(1)} \)这是一个与x相关的非调解员,但与y;D.演示了一个non-mediator(m ^ {(2)} \)与x相关联,但在调整x后没有与y相关联

产品,比例和比率措施,全部基于手段的差异,是文献中最常见的总调解效应措施之一。产品测量是\(\ sum _ {j = 1} ^ p a_jb_j \).这也是具有强大因果推断和模型假设的潜在结果框架下的自然间接效应[31]. 比例度量定义为总效应的比例,由m\(\sum{j=1}^pa\u jb\u j/(\sum\u j^pa\u jb\u j+r)\);比率测量是\(\ sum _ {j = 1} ^ p a_jb_j / r。\)所有三种措施都通过不同个体调解途径对效果方向敏感。在一个极端的例子中,\(a_jb_j \)从个体途径具有不同的方向并因此抵消,导致总和为0.它导致误导性意义,即根本没有调解效果。此外,比例和比率措施都是单位的单位,但需要大于500的样本大小,即使在低维设置下也可以获得稳定的估计[3.].

宋等人最近提出的另一个总调解效应措施。[15] 是\(\ sum _ {j = 1} ^ p(a_jb_j)^ 2 \).作为基于L-2标准的数量,它克服了上述缺点;但是,它比以上三时刻措施和r不那么可解释\(^ 2 \)基于待描述的二阶措施。

R.\(^ 2 \)在单介子模型下测量

与上述总中介效应大小度量相比,R\(^ 2 \)措施没有牵注很多关注。r.\(^ 2 \)测度定义为因变量Y的方差,由自变量X通过中介解释[11](参见附加文件中的维恩图1:图。S1)。它可以写成

$$ \ begined {对齐} r ^ 2_ {mediated} = r ^ 2_ {y,m} + r ^ 2_ {y,x} -r ^ 2_ {y,mx},\结束{对齐} $$

在哪里\(r ^ 2 \)小写表示在简单回归模型中解释的方差,等于相关系数的平方;资本\ (R ^ 2 \)表示多元回归模型的确定系数。\(r{Y,M}^2=cor(Y,M}^1)^2\)Y中的方差是否由以下公式解释\(m_1 \)在下面的模型中(4.),\(r_ {y,x} ^ 2 = cor(y,x)^ 2 \)是x在模型中解释的y的差异(1), 和\ (R ^ 2 _ {Y, MX} \)Y中的方差是否由以下公式解释\(m_1 \)和模型中的X (2)与\(p = 1 \)

$$ \ begin {对齐} y = m_1d_1 + e_4,\结束{对齐} $$
(4)

在哪里\ (d_1 \)是回归系数和\(e_4 \)是残余的。

三个组件\(r ^ 2_ {mediated} \)可以通过MLE使用固定效果模型来估计,即,将所有系数视为固定的。我们注意到了\(r ^ 2_ {mediated} \)是一个差异 - in-r\(^ 2 \)度量,而不是比例度量。R\(^ 2 \)措施已经认识到具有许多特征的效果大小的良好程度。例如,它具有稳定的样本尺寸性能\(> 100 \)[11]随着中介效果接近总效果,它增加,并且可以构建CI估计。还有一些其他变体\(^ 2 \)文献中提出的方法,如[3.32]在一个介体的模型下。它们的目标是不同的额外潜在优势,包括0到1之间的有界范围,与产品测量的单调关系,以及更好地处理杂散相关性,以持续与共性分析的可能性。更多讨论包含在附加文件中1: 1.2节。

延期:\(r ^ 2_ {mediated} \)在多介子模型下

我们扩展R\(^ 2 \)对多重中介模型的度量,定义为:

$$ \ begined {对齐} r ^ 2_ {mediated}&= r ^ 2_ {y,m} + r ^ 2_ {y,x} -r ^ 2_ {y,mx} \ nonumber \\&= r ^ 2_{y,x} - (r ^ 2_ {y,mx} -r ^ 2_ {y,m}),\结束{对齐} $$
(5)

在哪里\(r{Y,X}=cor(Y,X),\)(R^2_{Y,MX}=var(rX + \sum _{j=1}^{p} M_jb_j),\)\(r ^ 2_ {y,m} = var(\ sum _ {j = 1} ^ {p} m_jd_j)。\)\(R^2{Y,M}\)\(r ^ 2_ {y,x} \),及\ (R ^ 2 _ {Y, MX} \)具有与单个介体模型中相同的含义,相应的模型是(6.),(1) 和 (2)与\(p> 1 \)

$$ \ begin {senugented} y = \ sum _ {j = 1} ^ {p} m_jd_j + e_5,\ \结束{对齐} $$
(6)

在哪里\(d_j \)是介质的回归系数\ (M_ {j} \)\ (e_5 \)是残余的。\(r ^ 2_ {mediated} \)可以解释为共性分析[12]:自变量和中介变量共同的方差,由暴露解释的因变量方差的差异(\(r ^ 2_ {y,x} \))以及在考虑中介因素后,可以通过暴露解释的额外方差(\ (R ^ 2 _ {Y, MX} - R ^ 2 _ {Y、M} \)),即由等式表示(5.)。\(r ^ 2_ {mediated} \)不直接总结\(a_jb_j \)从具有不同方向的个体途径,避免上述第一时刻措施的问题。最近,这\(\ nu \)度量,R的一种变体\(^ 2 \)措施 [32,扩展到结构方程建模框架中的多中介模型。事实上,在我们的无向相关假设下m,延伸\(\ nu \)措施减少到\((\ sum _ {j = 1} ^ p a_jb_j)^ 2 \),即平方积度量。所以,,\(\ nu \)在这种情况下被修改为第一矩措施,失去了第二次措施的益处。

使用r的主要关注点\(^ 2 \)在单个中介模型下的措施是它在某些情况下具有负值。我们在附加文件中彻底讨论此问题1:第1.2节通过展示\(r ^ 2_ {mediated} \)可以是负面的差异\(^ 2 \)衡量标准,但在高维设置下可能不会频繁发生。此外,我们已经为r建立了几个额外的吸引人的属性\(^ 2 \)基于第二次测量,包括(1)不变与某些转换,例如主成分分析(附加文件1: Section 1.2.4 Proposition 6),(2)对复杂依赖结构的适应性(附加文件1:第1.3节),(3)包含某些类型的非调解器的稳健性(附加档案1:第1.2.4节,命题4)。

另一个密切相关的衡量标准是简单共享效应(SOS)[33]度量,定义为\(\ text {sos} = r ^ 2_ {mediated} / r ^ 2_ {y,x}。\)SOS是一种相对衡量标准\(r ^ 2_ {mediated} \).它是与调解员共享的结果的标准化曝光相关方差。r之间的关系\(^ 2 \)、SOS、产品、比例和比例度量在附加文件中描述1:第1.2.2节。有趣的是,我们发现SOS与比例措施密切相关,尽管它们具有不同的解释:SOS单调上介导的绝对值增加;另一方面,当比例措施不能时,它能够捕获一些双向中介效果。

建模与估算

为了在高维环境下获得稳定的估计,我们使用混合效应模型来提高统计效率,如后面的数值例子所示。具体来说,我们假设模型中介质的系数(2) 和 (6.)是随机效果。在模型中(2),\(b_j \)假设遵循正态分布\(b_j \ sim n(0,\ tau _1)\)为了\(j = 1,2,\ ldots,p \)\(e_2 \sim N(0,\phi),\)因此

R^2_{Y,MX} =1- phi . 1。\结束{对齐} $$
(7)

\ (R ^ 2 _ {Y, MX} \)可以解释为一个减去独立变量和调解器无法解释的方差。同样,在模型中(6.),我们假设\(d_j \ sim n(0,\ tau _2)\)为了\(j = 1,2,\ ldots,p \)\(e_4 \sim N(0,\phi)\),这样\ (R ^ 2 _ {Y、M} = 1 -φ_2 \ \)。

我们估计\(\ tau _1 \)\(\ tau _2 \)\(\phi\u 1\)\(φ_2 \ \)通过受限制的最大似然方法,这在温和条件下保持一致[34]. 注意,我们避免直接使用总计2的估计值P.系数(\(\beta\u 1、\ldots、\beta\u p、d\u 1、\ldots、d\u p\));相反,我们使用两个参数(\(\phi\u 1\)\(φ_2 \ \)) 计算\(r ^ 2_ {mediated} \).后者的估计是对无随机效应分布的误解的强大;它得到了多种理论研究和实际数据分析的支持[353637].最后,\({\帽子{r}} ^ 2 _ {Y、X} = \ _ {i = 1} ^ n{\帽子{Y}} _i ^ 2 / (n - 2) \)在哪里\({\帽子{y}} _i \)是模型中MLE估计的拟合值(1)。

\(p,估计三个r也是可行的\(^ 2 \)Mle在固定效果模型中的组件(在Lachowicz 2018中提出[38]),我们评估其在比较仿真研究中的性能。

介体变量选择

在传统的调解分析中,介导变量是根据具体研究问题和主题知识的假设和选择。然而,假设和识别真正的介质在高维设置中变得更加困难,其中可以通过未能识别真正的调解器来诱导用于估计总调节效果的偏差。受到Baron和Kenny 1986的启发[39,我们把问题分为三类。第一类是被错误地认定为中介的变量与暴露无关,因此不在暴露与结果之间的通路中(图1)。2C)。例如,影响肺功能的一些基因不在年龄和肺功能之间的途径中,但其他基因在吸烟和肺功能之间等其他基因。我们表示这种变量的集合\(\ mathbf {m} ^ {\ mathbf {(1)}} = \ {m_j:b_j \ ne 0,a_j = 0 \} \).额外的文件1:第1.2.4节,命题4,显示包含\(\mathbf{M}^{\mathbf{(1)}}\)提供一致的估计\(r ^ 2_ {mediated} \).第二种情况是,变量与暴露有关,但与调整暴露后的结果无关(图。2d)。例如,胶原合成是与年龄相关的,但与胶原合成相关的基因可能不会影响BP。我们表示这种变量的集合\(mathbf {M^{(2)}}=\{M_j:a_j \ne 0, b_j=0\}\).纳入\(\ mathbf {m ^ {(2)}} \)可能导致非零估计\(r ^ 2_ {mediated} \)当实际上没有调解效果时。我们进一步表明了\(r ^ 2_ {mediated} \)估计是偏见和不一致的\(\ mathbf {m ^ {(2)}} \)包含在附加文件中的调解员1:第1.2.4节,命题5,以及仿真研究。数学上,偏差来自\({\hat{R}}^2{Y,M}\),由于夹杂物而被错误地增加了x的一部分的部分\(\ mathbf {m} ^ {\ mathbf {(2)}} \).第三类是噪声变量(\(b = 0 \)\(a = 0\)例如,包括与年龄或感兴趣的卫生特征无关的基因。包含噪声变量不会影响点估计\(r ^ 2_ {mediated} \)因为有着同样的原因\(\mathbf{M}^{\mathbf{(1)}}\). 在建议用于中介分析的步骤中[39],\(\mathbf{M}^{\mathbf{(1)}}\)\(\ mathbf {m} ^ {\ mathbf {(2)}} \),噪声变量不被认为是中介变量,因此应从中介分析中排除。我们的一个有希望的特点\(r ^ 2_ {mediated} \)在高维设置下的稳健性是纳入其中\(\mathbf{M}^{\mathbf{(1)}}\)和噪声变量。但是,包含\(\ mathbf {m} ^ {\ mathbf {(2)}} \)显然有问题,我们使用可变选择方法在模型中过滤滤除(2)在估计之前\(r ^ 2_ {mediated} \).出于插图目的,我们表示真正的调解员\(\ mathbf {m} \),初步评估中的推定调解变量为\ (\ mathbf {M} _0 \),以及最终中介模型中包含的变量\({\ hat {\ mathbf {m}}}}在下面的上下文中。

确定独立筛选(SIS)

为了使高维问题可解决,我们假设真正的调解员在我们的激励问题中稀疏。我们采用迭代SIS,延伸SIS,以排除带有零系数的推定调解体\(b_j \)这是基于模型的(2),即\(\ mathbf {m} ^ {\ mathbf {(2)}} \)和噪声变量。风扇和lv [16]在超高维线性模型的背景下介绍了SIS,其具有肯定的筛选特性,即趋于1的概率,独立筛选技术在某些条件下保留模型中的所有重要预测因子。迭代SIS使用边缘和条件相关性,从而将维度降低到中等尺度,例如,\(\ lfloor n / log(n)\ rfloor \),然后通过极小极大凹惩罚(MCP)等附加变量的选择,在速度和精度上都可以得到提高。SIS用于高维中介分析,重点是假设检验,由[40]后来用于高维中调解生存模型中的可变选择[41]. 出于我们的目的,我们使用迭代SIS来处理SIS的正则性条件由于\(\ mathbf {m} ^ {(2)} \).例如,一些基因可能与卫生特征共同相关,但与特性具有更高的边际相关性,而不是真正的调解员。要获得有效的选择后出版,我们将数据分成两半,使用一半选择真正的介体和另一半来估计\(r ^ 2_ {mediated} \)[2542].我们建立了这种混合模型方法的一致性\(r ^ 2_ {mediated} \)附加文件中与迭代SIS-MCP耦合的估计1:第1.2.5节,即\(n\overset{}{\rightarrow}\infty,\)\({\hat{R}}^2{Mediated}(n)\overset{p}{\rightarrow}R^2{Mediated}.\)

控制错误发现率(FDR)

另一个过滤不需要的变量的常见做法是测试每个潜在中介的边缘关联y基于FDR控制[20]. 我们计算了该区域的FDR调整p值\(a_j \)在模型中(3.)和\(b_j ^ \ prime \)这是从模型中得到的\(E(Y)=b_j^ \素数M_j+r_j X\), 为了\(j = 1,...,p \).当调解器有条件地独立时X,测试\(b_j ^ \ prime \)相当于测试\(b_j \)在模型中(2). 如果FDR调整的p值为\(a_j \)\(b_j \)大于0.1时,该变量将从分析中排除。

估计程序和置信区间

我们描述了包含变量选择步骤的估计过程\(r ^ 2_ {mediated} \)在附加文件1: 1.4节。它还包括计算百分位CI的非参数bootstrap方法和调整中介模型中的协变量的方法。

仿真研究

我们进行了广泛的模拟,以评估不同类型的总中介效应措施、不同的变量选择方法以及所提出的估计程序的有限样本性能。在模拟设置I中,我们比较了所提出方法之间的偏差和方差\(r ^ 2_ {mediated} \)在低和高维设置下测量,产品,比例和比率测量。然后,我们评估了关于真假阳性速率和相应偏差的变量选择方法\(r ^ 2_ {mediated} \)(模拟设置II)。最后,我们报告了一致性的有限样本性能\(r ^ 2_ {mediated} \)以及仿真设置中不同样本量下基于bootstrap的置信区间的覆盖概率。一般来说,在500次重复中使用相同的一组系数模拟数据,并使用的真实值\(r ^ 2_ {mediated} \)通过附加文件中的等式(S4)获得1. 我们使用混合效应模型进行估计\(r ^ 2_ {mediated} \)在所有模拟设置和低维设置下的估计的固定效果模型I.

仿真设置I:偏差和方差

我们在低(L1-L6)和高维(H1-H12)设置下,评估了不同类型的总调节效果措施的偏差和方差。我们对拟议措施的表现感兴趣\(r ^ 2_ {mediated} \)当中介效应相同(L5,H5)或不同(L1-L4,L6,H1-H4,H6-H12)方向时以及当包括三种类型的先前定义的非介质时(L2-L4,H2-H4,H7-H9)。此外,我们评估其在介质依赖于低维设置(L6)时的性能,并且当随机效应之后在高维设置下(H6-H12)下的非高斯分布。仿真设置和低维设置的结果(L1-L6)包含在附加文件中1:1.5.1节。对于高维设置,使用模型生成数据(2) 和 (3.)。我们设置\(n = 1500 \)\(e_2 \ sim n(0,1),x \ sim n(0,1)\),及\(r = 1 \). 有\(p_0\)变量\ (\ mathbf {{M}} _ {\ mathbf {0}} \),及\(\ xi =(\ xi _1,\ xi _2,\ ldots,\ xi _ {p_0})\ sim n(0,\ mathbf {d} _ {p_0 \ times p_0})\), 在哪里\(\mathbf{D}{p_0\乘以p_0}\)是单位矩阵。真正调解人的数量是P.

  • (H1)包括的所有变量都是真正的调解员(\({\ hat {\ mathbf {m}}} = \ mathbf {m} \)\(p_0=p=150\))不同的方向:\(a_j \ sim n(0.2)\)\(b_j \ sim n(0.0.2)\)为了\(j=1,\ldots,150\);

  • (H2)增加额外的1350\(\ mathbf {m} ^ {(2)} \)(h1),即,\(p_0 = 1500 \)\(a_j \ sim n(0.2)\)\ (b_j = 0 \)为了\(j = 151,\ ldots,1500 \);

  • (H3)增加1350\(\ mathbf {m} ^ {(1)} \)到(H1):\(a_j = 0 \)\(b_j \ sim n(0.0.2)\)为了\(j = 151,\ ldots,1500 \);

  • (H4)向(H1)添加其他1350个噪声变量:\(a_j = 0 \)\(b_j = 0 \)为了\(j = 151,\ ldots,1500 \);

  • (H5)包括具有正面方向的调解器:\(a_j \)\(b_j \)是(H1)中系数的绝对值;

  • (H6) - (H10)与(H1)相同(H5),除了\(a_j \)'沙\(b_j \)随后是一个缩放的T分布,自由度等于1;

  • (H11)与(H1)相同,除了\(b_j \ sim unif(-0.2,0.2)\)为了\(j=1,\ldots,150\);

  • (H12)与(H1)相同,除了\(b_j = 0.2 \)为了\(j = 1,\ ldots,75 \)\(b_j = -0.2 \)为了\(j=76,\ldots,150\)

每个度量的真实值都在附加文件中提供1:表S2和S3。

仿真设置II:变量选择

非调解员的存在\(\ mathbf {m} ^ {(2)} \)可以偏见我们所提出的措施的估计,通过检查它们对偏差,标准偏差(SD)的影响以及误差(MSE)的均方(MSE)的影响,我们评估了两种常用的可变选择方法(控制FDR)估计\(r ^ 2_ {mediated} \). 我们设定\(n = 1500 \)\(r = 3 \)\(e_2\simn(0,1)\),及\(X \sim N(0,1)\);\(\mathbf{D}{p_0\乘以p_0}\)是单位矩阵。我们通过使用(v1)和(v2)来评估可变选择性能,代表包括两种类型的非调解器的场景\(\ mathbf {m} ^ {(1)} \)\(\ mathbf {m} ^ {(2)} \)通过推定调解员的总数\(p_0 = 1500 \); 然后我们增加了\(p_0\)(v3)和(v4)中的15,000,以模仿OMICS数据应用:

  • (v1)有P.真正的调解员,另外1350人\(\ mathbf {m} ^ {(2)} \)\(a_j \ sim n(0.2)\)为了\ (j = 1, \ ldots 1500 \),及\(b_j \ sim n(0.0.2)\)为了\ (j = 1, \ ldots p \)\(b_j=0\)为了(j = p + 1,\ ldots,1500 \);

  • (V2)有P.真正的调解员,另外1350人\(\ mathbf {m} ^ {(1)} \)\(b_j \ sim n(0.0.2)\)为了\ (j = 1, \ ldots 1500 \),及\(a_j \ sim n(0.2)\)为了\ (j = 1, \ ldots p \)\(a_j = 0 \)为了(j = p + 1,\ ldots,1500 \);

  • (v3)将13,500个噪声变量添加到(v1):\(a_j = b_j = 0 \)为了(j = 1501,\ ldots,15 {,} 000 \);

  • 有1500人\(\ mathbf {m} ^ {(2)} \)13500个噪声变量:\(a_j \ sim n(0.2)\)为了\ (j = 1, \ ldots 1500 \)\(a_j = 0 \)为了\ (j = 1505 \ ldots 15 000年}{\),及\(b_j=0\)为了\(j = 1,\ ldots,15 {,} 000 \)

我们变化了P.在0、15、75、150和300,对应于(V1)和(V2)中0、1、5、10和20%的真介质。对前半段数据进行了变量选择,并进行了估计\(r ^ 2_ {mediated} \)在下半场。这\(r ^ 2_ {mediated} \)没有变量选择(\({\ hat {\ mathbf {m}}} = \ mathbf {m} _0 \))基于所有数据估计,基于套索回归的产品措施,作为基准。

仿真设置III:一致性,覆盖概率和高度相关的调解器

我们进一步评估了以下高维设置:(1)在有限样本大小下的一致性的性能\(n = 750,1500 \),和3000,初始尺寸为\({\ mathbf {m}} _ {{0}} \)作为\(p_0 = 1500 \)在具有不同类型的非调解器的四种情况下;(2)覆盖基于引导的置信区间的覆盖率,具有不同数量的真实调解员\(p = 0,15,150,\)和300,以及1500的样品大小;(3)在三种附加设置中与高度相关推销调解器的一致性的有限样本性能\(p_0 = 1500 \); (4)存在协变量时变量选择的性能。附加文件中描述了模拟设置的详细信息1:第1.7节。

可用性数据和材料

FHS研究的转录组学数据可从美国国家生物技术信息中心dbGap (https://www.ncbi.nlm.nih.gov/gap/)访问编号为phs000363.v19.p13。用于实现建议方法的核心R代码开发为一个名为“RsqMed”的R包,可在https://cran.r-project.org/web/packages/RsqMed/index.html

缩写

\ (R ^ 2 \)

平方

GE:

基因表达

英国石油公司:

血压

CI:

置信区间

FHS:

弗雷明翰心脏研究

FDR:

假发现率

MSE:

均方错误

SD:

标准偏差

FVC:

力肺活量

姐姐:

确定独立筛选

SOS:

分享简单效果

参考

  1. 1.

    Ladd-Acosta C,Fallin MD。表观生物学在遗传和环境流行病学中的作用。表观组织。2016; 8(2):271-83。

    CAS.文章谷歌学术搜索

  2. 2.

    莫Q,王S,塞山VE,奥尔申AB,舒尔茨N,桑德C,鲍尔斯RS,拉丹伊M,申R。整合癌症基因组数据中的模式发现和癌症基因鉴定。自然科学进展。2013;110(11):4245–50.

    CAS.文章谷歌学术搜索

  3. 3.

    麦金农DP。统计中介分析导论。纽约:Taylor & Francis;2012.

    谷歌学术搜索

  4. 4.

    De Magalhaes JP,Curado J,Church GM.年龄相关基因表达谱的荟萃分析确定了衰老的常见特征。生物信息学。2009;25(7):875–81.

    文章谷歌学术搜索

  5. 5.

    温德鲁克R,卡约T,李C-K,序言。使用DNA微阵列对衰老进行基因表达谱分析。机械老化发展2002;123(2–3):177–93.

    CAS.文章谷歌学术搜索

  6. 6.

    托瑞·阿米奥尼G。慢性心力衰竭患者的免疫激活。我是J Cardiol。2005;95(11):3–8.

    文章谷歌学术搜索

  7. 7.

    Lowery Em,Brubaker Al,Kuhlmann E,Kovacs EJ。老化肺。临床入口衰老。2013; 8:1489。

    CAS.PubMed公共医学中心谷歌学术搜索

  8. 8.

    Huan T,Esko T,Peters MJ,Pilling LC,Schramm K,Schurmann C,等。血压和高血压基因表达特征的荟萃分析。Plos Genet。2015; 11(3):1-29。https://doi.org/10.1371/journal.pgen1005035

    CAS.文章谷歌学术搜索

  9. 9.

    Obeidat M,Hao K,Bosse Y等。肺功能变化的分子机制:系统遗传学分析。柳叶刀respir med。2015; 3(10):782-95。https://doi.org/10.1016/S2213-2600(15) 00380-X

    CAS.文章PubMed公共医学中心谷歌学术搜索

  10. 10

    Miočevićm,o'orourke hp,mackinnon dp,棕色hc。四种效应尺寸措施的统计特性。行为方法。2018; 50(1):285-301。

    文章谷歌学术搜索

  11. 11

    王志强,王志强。中介分析的R2效应量测量方法。行为研究。2009;41(2):486-98。

    文章谷歌学术搜索

  12. 12

    Seibold博士,麦克菲尔德。共性分析:分解多元回归分析中解说的解解方法。哼唱res。1979年; 5(4):355-65。

    文章谷歌学术搜索

  13. 13

    运用多元回归中的共性分析:面对多重共线性时分解回归效应的工具。[j] . acta Ecol Evolut. 2014;5(4): 320-8。

    文章谷歌学术搜索

  14. 14

    黄杰,Cardenas A,Colicino E,学校教育厘米,步履圈 - 少康SL,AGHA G,Zheng Y,Hou L,Just Ac,Litonjua A,等。DNA甲基化作为中小儿童体重指数与心脏病患者的心脏代谢风险分数的介质。表观遗传学。2018; 13(10-11):1072-87。

    文章谷歌学术搜索

  15. 15.

    宋Y,周X,张M,赵W,刘Y,Kardia SL,Roux AVD,李约瑟BL,史密斯JA,慕克吉B。组学研究中高维因果中介效应的贝叶斯收缩估计。生物特征。2019;76:700–10.

    文章谷歌学术搜索

  16. 16.

    风扇J,LV J.确定超高尺寸特征空间的独立筛选。J R STAT SOC B. 2008; 70(5):849-911。

    文章谷歌学术搜索

  17. 17.

    黄耀泰,潘文杰。具有高维连续中介的因果中介模型中中介效应的假设检验。生物特征。2016;72(2):402–13.

    文章谷歌学术搜索

  18. 18.

    博卡SM、辛哈R、克罗斯AJ、摩尔SC、桑普森JN。同时测试多种生物介质。生物信息学。2013;30(2):214–20.

    文章谷歌学术搜索

  19. 19.

    张军,魏智,陈建军。基于距离的人体微生物组中介效应检测方法。34生物信息学。2018;(11):1875 - 83。

    CAS.文章谷歌学术搜索

  20. 20.

    Sampson JN, Boca SM, Moore SC, Heller R. FWER和FDR在测试多种介质时进行控制。生物信息学。2018;34(14):2418 - 24。

    CAS.文章谷歌学术搜索

  21. 21.

    托宾MD,Sheehan Na,Scurrah Kj,Burton Pr。调整治疗效果在定量性状的研究中:抗高血压治疗和收缩压。统计医学。2005; 24(19):2911-35。

    文章谷歌学术搜索

  22. 22.

    Cao y,Maxwell TJ,Wei P.一种基于家庭的联合测试,用于定量性状的平均值和方差异质性。ann hum genet。2015; 79(1):46-56。

    文章谷歌学术搜索

  23. 23.

    Joehanes R,Johnson Ad,Barb Jj,Raghavachari N,Liu P,Woodhouse Ka,等。FRAMINGHAM心脏研究中全血,外周血单核细胞和淋巴母细胞系的基因表达分析。physiol基因组。2011; 44(1):59-75。

    文章谷歌学术搜索

  24. 24.

    Durik M,Kavousi M,Van der Pluijm I,Isaacs A,Cheng C,Verdonk K,等。核苷酸切除DNA修复与年龄相关的血管功能障碍有关。循环。2012; 126(4):468-78。

    CAS.文章谷歌学术搜索

  25. 25.

    Lee JD, Sun DL, Sun Y, Taylor JE。准确的选择后推断,与套索的应用。安Stat。2016;44(3):907 - 27所示。

    文章谷歌学术搜索

  26. 26。

    中川S,Schielzeth H。从广义线性混合效应模型中获得R2的一种通用且简单的方法。方法Ecol进化。2013;4(2):133–42.

    文章谷歌学术搜索

  27. 27。

    关键词:高血压,高维组学,总中介效应,总中介效应,年龄相关性美国人类遗传学学会年会,第331卷。2019.

  28. 28。

    人类组织和细胞类型的DNA甲基化年龄。基因组医学杂志。2013;14(10):3156。

    文章谷歌学术搜索

  29. 29。

    Slieker RC、van Iterson M、Luijk R、Beekman M、Zhernakova DV、Moed MH等。甲基组学变异性的年龄相关累积与基本老化机制有关。基因组生物学。2016;17(1):191.

    文章谷歌学术搜索

  30. 30

    Richmond R,Hemani G,Talling K,Davey Smith G,Relton C.调查分子调解的挑战和新颖方法。哼唱mol tenet。2016; 25(R2):149-56。

    文章谷歌学术搜索

  31. 31

    范志强,陈志强。多重中介的中介分析。论文方法。2014;2(1):95 - 115。

    CAS.PubMed公共医学中心谷歌学术搜索

  32. 32

    拉乔维奇MJ,牧师KJ,凯利K。一种新的中介分析效应大小度量方法。心理学方法。2018;23(2):244.

    文章谷歌学术搜索

  33. 33

    Lindenberger U,Potter U.在分层线性回归中的独特和共同效应的复杂性:对发育心理学的影响。心理学方法。1998年; 3(2):218。

    文章谷歌学术搜索

  34. 34

    克雷西N,拉希里SN。REML估计量的渐近分布。[J] . acta Multivar Anal. 1993;45(2): 217-33。

    文章谷歌学术搜索

  35. 35

    Verbeke G,Lesaffre E.误解随机效应分布在线性混合模型中的纵向数据的效果。计算统计数据肛门。1997年; 23(4):541-56。

    文章谷歌学术搜索

  36. 36

    McCulloch CE,Neuhaus JM。错过了随机效果分布的形状:为什么错误可能无关紧要。stat sci。2011; 26:388-402。

    谷歌学术搜索

  37. 37

    杨T,陈H,唐H,李D,魏P.一种强大及数据适应性测试对基于稀有变体的基因环境相互作用分析。统计医学。2019; 38(7):1230-44。

    文章谷歌学术搜索

  38. 38

    基于中介效应的中介效应分析。博士论文,范德堡大学。2018。

  39. 39.

    Baron Rm,Kenny Da。主持人 - 介体的社会心理研究中的变化区别:概念,战略和统计因素。j pers soc心理。1986; 51(6):1173。

    CAS.文章谷歌学术搜索

  40. 40。

    张h,郑y,张z,gao t,joyce b,yoon g等。估计和测试表观遗传研究中的高维调解效应。生物信息学。2016; 32(20):3150-4。

    CAS.文章谷歌学术搜索

  41. 41。

    罗C,FA B,严y,王Y,周Y,张Y,yu Z.生存模型中的高维调解分析。PLOS计算BIOL。2020; 16(4):1007768。

    文章谷歌学术搜索

  42. 42.

    利用重采样减少全基因组研究中的选择偏差。麝猫论文。2005;28(4):352 - 67。

    文章谷歌学术搜索

下载参考

致谢

弗拉明翰心脏研究由国家心脏,肺和血液研究所(NHLBI)与波士顿大学合作进行并支持(合同N01-HC-25195)。该手稿没有与FHS的调查人员合作编写,并不一定反映了FHS,波士顿大学或NHLBI的意见或意见。作者在奥斯汀的德克萨斯大学致谢德克萨斯高级计算中心,以提供HPC资源。作者感谢David Mackinnon博士在这项工作的早期阶段进行了讨论,Mark Lachowicz博士有用讨论\(\ nu \)李·安·查斯坦博士和杰西卡·斯旺女士寻求编辑协助。

基金

该研究得到了国家健康研究院(NIH)授予R01CA169122和R21HL126032的支持;PW由NIH Grant R01H116720支持;HC由NIH Grant R00HL130593支持。NIH没有参与数据的设计和收集,分析和解释和写作稿件。内容完全是作者的责任,不一定代表NIH的官方意见。

作者信息

从属关系

作者

贡献

TY构思了这项研究,进行了模拟和真实数据分析,开发了工作中使用的R软件包,并起草了手稿;JN帮助解释了结果,为调解分析提供了关键的概念支持,并修改了手稿;HC提供了统计支持并修改了手稿;PW共同构思和设计了研究,并对手稿进行了实质性修改。所有作者都已阅读并批准了手稿。

通讯作者

对应于彭威

道德宣言

伦理批准和同意参与

该研究批准了德克萨斯州和德斯逊大学癌症中心机构审查委员会(IRB)的批准,批准号码PA18-0971。

同意出版物

不适用

利益争夺

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1。

对提议的措施进行更多的解释、解释和讨论;额外的模拟研究和结果;提供了扩展的实际数据应用结果。

权利和权限

开放存取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

杨,吨,牛,J.,陈,H.等等。高维组学中介体总中介效应的估计。欧宝娱乐合法吗22,414(2021)。https://doi.org/10.1186/s12859-021-04322-1

下载引用

关键词

  • 老化
  • 高维调解器
  • 迭代肯定独立筛选
  • 调解分析
  • \ (R ^ 2 \)基于效果