跳到主要内容

提高遗传力:用多样本分离估计表型变异的遗传成分

摘要

背景

遗传性是遗传学中的核心措施,该途径量化了特征中观察到的大部分可归因是遗传差异。估计可遗传性的现有方法通常基于随机效应模型,通常用于计算原因。使用固定效果模型的替代方案在文献中得到了更有限的关注。

结果

在本文中,我们提出了一种遗传力推断的通用策略,称为“提升遗传性”,结合最近不同方法的优点,用高维线性模型估算遗传力。提高遗传力特别是使用多样本分割策略,这通常会导致稳定和准确的估计。我们使用模拟数据和来自主要人类病原体的真实抗生素耐药性数据,Sptreptococcus肺炎,展示我们推理策略的有吸引力的特征。

结论

Boosting为遗传力的推断提供了一个可靠且实用的工具。

同行审查报告

介绍

虽然基因组关联研究(GWAs)代表了用于确定感兴趣表型/特征的遗传基础的主要工具,量化遗传因素在许多研究中的重要作用中发挥表型的变异的贡献。以此目的,遗传这是一个至关重要的数量[12]它是定义的(在狭义中),作为(添加剂)遗传因子解释的表型方差的比例。

目前文献中关于遗传力的研究通常是在线性混合效应模型框架下进行的[3.4].在该框架中,遗传标记的效果大小通常是SNP,被认为是独立的和相同的分布式随机变量,并且通常使用正常分布(具有0平均值)以用于计算原因。最大可能性和矩的方法是对这家模型的遗传性推论最广泛使用的方法[3.45678].

最近进行了一些估算遗传性方法的一些比较,例如,[6910.11.].然而,这些工作比较了不同方法在不同数据集上的性能,而没有过多关注实际的模型规范。由于遗传力是一个概念,它详细描述了一个性状的可加性方差,在某种意义上是基于一个统计模型的,因此遗传力估计依赖于指定的模型[12.]. 例如,如中所述[9],有很大的精神分裂症的估计遗传性差异\({\帽子{h}} ^ 2 _ {SNP} \)这等于0.56根据[3.],根据[13.].这些估计在性质上也有非常不同的解释,它们很可能不一致,因为它们是基于不同的遗传率统计模型。

本文主要研究具有固定效应的高维线性回归模型,在该模型中,没有对效应大小作分布假设。尽管由于GWAS中的超高维数据在计算角度上受到限制,但高维线性回归在建模遗传变异的全基因组水平贡献时是GWAS的一个自然模型。该模型相对于GWAS中的经典单变量方法的好处已经在[14.15.].用固定效应模型估计遗传力的研究起步较晚,尚未引起广泛关注。文中提出了一种矩量法[16.]中提出了一种凸优化策略[17.]中,研究了[18.],一些适应性程序也在[19.].然而,据我们所知,目前还没有对这些估算遗传力的方法进行系统的数值比较。

[中引入了一些基于高维正则化回归的两步方法。11.20.]提供了解获得更可靠和稳定的可遗传性估算的洞察力。在简洁起见,这种方法基于将数据分成两个子集。在第一步中,通过在一个子集上诱导正则化来使用变量选择来选择相关的协变量。在第二步中,这些选定的协变量用于估计来自其他数据子集的可遗传性。选择步骤是有助于仅考虑有助于特征的可变性的协变量(响应)的子集。此外,完成分割样品以避免对相同数据进行可变选择和可遗传性估计,这可能导致高估[20.].尽管这种方法很有前途,但它主要依赖于用于分割数据的特定分区,这可能导致不稳定的估计。

为了实现更可靠的结果,我们建议使用多个样本分离过程,以便在具有足够高概率的选择和估计步骤中呈现样本中的不同结构[21.22.].基于这个想法,我们提出了一个称为“促进遗传力”的通用框架,允许用户插入他们自己喜欢的变量选择和/或遗传力估计方法。通过重复样本分割,还可以获得遗传力的各种估计,从而提供估计值的有意义的区间。

为了证明我们的框架,我们将该程序应用于细菌GWAS来估计抗生素耐药表型的遗传力。虽然有许多关于估算人类GWAS遗传力的工作,但该主题尚未在细菌中被广泛考虑,只有一个突出的例子见[23.].这部分是因为与人类或动物DNA研究相比,细菌GWAS提出了独特的挑战,这源于更有限的重组和高度结构化的种群,导致整个染色体的大量连锁不平衡。

论文结构如下。在“模型与定义”一节中,我们提出了将性状与基因型矩阵联系起来的线性模型,然后定义了狭义遗传力,并讨论了固定效应与随机效应的估计方法。在“促进遗传力估计”一节中,我们介绍了我们的“促进遗传力”程序。将不同方法作为“模拟研究”部分中提出的框架的组成部分进行比较的模拟研究结果以及在抗生素耐药性表型中的应用将在本节中给出5.我们在最后一节总结并讨论我们的结果。

模型和定义

符号:在这里,我们介绍了论文中使用的主要符号。的\(\ \ _q \)规范\ ((0 < q < + \ infty) \)一个向量的(x \in {\mathbb {R}}^d\)被定义为\(\ vert x \ vert _q =(\ sum _ {i = 1} ^ d | x_i | ^ q)^ {1 / q} \).为一个矩阵(A\in {\mathbb {R}}^{n\times m}\)我\ \(现代{cdot} \)表示它th行和\(现代{\ cdot j} \)表示它jth列。对于任何索引集\(S \subseteq \{1,\ldots,d\}\)\(间\)的子向量x只包含被索引的组件年代,及\(现代\)表示底层一个柱形一个年代

模型

给定一个表型特征y属于n模拟作为线性组合的样本p基因共\(间{\ cdot j} \)和一个误差项(环境和未测量的遗传影响)

$$ \ begin {对齐} y_ {i} = x_ {i \ cdot} \ beta + \ varepsilon _ {i},i = 1,\ ldots,n \ nob {aligned} $$
(1)

在哪里\(x_ {i \ cdot} \)独立和同分布(i.i.d)与分布\({mathcal {N}}(0, \Sigma)\)并且是独立的\ (\ varepsilon _{我}\ sim {\ mathcal {N}}(0 \σ^ 2 _ {\ varepsilon}) \)

在这里,我们专注于编码的固定效果β\ (\ \)假设遗传协变X是随机变量。相反地,在大多数关于遗传的文献中,都假定了β\ (\ \)为服从高斯分布的i.i.d随机变量,即\(\β_j \打翻{我。d} {\ sim} {\ mathcal {N}}(0 \σ^ 2 _{\β})\),遗传协变量X认为是固定不变的。

遗传

在模型(1),我们有th观察到

$$ begin{aligned} \mathrm{Var}(y_i) = mathrm{Var}(X_{i\cdot}\beta) + sigma _{varepsilon}^2 =∑^ {top \sigma \beta + sigma _{varepsilon}^2\{对齐}$ $

我们有兴趣估算(狭义)遗传性y定义为

$$ begin{aligned} h^2 = frac{β ^ top \Sigma \ β}{β ^ top \Sigma \ β + Sigma _{vararepsilon}^2}。\{对齐}$ $
(2)

从技术上讲,遗传性是一种定量措施,表达了特征中存在的大部分种群可变性是由于遗传差异。此外,估算遗传性可以有助于建模潜在的遗传架构。接近零的遗传性意味着环境因素导致特质的大部分变异性。相反,接近1的遗传性表明特征的可变性几乎完全由遗传因素的差异引起。

正如我们所知

$$ \ begin {alpiouned} {\ mathbb {e}} [\ vert y \ vert _2 ^ 2 / n] = \ mathrm {var}(y)= \ beta ^ \ top \ sigma \ beta + \ sigma _ {\ varepsilon} ^ 2,\结束{对齐} $$

一个人可以使用\(\ vert y \ vert _2 ^ 2 / n \)作为遗传力分母的无偏估计量。此外,可以重写(2),

$ $ \{对齐}开始h ^ 2 = 1 - \压裂{\σ_ {\ varepsilon} ^ 2} {\ mathrm {Var} (y)} \{对齐}$ $
(3)

并使用噪声方差的估计\({\ hat {\ sigma}} _ {\ varepsilon} ^ 2 \)(见如。24.])来估计\(h ^ 2 \)而不是直接估计遗传方差\(\ beta ^ \ top \ sigma \ beta \)(这需要估计协方差矩阵和效应大小)。

然而,值得注意的是,作为来自GWAS分析的双产品,当使用多变量回归方法时,例如下面讨论的弹性网,一个人已经具有与所选择的协变量相对应的估计效果大小。使用这些效果尺寸来估计可遗传性将对对应于所选协变量的遗传性的洞察力,因此显然提供了理解特质的遗传架构的有用方法。

对比固定效果和随机效果

在GWAS中,与假定的遗传标记数量相比,报告的因果基因座的真实数量往往相对较少p,通常至少有几十万。假设真实效应大小β\ (\ \)\ (s \ ll p \)非零条目。在随机效应模型中,对这些非零条目进行了进一步的假设,使得它们是i.i.d高斯\({mathcal {N}} (0, sigma ^2_\ β)\).在这个随机效应假设下,遗传力被定义为[20.25.]\ (s \σ^ 2 _ \β/ (s \σ^ 2 _ \ \σβ+ _ {\ varepsilon} ^ 2) \)。

但是,在采用随机效应假设时,大多数方法都不使用稀疏性约束。这导致目标遗传性估算是\(p \ sigma ^ 2_ \ beta /(p \ sigma ^ 2_ \ beta + \ sigma _ {\ varepsilon} ^ 2)\)因此,遗传力的估计结果可能是不准确的。此外,LD结构这一代表协变量相关结构的重要概念,在随机效应模型的遗传力公式中没有直接表述,这使得估计不合理,如[826.].最近进行了几次尝试来考虑随机效应模型中的稀疏性约束,在[20.25.27.].

提高遗传评估

相关工作和动机

由于生物标志物的数量可能非常大,因此自然会首先应用一些变量选择或变量筛选方法,从实际的遗传力估计阶段去除不相关的变量。这种后选择方法已经在文献中提出,更具体地说,是针对固定效应模型[11.20.].

文中提出的HERRA方法[11.]基于筛选方法(例如[28.])减少样本量以下的协变量数量。给定剩余的协变量,样本被随机分成两个大小相等的部分。在第一个子集上使用套索型估计来选择少量重要变量。之后,仅使用所选协变量(来自lasso型估计器)对数据的第二子集使用最小二乘估计器来获得噪声方差的估计。切换第一和第二子集的角色以获得噪声方差的另一个估计。最后,遗传力按公式计算(3.),其中噪声方差为两个估计噪声方差的平均值。

本文还提出了另一种具有样品分裂的“两级”方法[20.].将数据随机分成两个不相交的等于示例大小。在数据的一半上,它们使用基于弹性网的稀疏正则化方法首先选择相关变量。然后,在数据的其他一半上,它们仅使用所选择的变量来估计基于时刻的方法方法的遗传性[16.].

这两种方法都显然遭受了一些局限性。首先,当协变量的数量非常大时,它可以直接适合上述“两级”方法中的稀疏正则化。使用筛选方法,如在草后,以减少问题的维度是一种务实的应用方法。然而,由于不知道原因生物标志物的真实数量,并且没有给出它们的LD结构,减少样本大小以下的变量的数量(如在赫拉中)从实际角度引入另一个问题。其次,很明显,这两种方法都依赖于所采用的特定样品分裂。可以通过多次执行采样分离和推理过程来避免这种依赖性(例如100次)并聚合相应的结果[21.22.].这是为了确保在选择和估计步骤中适当地考虑到样本中可能存在的不同潜在结构。

在机器学习中广泛使用的通用增强方法的中心特征是聚合不同的估计,以产生具有改进统计属性的估计,如AdaBoost [29.].多样本分割方法以前在统计界被提出过,如[21.22.],并成功应用于GWAS [30.31.].

提高遗传力:多样本分裂和遗传力聚集

我们提出了一种使用多个样本分裂来估计遗传率的策略,称为增强遗传率,具体在算法1中。

figurea

注意到初始步骤(步骤0)是一个筛选步骤,它可以使用简单的关联度量,如样本相关性,以删除只与兴趣特征弱相关的协变量。这个步骤与HERRA中使用的步骤类似[11.]和在[27.,但我们不建议将协变量的数量减少到实际样本量以下。这是因为,对于真实的数据,我们不知道因果变量的真实数量以及变量的相关结构。如果移除太多的协变量,这将对评估过程中的后续步骤产生不利影响。此外,初始筛选步骤可以被视为可选的,并且只有在以下情况下才有必要:协变量空间的高维性使得正则模型拟合繁琐或实际上不可能用于实际目的。

步骤1是一种有用的方法,可以帮助避免当考虑变量选择和后续估计时的过度拟合[20.22.31.].步骤2对应于一个变量选择阶段,我们建议使用Elastic Net作为默认选择,考虑到它处理高度相关协变量的能力。转换数据子集的角色有助于我们获得一个更稳定的遗传力估计。注意,通过重复的样本分割,可以得到遗传力的各种估计值,从而提供估计值的有意义的区间(例如,见图)。1).

图1
图1

用100个随机协变量作为因果选择的MA数据模拟遗传力估计的小提琴图。我们通过多重样本分割方法(B_herra,与\(b = 50 \)).查看“模拟研究”部分

我们注意到促进遗传率程序的主要成本是拟合惩罚回归(步骤2)在设置中的变量选择\ (p \ gg n \).然而,最近有人提出了对大GWAS数据进行惩罚回归的快速计算方法,参见32.].此外,B重复可以很容易地并行执行。当兴趣的特征是二分类时,可以使用罗伯逊变换[33.]转移在观察到的尺度(0或1)上计算的宫曲,以涉及责任规模的遗传性。随着我们在很大程度上遵循草后方法中呈现的方法,可以在[中,找到获得二进制特征的可遗传性的细节11.]或在[34.].

插件套索型估算估计值

从遗传的公式(2),可以使用效果大小的估计来获得估计遗传性的直接方法β\ (\ \)协方差矩阵的和。通过使用套索类型方法,可以获得所选协变量的非零估计效应大小,并且还可以使用这些协变量获得样本协方差矩阵。更准确地说,让我们\(S = left\{j: {\hat}} \ne 0 \right\}\)在哪里{\ \({\帽子β}}\)是从套索类型方法中估计,我们可以计算等式中的遗传性(2)与\({\ hat {\ sigma}} _ s = x_s x_s ^ \ top /(n-1)\)

$$ \ begined {aligned} {\ hat {h}} ^ 2 = \ frac {{\ hat {\ beta}} _ s ^ \ top {\ hat {\ sigma}} _ s {\ hat {\ beta}} _ s} {\ mathrm {var}(y)}。\{对齐}$ $

弹性网已被证明在变量是相关的情况下特别有用[35.](LD结构),通常是遗传标记数据的情况,并且该特征在细菌基因组数据中特别突出显示。相应的估计器被定义为

$ $ \开始{对齐}{\帽子{\β}}_{硅谷动力}:arg = \ \分钟_{β\}\压裂{1}{n} \总和_ {i = 1} ^ {n} \厄尔(y_i \β^ T x_i) +左\λ\[0.5(1 -α)\ | | \β| |α_2 ^ 2 + \ | | \β| | _1 \右]。\{对齐}$ $

在这里\(\字母l (a, b) \)是观察的负面日志可能性。对于它是线性高斯案\ \压裂{1}({2}(a - b) ^ 2 \)对于逻辑回归来说是这样的(1+e^{b}) + log (1+e^{b}).弹性网由\(\ alpha \在[0,1]中,\)这架起了套索(\(\ alpha = 1 \))及岭回归(\ \(α= 0 \)).由于给定特征的真正遗传基础通常是未知的以及LD结构难以估计,我们建议使用少量价值\α(\ \),例如,0.001。调整参数\ \(λ> 0 \)控制惩罚的整体强度,我们使用10倍交叉验证来选择合适的值\(\ lambda \).弹性网方法在' pyseer '软件中实现[36.37.]关注细菌数据的GWAS。

模拟研究

我们使用616的真实数据集链球菌引起的肺炎从马萨诸塞州收集的基因组,表示为MA数据,用于创建半合成数据集,其中包含种群结构水平和自然种群中发生的LD(见图。2).这些数据可通过文章公开获取[38.]. 在使用标准群体基因组程序(使用次要等位基因频率阈值并去除缺失数据)过滤初始数据后,我们获得了603个样本的基因型矩阵,其中包含89703个SNP。利用观察到的基因型矩阵,我们通过中定义的线性模型模拟反应/表型(1).

数据和代码的可得性:数值实验中使用的R代码和数据可在:https://github.com/tienmt/boostingher

实验设计

图2
图2.

基因型矩阵中前100个SNPs协变量的样本协方差矩阵显示出存在复杂的依赖结构S.肺炎数据

我们考虑以下设计来选择因果SNP(非零效应大小):

  • 稀疏设置:随机选择100个SNP。

  • 多基因设定:随机选择5000个SNP。

  • 青霉素耐药样环境([39.[]):从3个基因(pbpX,pbp1A,penA)中随机选择100个SNPs。

鉴于SNP,回归系数\(\ beta ^ 0 \)从正态分布中取样\({\ mathcal {n}}(0,1)\).由于基因型矩阵的真实协方差未知,我们需要对系数进行重新归一化\(\ beta ^ 0 \)作为\ \β=β\ ^ 0 \√{\σ^ 2 _ \ varepsilon h ^ 2 /(\β^{0 \顶级}{\酒吧{\σ}}\β^ 0(1小时^ 2))}\)以确保真实的相应遗传率接近我们的目标。在这里\(h ^ 2 \)目标遗传性和{\ \({\酒吧σ}}\)基因型矩阵和噪声方差的样本协方差矩阵是否固定为\(sigma _{\varepsilon}^2 = 1\)

目标遗传力固定为\ (h ^ 2 = 0.5 \).我们提醒,由于基因型矩阵的真实协方差矩阵是未知的,我们只能从模型(1)这大约以考虑的遗传力为目标。因此,我们建议使用“oracle”估计器,表示为h2aprx.,通过公式(3.

$$, $, $, $, $, $, $, $, $, $, $, $, $, $, $, $

作为比较的基准。如在仿真中,我们的设置中不知道真正的协方差矩阵,而给出噪声方差,因此该估计器为近似真正的遗传性提供了坚实的基础。注意,“H2APRX”估计器基于真实的模拟值,不能与真实数据一起使用。

对于每个设置,我们生成30个模拟运行,并报告跨模拟运行的每个方法的遗传性估计的均值和标准偏差。我们比较弹性网(ENET),草后和由“B_HERRA”和GCTA方法表示的促进版本。更具体地,GCTA [40是基于线性混合模型和最大(限制)似然估计的广泛使用的方法。使用重复的样品分裂的数量进行\(B=50\)时代。Enet与固定参数一起使用\α= 0.01 (\ \)为选择调整参数的10倍交叉验证\(\ lambda \)

估算遗传性的结果

根据表中的结果1,很明显,“甲骨文”在所有设计中都很接近目标遗传力。一般来说,增压过程趋向于减少与之结合使用的原始基本方法的可变性,见表123.

弹性网低估了目标,这可以用向下偏差来解释,已知向下偏差会影响简单的插入式套索式方法,如弹性网。这种效应是由于与弱效应相对应的一些系数缩小到零,而这种弱效应在总遗传性状变异性方面仍然可能是显著的。然而,我们想要指出,通过Elastic net估计遗传力提供了一个很好的遗传力下限,如结果所示。

表1使用线性模型和目标遗传性的MA数据模拟结果\ (h ^ 2 = 0.5 \)

另一方面,HERRA和它的助推版本返回了稳定的估计。更具体地说,选择合适的筛选步骤(步骤0),如表所示2, HERRA和B_herra可以导致准确的估计。这是可以预料到的,因为这种方法遵循了“oracle”评估器的精神。更具体地说,它旨在提供噪声方差的一致估计,因此相应的遗传力估计也将是一致和稳定的[11.].因此,助推HERRA将是我们下一节在实际应用中主要关注的方法。

在我们的模拟中,GCTA一般没有表现良好,很可能是由于样本大小太小而不用于基于GCTA的随机效应的方法。我们注意到,对于人类研究中的不相关的个​​人和常见的SNP,建议使用至少3160个无关的样本来推荐GCTA方法,参见[40].在细菌表型的研究中,获得这么多至少近似无关的样本是不常见的。

多重数据分割的效果

显然,选择数据分割的次数B是实践中的关键因素。这里我们举个例子B增加时,得到的估计遗传力集中在其均值附近,见图。3..因此,我们建议至少使用30 \ \ (B \通用电气)在实践中\ \ (B = 100)在计算资源允许的情况下,将是一个合理的选择。

图3
图3.

MA数据模拟结果,随机选取100个snp,\ \σ^ 2 _ \ε= 1 (\)以及目标遗传力\ (h ^ 2 = 0.5 \).小提琴图描绘了每个选择的遗传力估计值的分布B,数据拆分的数量

筛选步骤的效果

我们进一步研究使用筛选步骤减少协变量的效果。随机选择100个具有目标遗传力的单核苷酸多态性进行不同的试验\ (h ^ 2 = 0.5 \)(∑_ ^2 = 1)检查,见表2.更准确地说,我们进一步考虑3种情况:去除60%的协变量,去除90%的协变量,只保留top\(n + 1 \)协变量。

结果表明,使用筛选步骤来减少不相关的协变量,不仅可以降低数据的维数,而且还可以改进遗传力估计,特别是在去除60%协变量的情况下。这一事实以前也曾在美国的线性混合模型方法中报道过[27.],作者的提高,提高了最大似然估计。但是,如果删除了太多的协变量,则遗传性估计可能是不准确的,就像保持顶部的情况一样\(n + 1 \)协变量。

表2 MA数据模拟结果,随机选取100个snp,\ \σ^ 2 _ \ε= 1 (\)\ (h ^ 2 = 0.5 \)

论运行时间

默认B_HERRA在MA数据上的运行时间与10 CPU核心并行化的分割步骤为2.335分钟。更具体地,筛选步骤占总运行时的5.25秒。在去除60%协变量的情况下,运行时间明显减少到1.319分钟。R代码在Linux(RedHAT 64位)上运行,R 3.6.0版。

使用GCTA模型的仿真结果

我们进一步研究了Enet、HERRA、B_herra和GCTA方法在表型模拟中所表现的性能。我们提醒大家,GCTA模型是一个随机效应模型,不同于线性模型(1因此,我们不能使用“H2APRX”估计器。选择因果SNP的设置与以前保持相同。

表3基于真遗传率的GCTA模型的MA数据模拟结果\ (h ^ 2 = 0.5 \)

结果,表3.,揭示了HERRA, B_herra在GCTA模型中产生无偏估计。弹性网虽然被低估了,但仍然为真遗传力提供了一个很好的下限。由于样本太小,GCTA方法再次低估了遗传力。

Maela数据中抗生素抗性的可遗传性

为了进一步说明基于增强的方法,我们将我们的程序应用于代表3069的Maela数据Streptococus肺炎来自泰国缅甸边境的难民营进行的婴儿队列研究的基因组[39.41.].经过标准群体基因组程序的数据过滤(使用小等位基因频率阈值并去除缺失数据),我们得到了121014个SNPs的基因型矩阵。我们将对5种不同抗生素的耐药性作为表型:氯霉素、红霉素、四环素、青霉素和复方新诺明。

抗生素耐药表型的遗传力预计很高,这意味着变异性主要来源于观察到的这些细菌之间的遗传差异,并且该特定物种/数据集可用的SNP将包括大多数潜在的耐药原因机制。然而,尽管细菌分离物是相关的,但不能断定报告的估计数是指总遗传,由于未测量的遗传因子可能部分地促进测量的表型变异。我们使用两种不同类型的抵抗表型来调查其遗传性。首先,我们使用对应于标签的标签或's'(代表'敏感'或'抗性')的二元表型,用于群组中的每个细菌隔离物。其次,我们使用对应于实验室中测量的抑制区直径的连续表型。这些抑制区直径在实践中用于定义样品是否对抗生素敏感或抗性。然而,值得注意的是,由于细菌培养中的抑制机制动态的方式,从抑制区直径的转化为标记样品的'r'是非线性的。

我们采用Enet, HERRA, HERRA助推版和GCTA方法[40]到此数据。结果在表格中给出45对于两个数据类型。

表4 Maela数据中抗生素抗性(二元)表型遗传力(标准差在括号中)
表5使用Maela数据中使用抑制区直径的抗生素抗性表型的遗传性(标准偏差在括号中给出)

作为广泛的摘要,这五种抗生素电阻的遗传性高,正如预期的那样,无论是使用二元还是连续表型。但是,我们要注意,二进制响应的结果是在观察到的比例(0/1电阻状态)上,因为我们无法将它们转换为底层阈值模型,请参阅[11.].弹性净方法通过在这些抗生素电阻的可遗传性上提供较低的界限来产生重要的洞察力。对于连续表型,对于氯霉素为至少51%,对于红霉素,至少73%的四环素至少为73%,对于青霉素至少为80%,并且对于共析唑来说至少为71%。

有趣的是,B_herra得出的结果与GCTA方法一致。然而,GCTA法测得的青霉素遗传力低于Enet法测得的结果,而提高HERRA法测得的结果则不然,见表5

讨论和结论

在本文中,我们提供了一个“提升遗传力”的一般框架,用于对遗传力进行推断。“提高遗传力”的主要成分是多样本分割策略。这一策略允许人们采用变量选择步骤来去除不影响性状变异性的不相关协变量,从而产生可靠的遗传力估计。此外,通过多次重复样本分割,该策略确保在选择和估计步骤中考虑不同的潜在结构。

不同方法的数值比较与我们在线性(固定效应)模型估计遗传性的提议在关注对细菌GWAS的应用时绘制了关于电流方法的行为的系统图片。实际数据的结果表明,观察到的五种研究的抗生素电阻的可变性主要是由于观察到的遗传因素的可变性,而一些无法解释的变异仍然存在。

成功改善和稳定HERRA [11.],“增强遗传力”框架仍然保留了它的优势,能够处理二分类、事件发生时间或发病年龄特征。此外,提升遗传率过程也适用于随机效应模型,其中遗传率估计步骤(算法1中的步骤3)采用随机效应方法完成,如[20.].这些将成为未来的新研究方向。

此外,我们的增强遗传力程序使用一个简单的聚合来结合估计,即使用它们的算术平均数。其他类型的聚合,参见例[30.31.],也可以在未来的作品中使用和进一步检查。

数据和材料的可用性

数值实验中使用的R代码和数据可用于:https://github.com/tienmt/boostingher

参考

  1. 1。

    驯鹰人DS。数量遗传学导论。伦敦爱丁堡:奥利弗和博伊德;1960.

    谷歌学术搜索

  2. 2。

    Lynch M,Walsh B.遗传学和分析定量性状,VOL。1.马:锡诺德桑德兰;1998年。

    谷歌学术搜索

  3. 3.

    buliko - sullivan BK, Loh P-R, Finucane HK, Ripke S, Yang J, Patterson N, Daly MJ, Price AL, Neale BM,精神病学基因组学协会SWG等。在全基因组关联研究中,Ld评分回归将混杂性与多基因性区分开来。自然香猫2015;(3):291。

  4. 4。

    Yang J, Benyamin B, McEvoy BP, Gordon S, Henders AK, Nyholt DR, Madden PA, Heath AC, Martin NG, Montgomery GW, et al.;常见的单核苷酸多态性解释了人类身高遗传力的很大一部分。Nat麝猫。2010;42(7):565。

    中科院文章谷歌学术搜索

  5. 5。

    刘志强,王志强,王志强,等。遗传缺失率的测定:基于遗传变异的估算。中国科学院院刊。2014;111(49):5272-81

    文章谷歌学术搜索

  6. 6。

    周X.基因组关联研究中的统计统计方差分量估算统一框架。Ann appl stat。2017; 11(4):2027。

    PubMed.公共医学中心谷歌学术搜索

  7. 7.

    高维混合模型的遗传力估计:理论与应用。博士论文,Université Paris-Saclay;2016.

  8. 8.

    速度D,Cai N,Johnson Mr,Nehentsev S,Balding Dj,Consortium U等。复兴人类特征中SNP遗传性的重新评估。NAT Genet。2017; 49(7):986。

    中科院文章谷歌学术搜索

  9. 9.

    Evans LM、Tahmasbi R、Vrieze SI、Abecasis GR、Das S、Gazal S、Bjelland DW、Candia TR、Goddard ME、Neale BM等。使用全基因组数据评估复杂性状遗传力和遗传结构的方法比较。纳特·吉内特。2018;50(5):737.

    中科院文章谷歌学术搜索

  10. 10。

    Weissbrod O, Flint J, Rosset S.在病例对照研究中直接和汇总统计估计snp-based遗传力和遗传相关性。人类基因。2018;103(1):89-99。

    中科院文章谷歌学术搜索

  11. 11.

    Gorfine M, Berndt SI, Chang-Claude J, Hoffmeister M, Le Marchand L, Potter J, Slattery ML, Keret N, Peters U, Hsu L.使用正则化回归方法(herra)估计遗传率:适用于连续、二分类或发病年龄结果。PLoS ONE。2017; 12(8): 0181269。

    文章谷歌学术搜索

  12. 12.

    全基因组关联时代的遗传力。哼麝猫。2012;131(10):1655 - 64。

    文章谷歌学术搜索

  13. 13。

    Lee SH, Ripke S, Neale BM, Faraone SV, Purcell SM, Perlis RH, Mowry BJ, Thapar A, Goddard ME, Witte JS等。从全基因组snp估计五种精神疾病之间的遗传关系。Nat麝猫。2013;45(9):984。

    中科院文章谷歌学术搜索

  14. 14。

    吴tt,陈yf,hastie t,sobel e,lange K.基因组关联分析由套索惩罚逻辑回归。生物信息学。2009; 25(6):714-21。

    中科院文章谷歌学术搜索

  15. 15。

    [j] . acta optica sinica, 2008, 29(4): 594 - 594。遗传学。2017;205(1):61 - 75。

    文章谷歌学术搜索

  16. 16。

    狄尔州lh。高维线性模型中的方差估计。Biometrika。2014; 101(2):269-84。

    文章谷歌学术搜索

  17. 17.

    本征棱镜:对高维信噪比的推断。J R统计Soc: Ser B(统计方法)。2017, 79(4): 1037 - 65。

    文章谷歌学术搜索

  18. 18.

    Dicker LH, Erdogdu MA。高维线性模型方差估计的最大似然。第19届人工智能与统计国际会议论文集,PMLR 2016;51:159 - 167, 2016。

  19. 19.

    引用本文:魏泽伦,贾亚特等。高维信噪比的自适应估计。伯努利,2018;24 (4 b): 3683 - 710。

    文章谷歌学术搜索

  20. 20

    李X,吴D,崔y,刘B,沃尔特H,舒曼G,李c,姜t。利用超高尺寸基因组关联研究中稀疏规律化的可靠遗传性估算。BMC生物素。2019; 20(1):219。

    文章谷歌学术搜索

  21. 21

    Meinshausen N, Meier L, Bühlmann P.高维回归的p值。中华医学会统计科学分会。2009;104(488):1671-81。

    文章谷歌学术搜索

  22. 22。

    范军,郭树华,郝宁。基于改进交叉验证的超高维回归方差估计。J R统计Soc: Ser B(统计方法)。2012年,74(1):37 - 65。

    文章谷歌学术搜索

  23. 23。

    李士杰,Croucher NJ, Goldblatt D, Nosten F, Parkhill J, Turner C, Turner P, Bentley SD。与肺炎球菌携带时间相关的谱系和位点特异性变异的全基因组鉴定。Elife。2017;6:26255。

    文章谷歌学术搜索

  24. 24。

    基于lasso回归的误差方差估计方法研究。Statistica学报。2016;26:35 - 67。

    谷歌学术搜索

  25. 25。

    引擎盖A, Gassiat E, Lévy-Leduc C,等。高维稀疏线性混合模型的遗传率估计。电子学报。2015;9(2):2099-129。

    文章谷歌学术搜索

  26. 26。

    Speed D,秃头DJ。Sumher从汇总统计中更好地估计了复杂性状的snp遗传率。51 Nat麝猫。2019;(2):277。

    中科院文章谷歌学术搜索

  27. 27。

    Bonnet A,Lévy-LEDUCC,Gassiat E,Toro R,Bourgeron T.通过在稀疏高维线性混合模型中的可变选择方法提高遗传性估算。J Roy Stat SoC:Ser C(Appl Stat)。2018; 67(4):813-39。

    谷歌学术搜索

  28. 28。

    范杰,吕杰。确保超高维特征空间的独立性筛选。J R统计Soc:Ser B(统计方法)。2008;70(5):849–911.

    文章谷歌学术搜索

  29. 29.

    一种新的增强算法的实验。发表于:第十三届机器学习国际会议论文集。ICML 96, 1996;148 - 156页。http://dl.acm.org/citation.cfm?id=3091696.3091715

  30. 30.

    李志强,李志强,李志强,等。基于层次推理的全基因组关联研究:基于软件的方法学观点。第一版Stat。2020;第1 - 40(1):35。

    文章谷歌学术搜索

  31. 31.

    多变量全基因组关联分析的统计学意义。生物信息学。2016;32(13):1990 - 2000。

    中科院文章谷歌学术搜索

  32. 32

    钱J,Tanigawa Y,Du W,Aguirre M,Chang C,Tibshirani R,Rivas Ma,Hastie T.一种快速而可扩展的框架,用于大规模和超高压稀疏回归与英国Biobank的应用。Plos Genet。2020; 16(10):1009141。

    文章谷歌学术搜索

  33. 33

    Dempster ER, Lerner IM。阈值性状的遗传力。遗传学。1950;35(2):212。

    中科院PubMed.公共医学中心谷歌学术搜索

  34. 34

    Lee Sh,Wray Nr,Goddard Me,Visscher Pm。从基因组关联研究估算疾病的遗失性遗传性。am j人类遗传。2011; 88(3):294-305。

    文章谷歌学术搜索

  35. 35。

    邹海涛,刘志强。基于弹性网的正则化与变量选择。J R统计Soc: Ser B(统计方法)。2005年,67(2):301 - 20。

    文章谷歌学术搜索

  36. 36。

    Lees JA, Galardini M, Bentley SD, Weiser JN, Corander J. pyseer:微生物全基因组关联研究的综合工具。生物信息学。2018;34(24):4310 - 2。

    中科院文章谷歌学术搜索

  37. 37。

    利用可解释的跨全基因组回归改进细菌基因型-表型关联的预测。Mbio。2020;11(4)。

  38. 38。

    Croucher NJ,Finkelstein Ja,Pelton Si,Parkhill J,Bentley SD,Lipsitch M,Hanage WP。群体基因组数据集描述链球菌疫苗疫苗进化流行病学。SCI数据。2015; 2:150058。

    中科院文章谷歌学术搜索

  39. 39。

    李佳,Vehkala M, Välimäki N, Harris SR, Chewapreecha C, Croucher NJ, martininen P, Davies MR, Steer AC, Tong SY,等。序列元素富集分析确定细菌表型的遗传基础。Nat Commun。2016;7:12797。

    中科院文章谷歌学术搜索

  40. 40.

    杨杰,李舍,戈达德我,visscher pm。GCTA:一种用于基因组复杂性状分析的工具。我是j嗡嗡声的遗传。2011; 88(1):76-82。

    中科院文章谷歌学术搜索

  41. 41.

    Chewapreecha C, martininen P, Croucher NJ, Salter SJ, Harris SR, Mather AE, Hanage WP, Goldblatt D, Nosten FH, Turner C,等。肺炎球菌嵌合基因中与β -内酰胺抗性相关的单核苷酸多态性的综合鉴定。公共科学图书馆麝猫。2014;10(8):1004547。

    文章谷歌学术搜索

下载参考

致谢

作者要感谢编辑和两位匿名的推荐人,他们善意地审阅了这篇手稿的早期版本,并提供了宝贵的建议和有启发性的评论。T.T.M和J.C.要感谢John A Lees关于GWAS和遗传力的有益讨论。

资金

本研究由欧洲研究理事会资助。742158.

作者信息

隶属关系

作者

贡献

概念化:T.T.M.和J.C.。正式的分析:T.T.M . .数据管理:P.T.。方法,T.T.M . .写作:初稿,T.T.M.;审查和编辑,所有作者。获得资助:J.C.所有作者阅读并批准了最终稿。

通讯作者

对应到天山的麦

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益

额外的信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

附录

附录

见表6

表6利用线性模型和目标遗传力对MA数据的模拟结果\ (h ^ 2 = 0.5 \)(括号内为标准差)

关于运行时间的细节

figureb

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

MAI,T.T.,Turner,P.&Corander,J.提升遗传性:估算多个样品分裂的表型变化的遗传组分。欧宝娱乐合法吗22,164(2021)。https://doi.org/10.1186/s12859-021-04079-7

下载引用

关键字

  • 抗菌抗性
  • 提升
  • 遗传
  • 线性模型