跳转到主要内容

用于遗传分析的现代模拟工具

摘要

背景

统计遗传学家使用模拟来估计提出的研究的力量,测试新的分析工具,并评估因果模型的特性。虽然已有特性模拟器,但仍有足够的空间进行现代化。例如,大多数表型模拟器仅限于高斯性状或可转化为正态的性状,而忽略了定性性状和现实的非正态性状分布。此外,现代计算机语言,如Julia,能够适应并行化和基于云的计算,现在已经成为主流,但很少在旧的应用程序中使用。为了迎接当代大型研究的挑战,遗传学家采用新的计算工具是很重要的。

结果

我们提出TraitSimulation这是一个开源的Julia包,它使得在各种遗传结构下快速模拟表型变得很简单。这个包被集成到我们的OpenMendel套件中,便于下游分析。Julia是专门为科学编程而建的,它提供了惊人的速度和内存效率,易于访问多cpu和GPU硬件,以及分布式和基于云的并行化。TraitSimulation旨在鼓励灵活的特质模拟,包括通过应用统计,广义线性模型(GLM)和广义线性混合模型(GLMM)的标准设备。TraitSimulation也适用于许多研究设计:无血缘关系,亲缘关系,血统,或三者的混合。(当然,对于具有谱系或神秘关系的数据,模拟过程必须包括个体之间的遗传依赖关系。)我们考虑各种特征模型和研究设计来说明集成的仿真和分析管道。这些分析的逐步说明可以在Github上我们的电子jupiter笔记本上找到。这些互动式笔记本是可重复研究的理想选择。

结论

TraitSimulation包装有三个主要优点。(1)它利用了Julia的计算效率和易用性,提供了极其快速、直接的模拟,即使是最复杂的遗传模型,包括GLMs和glmm。(2)完全可以在OpenMendel集成分析管道内操作,但不限于此。最后(3),通过允许更广泛的更现实的表型模型,TraitSimulation使动力计算和诊断工具更接近调查人员在现实世界的分析中可能看到的东西。

背景

现代基因组 - 宽协会研究(GWAS)对抗新的计算和分析挑战的研究人员。遗传数据集变得越来越多。(参见例如英国Biobank [1,2]。)现代数据集的大小和种类需要适当的处理,以确保质量分析。在进行一项研究之前,遗传流行病学家几乎总是评估他们研究设计的充分性。如果他们提出一个频率分析,他们寻求预先确定它的能力,类型1错误率,估计的准确性和精确度,覆盖范围,以及模型错误说明的稳健性。由于从数学上几乎不可能得到这些结果,他们必须借助于模拟。由于数据量大,预期效应量小,整个过程耗时且容易出错。一个小小的失误就可能导致错误的乐观或悲观。由于基因研究的开展和承担重要的公共卫生后果是昂贵的,因此模拟研究必须真实、准确和迅速地进行。

存在各种现有的表型模拟器,每个模拟器都具有独特的美德和实现。三个突出的例子是[3.,4,5]。一些模拟器遭受其高级编程语言强加的计算限制和瓶颈。一些模拟器还要求用户格式化,保存,然后将模拟的特征结果传递给单独的分析程序或程序,通常以低级语言编写。仅靠这些“装配线”管道依靠这些“装配线”的用户担任在管道中的每个程序保持最新的责任,因为它适应计算机语言,硬件或分析规范的新进步。

幸运的是,最新的计算机语言更适合于适应现代软件工程实践,从而保护用户避免常见的编程错误。在无所不在的并行化和大数据集出现之前设计的语言正在努力保持相关性。另一方面,大多数现代语言都能沉着地处理这些机会。Julia是一种新的动态语言,专为高性能计算(HPC)而建,并被领先的计算统计学家广泛采用[6,7]。

在本文中我们介绍TraitSimulation,一个基于朱丽亚的开源软件包集成到OpenMendel软件套件[8]。OpenMendel提供了一个现代的、全面的、用户友好的遗传分析管道。TraitSimulation的优势是广泛的非正常模拟模型,灵活地修改现有或添加新的仿真模型,以及使用标准输入和输出数据格式,如PLINK。使用标准输入格式,用于特征模拟的遗传和协变量可以是真实的或自己模拟的。使用标准输出格式使得表型产生TraitSimulation与一系列下游分析工具兼容。

虽然表型模拟可以在许多下游应用中发挥重要作用,包括功率分析,表型产生本身很少是最耗时的步骤。通常情况下,大多数时间都花在了模拟后分析上,这可能会也可能不会在我们的OpenMendel套件中执行。由于这个原因,我们在这里不关注表型模拟本身的速度基准。相反,我们感兴趣的是为研究人员提供一种更灵活、可能更现实的表现型模拟工具,同时利用Julia的现代语言特性提高编程效率和易用性。

为了演示TraitSimulation可能被用作OpenMendel工具箱中的一个元素,我们将介绍案例研究,其中包括我们的模拟软件在设置下的应用,这些设置要求广泛的独特的可能表型模型TraitSimulation。OpenMendel环境的统一性质使得可以轻松地制作用于在真实或模拟遗传和协变量数据上模拟特征的代码,以为无关的个人和多世代股份。与其他OpenMendel软件包共同,TraitSimulation方便地接受现代计算体系结构,鼓励可靠和高效的编程实践。

在下面的部分中,我们首先解释了使用Julia开发OpenMendel项目的优势,并展示其一些关键语言特征。然后我们呈现OpenMendel的高效SNP数据管理工具SnParrays。最后,我们用实例数据和在下游分析中应用模拟表型的各种案例研究的结果概述了性状模拟过程。在这些案例研究中使用的真实性格模拟模型并不是在我们所知的任何其他模拟软件中都可用。用户不仅限于OpenMendel或Julia提供的分析选项。在模拟出所需的特性后,他们可以调用其他分析程序,包括流行的R、c++或Python包,同时保持在Julia或Jupyter笔记本环境中。或者,他们可以将模拟的特征输出到文件中,以便进行更可定制的下游分析。

实现

Julia编程语言为遗传关联研究提供了一个极好的计算环境。Julia的许多特性之一是它的即时编译器,它允许语言将C或c++等低级语言的速度和效率与R或Python等高级语言的易于使用和可理解的语法结合起来。Julia的速度还得益于它自动使用了现代cpu中内置的巨大并行化。例如,Julia包括自动指令级并行、向量化(同时执行许多数学操作)和多线程(让整个代码段并行运行);Julia甚至包括跨大型计算集群的分布式计算工具[9,10.,11.]。为了使编码更加简单和高效,Julia还具有自动类型检查(以确保变量的一致性)和多分派(在这种情况下,单个函数可以用于不同类型和数量的数据作为输入,并且仍然具有最佳效率)。此外,Julia还附带了一个本地包管理器,它提高了可移植性、部署的便利性和可重复性。Julia还允许用户轻松地在共享和分布式内存环境(包括图形处理单元)之间切换。Julia的效率和通用性解决了长期存在的两种语言问题,在这种情况下,开发人员可以快速地用R或Python等高级语言建立软件原型,但随后必须用C或c++等低级语言重写原型代码,以处理更大的、真实世界的数据集。随着遗传数据的发展和增长,需要更多的资源密集型工具来执行分析,这些设计特性使Julia成为计算遗传学中引人注目的语言。

SNP数据

我们的朱莉娅的包装SnParrays(12.]对于所有OpenMendel模块的SNP数据是一个多功能的接口,并且可能是其他包。用户可以按名称,位置,次要等位基因频率(MAF)或其他过滤标准指定兴趣的SNP。SnParrays。一个显著的特性是,在读取压缩的SNP数据文件后,SnParrays在其计算过程中保持所有基因型数据压缩,如遗传关系矩阵(GRMs)和主成分(PCs)的估计。这个特性在保持极快的性能的同时,将RAM要求降低了一个数量级。这一切都是可能的,因为Julia允许在BitArrays上定义矩阵-矩阵乘法等操作,BitArrays是每个元素都是1或2位的数组。这允许在商品级计算机上对生物库规模的数据进行真正的分析,这是通过我们在[13.]。

特性仿真

我们新的TraitSimulation程序提供了表中列出的广泛的底层模型1,包括有序多项式模型、广义线性模型和广义线性混合模型。TraitSimulation允许用户轻松修改表中的模型1以满足他们的需求或创建全新的仿真模型。表格2,其变量在下面定义,传达模型构造的基本语法并在该模型下运行模拟。这种灵活性允许用户放宽许多现有包的严格分布假设,并模拟不符合正常限制的特征。特征分配的更大保真度必然会改善分析结果。有兴趣的用户可以通过在假设模型下模拟特征数据,然后在不同模型下分析数据来评估模型拼写的效果。可以在[中的目的中使用我们的软件的明确示例13.在线性或逻辑回归模型下分析有序多项表型时,他们发现了幂次的下降。

表1仿真模型包括TraitSimulation
表2模型构造和模拟函数(变量定义请参见文本)

运行我们的TraitSimulation包装典型的五个步骤是:

  1. 1

    加载所需的软件包:SnParraysTraitSimulation

  2. 2

    通过PLINK读取数据文件SnParrays并估计GRM(如适用)。

  3. 3.

    构建模拟模型,包括相关参数,如遗传和非遗传预测器,方差分量等。

  4. 4

    从所构建的模型中调用模拟例程以获得样本。

  5. 5

    将模拟的表现型输出到一个文件中,或者将它们传递给其他分析。

下面的Julia代码片段是用于为表中的模型(4)执行上述步骤的命令示例1,基于现有压缩文件中的基因型数据。潜在用户可在[14.]。

figurea

在这里X矩阵是预测和B是回归系数的相应矩阵。的宏提供了一种方便的方法来指定模型的方差组件。\(\ sigma _a \)是添加剂遗传协方差基质,\(\ sigma _e \)是环境协方差矩阵,\ \ otimes \ ()表示克朗克盖产品和\ (I_n \)是个\ (n \ n \)单位矩阵。

表格2使用与上面代码相同的变量定义。对于表中的每个模型2模拟程序也类似于上述代码。Julia实现了多个调度,允许我们的模拟函数运行适当的模拟例程,即使我们指定了显著不同的模型。

更多关于跑步的细节TraitSimulation在各种设置下,以及模型规范的附加分步说明,可以在我们的交互式中找到Jupyter笔记本在[14.]。TraitSimulation为用户提供了多种不同方式指定仿真模型的选择。下面指定遗传模型的替代命令可能更方便。

figurec

在这个替代规范中,回归系数B提供了一个二元向量的公式,每个特征一个。预测器矩阵被指定为一个DataFrame,其中的列名与公式中出现的列名相协调。

另一种模型规范机制为希望包含许多SNPs的用户提供了更大的灵活性,而无需从压缩的SnpArray转换模型基因型。这里,基因和非基因预测因子(G,X)和相应的回归系数\((\γ,B) \)单独提供。

算

具有许多方差组件的用户可以选择不使用宏,而不是提供方差成分和方差/协方差矩阵的列表:

figuree

结果

在我们下面介绍的两个案例研究中,我们使用的所有特征模拟生成模型,单变量和双变量方差分量模型以及序数多项模型,目前不可能被构建到我们已知的任何其他特征模拟软件包中。正如我们在案例研究中所描述的,这些显然是给定各自数据集的正确模拟模型。因此,TraitSimulation灵活的模型规范允许进行其他情况下无法进行的分析。一步一步,交互式的jupiter笔记本,引导用户通过这些案例研究,可在[14.]。在这里,我们首先描述这些功率分析研究背后的统计数据以及如何进行TraitSimulation与其他OpenMendel模块配合进入软件管道(见图。1)。

图1
图1

打开mendel管道示例。TraitSimulation适合软件管道,以评估案例研究方差分量下的关联分析的力量2

图2
图2.

案例研究1:序数多项式模型下的幂。本例显示了在英国生物库数据中检测具有四种疾病状态结果类别的单一致病SNP的能力。使用序数多项式模拟模型和OpenMendel模块进行序数特质回归[13.],我们假设一个SNP作为性别和标准化年龄的固定效果和控制。该图比较了三个不同的MAF的分析结果超过1000模拟每次复制。对于每个SNP,图表描绘了检测该SNP以显着性水平的功率\(\alpha = 5 \乘以10^{-8}\)。对于每个SNP,效应量在0到0.05之间变化,增量为0.001。在x轴上,我们将效应大小取指数来换算成比值比。有关模型的详细描述,请参阅文本

图3
图3.

案例研究2:单变量和双变量方差分量模型的权力。此示例显示了使用单变量和双变量方差分量模拟模型和方差分量分析的OpenMendel模块来检测单个因果SNP的电源[8]。对于每一个分析,图中的每一条线都描述了检测SNP的能力\(\文本{MAF} = 0.23 \)在显著性水平上使用1000个模拟\(\alpha = 5 \乘以10^{-8}\)。SNP效应大小在0到0.065之间变化,中心范围(0.016-0.032)的增量为0.002,两端范围的增量为0.005。在x轴上,我们将SNP MAF和效应大小转换为SNP所解释的变异比例。有关模型的详细描述,请参阅文本

统计能力

对于一个特征Y使用预测矩阵\(\ mathbf {x})和基因型向量\ ({\ mathbf {G}} _ {\ mathbf{年代}}\),我们现在说明如何估计以效果大小检测相关SNP的电源\γ(\ \)在预先规定的意义水平\α(\ \)。具体来说,我们\(\alpha = 5 \乘以10^{-8}\)并测试假设

$$\begin{aligned} \mathbf{H} _0: \gamma = 0 \quad \text {versus}\quad \mathbf{H} _A: \gamma \ne 0 \end{aligned}$$

在我们接下来的两个案例研究中。用户还需要指定模拟复制的数量。在本文提供的示例中,我们首先模拟1000个an的重复n向量的表型Y使用指定的SNP效应大小\γ(\ \)。对于每个模拟特征向量,我们对上述假设检验执行似然比测试,并在p值下降下方时拒绝空\α(\ \)。估计模型的电源是拒绝零的1000个测试的比例。

案例研究1:一种顺序疾病的权力分析

当模拟复杂疾病时,其中疾病状态的二元表型是次优,有序的多项式模型是一种强大的替代方案。我们的团体最近展示了一个序数多项式模型,以评估与英国Biobank数据中的糖尿病和高血压联合的标志物[13.]。采用线性回归、logistic回归和有序多项回归三种分析模型对有序表型进行拟合,以评估模型误规格的影响,并表明在有序多项模型下,模型误规格的影响更大。对于当前的案例研究,我们确定了检测SNP的能力,该SNP影响英国生物库数据中代表疾病进展阶段的有序分类表型n数据清理后= 185,565名受试者。具体来说,考虑一种特质y取顺序离散值J= 4级别:

$$\begin{align} (1) \text {undiagnosed}< (2) \text {mild}< (3) \text {moderate}< (4) \text {severe}。\{对齐}$ $

在GLM框架下,累积概率\(\ alpha _ {ij} \)=\(\ pr(y_i \ le j)\)是否通过logit链接链接到线性预测器(\ \ (gα_ {ij}) = \η= \ log \离开(\压裂{\α_ {ij}}{α1 - \ _ {ij}} \) \)。链接本身由公式决定

$ $ \{对齐}开始g(\α_ {ij}) = \θ_j - ({\ mathbf {X}} _i ^ T \ varvec{\β}+ \γ{\ mathbf {g}} _), \四j = 1, \ ldots j - 1, \{对齐}$ $

其中截距参数为\(\theta _1 \le \cdots \le \theta _{J-1}\)在类别之间执行订单\ (\ varvec{β\}\)反映了比例风险模型下线性预测器的效果。效应量可以解释为预测因子每增加一个单位,响应变量在有序对数概率尺度上的预期变化。数字2显示了三个SNPs随MAF变化的功率曲线。

案例研究2:多元连续性状的功率分析

在这个案例研究中,我们对模拟数据进行了遗传力估计,有两个方差成分,一个是加性遗传方差,一个是环境方差。TraitSimulation允许用户通过更改一些相关命令来模拟多个特征和两个以上的方差组件。对于多变量性状,必须用两个理论协方差矩阵来代替遗传和环境的加性方差。在这里我们演示了如何计算混合模型的一个子集的规模n= 2万人来自案例研究1中使用的英国生物样本库数据。单变量模型(\(d = 1 \))及多元(\ (d > 1 \))混合效果模型(如表中列为模型类型(4)1),我们调用SnParrays估计亲属矩阵\(\ widehat {{\ varvec {\ phi}}} _ {grm} \)通过标准GRM公式

$$ \ begined {senugent} \ widehat {{\ varvec {\ phi}}} _ {grmij} = \ frac {1} {2s} \ sum _ {k = 1} ^ s \ frac {(g_ {ik}-2p_k)(g_ {jk} -2p_k)} {2p_k(1-p_k)}。\{对齐}$ $

在这里j是两个普通人,年代为数据中类型snp的数量,\ (p_k \)是maf的\(k {\ text {th}} \)SNP,\(g_ {ik} \ in \ {0,1,2 \} \)次要等位基因的拷贝数是多少\(k {\ text {th}} \)个人的SNP。缺少的基因型在速度上被简单地施加,因为最可能的基因型给出了SNP的MAF。最后,我们使两个亲属之间的残余协方差通过血缘关系系数的两倍良好地近似的常见假设。后者被视为GRM矩阵的相应条目。

我们在方差成分模型(VCM)框架下的单变量和双变量功率计算结果如图所示。3.。(我们用的是Julia情节软件包获得我们所有的图表。)在单变量模型中,β\ (\ \)\γ(\ \)分别表示非遗传回归系数和遗传回归系数。我们为效应量分配了20个不同的值\γ(\ \)表型模拟中相关的SNP或SNP。在每一个\γ(\ \)值,对于1000个复制中的每一个,我们使用具有重要性水平的似然比测试(LRT)来测试关联\(\alpha = 5 \乘以10^{-8}\)。符号上,单变量和双变量模型是

$$ \ begined {alligated} {\ mathbf {y}} _ {n \ times 1}&= {\ mathbf {x}} \ mathbf {\ beta} + {\ mathbf {g}} _ s \ gamma +{\ mathbf {g}} + \ mathbf {\ epsilon};\ qquad \ qquad \ begin {array} {ll} {\ mathbf {g}} \ sim n({\ mathbf {0}},\ sigma _a \ times {\ varvec {\ phi}})\\ \ mathbf {\ epsilon} \ sim n({\ mathbf {0}},\ sigma _e \ times {\ mathbf {i}})\ {\ mathbf {n}})\ neg {array} \\ vec({\ mathbf {y}} _ {n \ times d})&= {} vec({\ mathbf {b}} + {\ mathbf {g}} _ s {\ varvec {\ gamma}})+ {\ mathbf {g}} + \ mathbf {\ epsilon};\ quad \ begin {array} {ll} {\ mathbf {g}} \ sim n({\ mathbf {0}},\ sigma _a \ otimes {\ varvec {\ phi}})\\ \ mathbf {\ epsilon} \ sim n({\ mathbf {0}},\ sigma _e \ otimes {\ mathbf {i}} _ n)\ n)\ nod {array} \ neg {aligned} $$

在这里\ \(σ_A \)\(\ sigma _a \)是添加剂遗传方差和基质,\(\ sigma _e \)\(\ sigma _e \)是环境方差和矩阵,\({\ varvec {\ phi}} \)是亲缘矩阵,还有\ ({\ mathbf{我}}_ {\ mathbf {n}} \)是个\ (n \ n \)单位矩阵。利用多元正态密度,提出多元特质模型的矢量化形式,其中\ ({\ mathbf {B}} \)\({\ varvec {\ gamma}} \)分别为非遗传因子和遗传因子的回归系数矩阵。克罗内克产品\ \ otimes \ ()须按[15.]。

表3对于有序的多项式模型,电源计算运行时间在几秒钟内
表4单变量和双变量方差分量模型,功率计算运行时间以秒为单位

基准

3.4在几秒钟内记录所有1000个复制的中位数总运行时间k为样本大小指定SNP预测因子n据朱莉娅报道,人们分别为案例研究1和2基准博恩斯包中。所有的计算机运行在标准的3.5 GHz Intel i9 12核CPU上;它们在Linux下运行,但我们发现操作系统对运行时没有明显的影响。如上所述,这些功率计算运行时主要由后仿真分析所主导。因此,对于方差成分分析,运行时的规模是线性的k,但不在n,通常对于差异组件统计分析通常。当然,整体运行时间是选择以执行的复制数量的线性。然而,由于每个复制是一个独立的过程,并且我们的程序可以轻松地分布在多台机器上,例如,使用甚至非常大量的复制,例如,对于精确类型1误差估计,在计算集群或云中肯定是可行的。

结论

遗传流行病学和计算统计是不可原谅的。遗传数据驱动算法设计的越来越大和复杂性,统计进展推动新的遗传分析。继续这一进步,我们介绍了TraitSimulation是一种使用Julia语言的软件包,以实现令人印象深刻的计算效率,并且可以轻松编码广泛的特征模拟模型,包括其他模拟包中的许多不可用。

仿真是估计提出的研究的力量来映射遗传影响的重要步骤。为了获得最佳功率估计,必须利用所有可用的学习科目(无关,Sibships,父母后代成对和扩展的章程),赋予现实基因型(基于种族矫正MAF,连接不平衡(LD)和可能重组事件),加入相关的非遗传预测因子,并批判性地模拟现实的特质价值。

例如,如果一个人正在计划一个以家庭为基础的研究,并且想在收集任何数据之前做一个权力分析,那么他就可以从一个谱系结构的集合开始,包括可能的单系结构,以他所知的最好的方式模仿潜在的样本收集。每个家系的建立者都希望根据目标人群的混合,使用种族特异性等位基因频率来模拟遗传数据。正确的LD结构也应该在这些创始人基因组中保持。实现这一点的一个方法是找到一个真正的基因分型或测序研究,例如,国际基因组样本资源(IGSR) [16.],包括指定种族中的主题,并使用无关个人的真实基因组作为派对的创始人的数据。然后使用Gene-Dropping软件,例如,从OpenMendel套件,并且真实的人类重组图以通过群体从父母传递给孩子的基因组将发生的模拟重组事件。结果将被模拟,而是为所有章程中的所有个人进行模拟,而是现实的遗传数据,因为数据反映了适当的等位基因频率,LD图案,重组图和关系结构。我们的TraitSimulation然后,Package可以使用此数据和任何您希望研究的特征模型来重复生成特征值。最后,对每一组模拟数据进行统计分析,从而构成功率分析。

该模型通用性强,使用方便,速度快TraitSimulation实际上,OpenMendel作为一个整体,促进了现代流行病学的议程。TraitSimulation广泛的生成模型改善了模型现实主义,从而提高了功率估算。这种一般性允许统计分析通过允许案例/控制和序数疾病模型,更深刻的GLM或GLMM结构来逃避高斯假设的痉挛。我们选择的Julia计算机语言直接到代码软件,并为用户提供适应其建模需求的现有代码。朱莉娅增强了速度,灵活性,整体易用性TraitSimulation。Julia的速度源于它的即时编译器,充分使用并行化,以及它对位线性代数运算的推广。

TraitSimulation是OpenMendel家族的Julia包的一部分[8]。OpenMendel提供依赖于所提供的标准数据结构的遗传分析工具综合套件SnParraysTraitSimulation可以访问其他下游分析包,估计参数和新统计测试的功率。然而,这种管道策略引入了额外的复杂层,并最终妨碍了分析再现性。所有OpenMendel的软件包都是快速,内存高效和用户和开发人员友好的。OpenMendel的开源性质鼓励其他统计学家扩展其代码库。加入TraitSimulation对于OpenMendel家族,我们在集成的鲁棒分析管道中实现了特征模拟。在我们看来,OpenMendel代表了统计遗传学的独特和统一的最先进的环境。我们需要您的反馈和整个遗传学社区的帮助来完善OpenMendel。当我们面对越来越庞大和复杂的现代数据集时,它或类似的东西将是必要的。

可用性和要求

项目名TraitSimulation

项目主页欧宝直播官网apphttps://github.com/openmendel/traitsimulation.jl.

操作系统Linux、MacOS窗口

编程语言茱莉亚1.0或更高

其他需求没有一个

执照麻省理工学院

对非学者使用的任何限制没有一个

可用性数据和材料

本手稿中分析示例中使用的数据来自英国生物样本库数据库,经审查委员会批准后,可从[2]。我们检索了项目id 48152和15678下的数据。获取我们分析中使用的数据的指引,以及概括分析的分步命令,可在[14.]。

缩写

中央处理器:

中央处理单元

全球语言监测机构:

广义线性模型

GLMM:

广义线性混合模型

GPU:

图形处理单元

GRM:

亲缘关系矩阵

GWAS:

基因组协会研究

高性能计算:

高性能计算

IGSR:

国际基因组样本资源

LD:

连锁不平衡

LMM:

线性混合模型

LMM:

线性混合模型

轻轨交通:

似然比检验

加:

轻微的等位基因频率

个人电脑:

主成分

内存:

随机存取存储器

SNP:

单核苷酸多态性

英国:

联合王国

VCM:

方差分量模型

参考

  1. 1。

    毕罗Sudlow C, Gallacher J,艾伦·N V,伯顿P, Danesh J,唐尼P,艾略特P,绿色J, Landray M,刘B,马修斯P, Ong G,佩尔J, Silman,年轻的一个,Sprosen T, Peakman T,柯林斯r .英国生物库:一个开放存取资源识别广泛的原因复杂的中、老年疾病。《公共科学图书馆·医学。2015;12:1001779。https://doi.org/10.1371/journal.pmed.1001779.

    谷歌学术搜索

  2. 2.

    英国Biobank:英国BioBank数据存储库。https://www.ukbiobank.ac.uk.

  3. 3.

    张Z,李X,丁X,李继,张Q.GPOPSIM:全基因组遗传数据的仿真工具。BMC Genet。2015; 16:10。https://doi.org/10.1186/s12863-015-0173-4

    谷歌学术搜索

  4. 4.

    O'Reilly PF,Hoggart CJ,Pomyen Y,Calboli FCF,Elliott P,Jarvelin M-R,Coin LJM。多鹰:多种表型的联合模型可以增加GWAS的发现。Plos一个。2012; 7:34861。https://doi.org/10.1371/journal.pone.0034861

    谷歌学术搜索

  5. 5.

    表现型模拟器:模拟多性状、多位点基因型到表现型关系的综合框架。生物信息学。2018;34:2951-6。https://doi.org/10.1093/bioinformatics/bte197

    谷歌学术搜索

  6. 6.

    Bezanson J,Edelman A,Karpinski S,Shah VB。朱莉娅:一种新的数值计算方法。暹罗2017年; 59:65-98。https://doi.org/10.1137/141000671

    谷歌学术搜索

  7. 7.

    周浩,周健,袁建华。2020年代计算环境下的高性能统计计算(预印)。2020.ARXIV:2001.01916

  8. 8.

    周H,Sinsheimer J,Bates D,Chu B,德国C,JI S,key K,Kim J,Ko S,Mosher G,PAPP J,Sobel E,Zhai J,周J,Lange K. Openmendel:一个合作编程统计遗传学项目。嗡嗡作物。2020; 139:61-71。https://doi.org/10.1007/s00439-019-02001-z

    谷歌学术搜索

  9. 9.

    JuliaComputing:并行计算。https://juliacomputing.com/industries/parallel-computing.html

  10. 10。

    JuliaComputing:多线程。https://docs.julialang.org/en/v1/base/multi-threading.

  11. 11.

    JuliaComputing:分布式计算。https://docs.julialang.org/en/v1/stdlib/distreibuted.

  12. 12.

    周H. Snparrays.jl。https://openmendel.github.io/snparrays.jl/stable/

  13. 13.

    德国CA, Sinsheimer JS, Klimentidis YC,周浩,周俊杰。在Biobank的规模上,用有序多项式回归分析有序表型的遗传关联。麝猫论文。2020;44:248-60。https://doi.org/10.1002/gepi.22276

    谷歌学术搜索

  14. 14.

    SarahJi: TraiSimulation.jl。https://openmendel.github.io/TraitSimulation.jl/stable/

  15. 15.

    遗传分析的数理统计方法。纽约:施普林格;2002.

    谷歌学术搜索

  16. 16.

    国际基因组样本资源。https://www.internationalgenome.org

下载参考

确认

感谢2020年2月22日在加州大学洛杉矶分校(UCLA)举行的2020年兰格研讨会的讲者。我们也感谢Benjamin B. Chu、Seyoon Ko和Alfonso Landeros对Julia的许多特性提出的建议,特别是那些与并行化和GPU计算有关的特性。

资金

由美国国立卫生研究院R01 GM053275 (KL,JSS,EMS,HZ), R01 HG006139 (KL,JSS,EMS,JZ,HZ), K01 DK106116 (JZ), R01 HG009120 (JSS) & T32 HG002536 (SSJ)和NSF DMS 1264153 (JSS)资助。资助机构在研究的选择和设计,在软件的计划和编码,在数据的选择和分析,也没有在手稿的准备和提交中发挥作用。

作者信息

从属关系

作者

贡献

KL构思了这项研究。CAG准备数据。压了TraitSimulation,分析数据,并解释结果。手稿由SSJ, JSS, EMS撰写。KL、JSS、EMS、JZ和HZ提供了工具和材料。所有作者对最终手稿都有贡献。所有作者阅读并批准最终稿件。

相应的作者

对应于Eric M. Sobel.

道德声明

伦理批准并同意参与

由于本研究中使用的所有数据都是模拟或匿名的,因此不适用。

同意出版

由于本研究中使用的所有数据都是模拟或匿名的,因此不适用。

相互竞争的利益

作者们宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

吉,德国,C.A.,Lange,K。等等。遗传分析的现代模拟公用事业。欧宝娱乐合法吗22,228(2021)。https://doi.org/10.1186/s12859-021-04086-8

下载引用

关键词

  • 特性仿真
  • 现实的遗传模型
  • 权力
  • 统计遗传学
\