跳过主要内容

多基因相互作用信息理论测量的优化排列测试

摘要

背景

置换测试通常被认为是“黄金标准”,多测试显着性分析,因为它是被计算的精确测试需要大约分布几个假设。但是,它可以计算非常昂贵的,特别是在它的天真形式,其中全面分析管道重新运行置换表型标签后。这可以在多基因座全基因组关联研究(GWAS),其中将待测试潜在的相互作用的数量是组合地大变得棘手。

结果

在这篇论文中,我们开发了一种多位点GWAS置换测试的方法,特别关注snp - snp -表型相互作用,使用可以从频率计数表计算的多变量测量,如那些基于信息论。我们发现在这个过程中的计算瓶颈是计数表本身的构造,而这一步可以通过直接转换计数表在排列检验的每次迭代中消除。这导致了超过10倍的加速3.与天真的方法相比,对于典型的排列测试。另外,这种方法对制品的数量不敏感,使其适用于具有大量样品的数据集。

结论

具有数十万个人的基因型数据的大规模数据集的增殖,使检测多位点基因型-表型相互作用的新的和更强大的方法成为可能。我们的方法显著提高了这些研究中排列检验的计算可操作性。此外,我们的方法对这些现代数据集中的大量样本不敏感。对于在本文中执行这些计算和复制附图中的代码是免费提供的,在https://github.com/kunert/permute-counts

背景

全基因组关联分析(GWAS)对复杂性状和疾病的遗传学揭示,但单基因分析无法检测上位基因 - 基因的相互作用,这在复杂性状的遗传学[起着至关重要的作用123.].这导致检测基因基因相互作用的方法的增殖[4.例如:回归方法,包括正则化回归技术,如套索[5.6.];随机森林等集合方法[7.8.9.];及多因素维数缩减[10.11.].

我们在这里专注于基于信息理论的技术阶层,其制定了对多基因背景相互作用敏感的基于熵的测量。这些方法是强大的,因为对非线性关系本质无模型且特别敏感[3.].这导致了基于熵的上位相互作用度量的扩散,包括:条件互信息[12.,获取信息[13.14.15.16.17.18.]相对信息增益[16.19.20.21,全面相关[222324252627],协同作用[2829],以及信息三角洲[30.31].

尽管这些不同的公式各不相同,但它们具有许多基于信息理论的方法所固有的相同优点,但也有许多相同的缺点,这里特别要注意的是,为检测到的交互作用的重要性构造统计检验时经常遇到的困难。对于这些估计量的零分布通常没有简单的解析公式,因此显著性检验需要一些近似或更可靠的排列检验。排列检验常被认为是多检验显著性分析的“金标准”[3233],也是上述大多数研究所采用的方法[20.21222324252627293435].

即使在单基因座GWAS中,排列测试在计算上也是昂贵的[33].SNP数组可能包含数十万个单独的SNP,因此有数十万个成对的SNP-表型关系需要测试。高阶关系很快会导致计算上难以解决的问题:同样数量的snp会导致数十亿种可能的snp - snp -表型三方相互作用,以及数万亿种snp - snp - snp -表型四方相互作用。在统计和计算层面上,检测和测试这些交互变得非常困难。

在其最简单的形式中,排列测试由随机排列表型标签的迭代和重新运行分析管道组成。然而,这种方法可以进行相当大的优化,特别是在多次执行时:例如,标准包,如PLINK [5.默认情况下,使用一种自适应的方法,迭代地检查已经执行的排列是否足以将任何观察到的snp -表型关联排除为统计上不显著的,并从后续计算中删除不显著的snp。即使这种方法的成本可以进一步降低一个数量级,并且存在多种方法来优化这些单位点分析,包括PRESTO [36], 滑行 [37],和PERMORY [38].

在本文中,我们发展了一种方法,以减少数量级的计算成本的排列测试的所有信息理论的措施。我们认为计数表的构造是最大的计算瓶颈,并设计了一种方法,可以直接转换这些计数表以复制排列测试,而无需重建它们。我们发现,这将每个排列的计算时间减少了三个数量级以上。因此,这种方法允许在多snp关联研究中进行统计显著性的原则性评估,并允许考虑和比较多变量依赖的多个候选指标。

结果

核对表的施工

基因型和表型数据可以用来表示\ (n \乘以m \)基因型阵列G和长度 -N表现型向量P.,在那里mSNPs被测量N个人。三通SNP-SNP与表型交互的数量通常是相当大的,因为这秤作为\ (m ^ 2 \).在这种情况下是大的Nm,我们发现大部分计算包括仅为每个可能的元组计算计数表。

计算给定元组中变量之间的联合熵首先需要计算计数表。考虑一个由两个SNPs和一个表型组成的元组。每个SNP值为0,1,2(分别为纯合子主、杂合子和纯合子小等位基因),表型是二元的,可能的值为0和1。计算表C那么一个(3 \ times 3 \ times 2 \)大批:

$ $ \{对齐}开始左C = \[开始\ {bmatrix} c_{000}和{}c_{010}和{}c_ {020} \ \ c_{100}和{}c_{110}和{}c_ {120} \ \ c_{200}和{}c_{210}和{}c_ {220} \ \ \ {bmatrix}, {bmatrix} \开始c_{001}和{}c_{011}和{}c_ {021} \ \ c_{101}和{}c_{111}和{}c_ {121} \ \ c_{201}和{}c_{211}和{}c_ {221} {bmatrix} \ \ \ \端),\{对齐}$ $
(1)

在哪里\ (c_ {ijk} \)是第一个SNP具有价值的个人数量一世苏格兰民族党是第二个有价值的政党j,并且表型具有值K..显然,要素总和到个人的总数N;除以这个数组N给出了联合概率估计,从中可以计算各种联合熵,然后可以用来计算相应元组的信息理论测度。

符号和推理

计算表C必须为数十亿元组中的每个元组构造。一种简单的排列测试方法就是随机打乱表现型载体P.并重复整个分析,包括从数据重建计数表。我们试图寻求从计数表开始的转变C,将生成一个随机计数表\(C ^ * \)从相同的随机计数表分布的朴素排列。第一个关键的观察是第三个轴的和C将保持在置换试验恒量:

$ $ \{对齐}开始c_ {ij0} + c_ {ij1} = c ^ * _ {ij0} + c ^ * _ {ij1} \枚n_ {ij} \{对齐}$ $
(2)

在哪里\ (n_ {ij} \)是第一个SNP是谁的个人数量一世第二个SNP是j.有了这个符号,我们可以这样写:

$ $ \{对齐}开始左C ^ * = \[开始\ {bmatrix} C ^ * C ^ * _{000}和{}_ {010}& C ^ * _ {020} {} \ \ C ^ * C ^ * _{100}和{}_{110}和{}C ^ * _ {120} \ \ C ^ * C ^ * _{200}和{}_{210}和{}C ^ * _ {220} \ \ \ {bmatrix},\ {bmatrix}开始n_ {00} - c ^ * _{000}和{}n_ {01} - c ^ * _{010}和{}n_ {02} - c ^ * _ {020} \ \ n_ {10} - c ^ * _{100}和{}n_ {11} - c ^ * _{110}和{}n_ {12} - c ^ * _ {120} \ \ n_ {20} - c ^ * _{200}和{}n_ {21} - c ^ * _{210}和{}n_ {22} - c ^ * _ {220} \ \ \ {bmatrix}结束\],\{对齐}$ $
(3)

我们只需要计算\(k = 0 \)此数组的层,从中\(k = 1 \)层立即。我们也有这样的约束:

$$ \ begined {对齐} \ sum _ {i,j} c_ {ij0} = \ sum _ {i,j} c ^ * _ {i,j} c ^ * _ {ij0} \ equiv n_0 \ neg {aligined} $$
(4)

\ (n_0 \)为表型标签为0的个体总数,当标签被打乱时,此值也保持不变。

我们的符号和eqs的约束。24.,我们可以开始考虑排列检验对计数表的影响。首先,是如何\ \ (c_ {000} ^ *)分配?考虑到\ (n_ {00} \)个人与此基因型。如果我们随机洗牌的表型的标签,我们在效果,随机绘图无需更换\ (n_ {00} \)从人口的标签N标签,\ (n_0 \)其中的值为0。用超几何分布来描述从有限的标号集合中提取不替换标号的过程,可以写成:

$ $ \{对齐}开始c ^ * _ {000} \ sim \文本{超几何}(n n_0 n_{00}) \{对齐}$ $
(5)

从哪个\(C ^ * _ {001} = {N_ 00} -c ^ * _ {000} \)立即。

当计算下一个元素时,我们必须考虑上一步已经赋值\ (n_ {00} \)标签,\ \ (c_ {000} ^ *)其中的值为0。我们再次提货不换\ (n_ {10} \)标签,现在从总人口\ (n-n_ {00} \)表型标签,其中\ \ (n_0-c_ {000} ^ *)有值0:

$$ \ begined {对齐} c ^ * _ {100} \ sim \ text {hypergeometric}(n-n_ {00},n_0-c ^ * _ 000},n_ {10})\ neg {对齐} $$
(6)

下一个元素以同样的方式迭代绘制:

$ $ \{对齐}开始c ^ * _ {200} \ sim \文本{超几何}(n - (n_ {00} + n_ {10}), n_0——(c ^ * _ {000} + c ^ * _ {100}), n_{20}) \{对齐}$ $
(7)

这个过程重复进行,直到分配了所有的元素。

算法转化计数表

更正式地说,这个计数转换过程可以写成如下:

  1. 1。

    从原始计数表\ (c_ {ijk} \),计算基因型计数\ (n_ {ij} \),值-0表型计数\ (n_0 \),总表型计数N

  2. 2.

    指定索引的(任意)顺序(一世j).这将是元素分配的顺序。例如,我们:

    $ $ \开始{对齐}\ {(i, j) \} = \ {(0,0) < (1,0) < (2,0) < (0,1) < \ cdots <(2, 2) \} \{对齐}$ $
  3. 3.

    对于每一个(一世j)中,超几何分布的样本:

    $ $ \开始c ^ *{对齐}_ {ij0}{超几何}\ \ sim \文本左(n - \ \长成具和_ {(i, j) < (i, j)} n_{我'j} \四n_0——\ \长成具和_ {(i, j) < c ^ * (i, j)} _{我'j 0} \四n_ {ij} \) \{对齐}$ $
  4. 4.

    计算相应数量的表型值1:

    $ $ \{对齐}开始c ^ * _ {ij1} = n_ {ij} - c ^ * _ {ij0} \{对齐}$ $

讨论

比较生成的分布

为了检查这种方法是否能正常工作,我们验证了通过我们的方法生成的计数表的分布与通过表型标签的直接排列生成的计数表是不可区分的。具体来说,我们随机生成了\(n_p = 1 {,} 000 {,} 000 \)使用每种方法排列计数表,并找到排列元素的分布_ {ij0} \ \ (c ^ *)在视觉上和统计上难以区分(通过两个分布之间的EPPS-Singletons测试的集合[39])。关于这些计数表是如何生成的以及分析是如何进行的,在方法中给出了进一步的细节。

计算复杂度比较

图1
图1

一种计算时间作为排列数目的函数\ (N_p \),用于具有固定数量个体的合成数据集\(N = 10 {,} 000 \)100k snp。两者都是直接排列(蓝色)和我们的方法(橙色)是\ (\ mathcal {O} (N_p) \)(注意横轴是对数的,这里绘制的最佳拟合线确实是线性的)。我们的方法快了一倍以上\(10 ^ 3 \)每个排列。B.计算时间作为个体数量的函数N,对于具有固定数量的排列数的合成数据集\(n_p = 20 \)100k snp。直接的排列是\(\ mathcal {Ó}(N)\)但我们的方法是\ (\ mathcal {O} (1) \)(即计算时间并不依赖于该方法的样本数量)

我们还可以生成合成数据(如Methods中所述)来比较每种方法的计算成本。数字1相比,我们的方法天真的直接置换方法的计算复杂度进行比较,作为个人的两个数的函数N和排列的数目\ (N_p \).在无花果。1A,我们计算计算时间作为函数\ (N_p \),固定\(N = 10 {,} 000 \)样本和10万个snp。这两种方法的计算时间都随排列的数量线性增加(即两者都是)\ (\ mathcal {O} (N_p) \)).然而,线性适合每个方法意味着每个排列为586.6的时间S.对于直接置换方法和0.52S.我们的方法。因此,我们的方法结束了\(10 ^ 3 \)乘以每个排列的速度,对于样本的数量。

数字1b,计算计算时间作为样本数量的函数N与一个固定的\(n_p = 20 \),显示出我们的方法在计算上的优势。直接排列方法与样本的数量成线性比例(即它按\(\ mathcal {Ó}(N)\)),而我们方法的计算时间不依赖于样本的数量(即它按\ (\ mathcal {O} (1) \)).这不是出乎意料的,因为我们的方法绕过了对原始操作执行任何操作\ (n \乘以m \)数组中。对于具有大量样本的数据集,这代表了相当大的计算节省。

结论

摘要概述了计数表直接变换的算法,结果与直接排列表型标记的朴素方法相同,并表明该方法大大减少了计算费用。具体地说,我们演示了将每个排列的计算时间减少一倍以上\(10 ^ 3 \),并证明我们的方法对样本总数不敏感,而朴素方法是线性的。我们的方法绕过了排列检验的朴素方法中最昂贵的计算步骤,因此大大降低了信息理论测量的排列检验的成本。

该方法的未来发展应采用额外的方法来降低置换置换分析的计算成本。例如,如果成对GWA分析是使用自适应方案,如果它们显然没有统计学意义(例如,通过默认在PLINK中完成,则迭代地降低交互的自适应方案5.])。一个类似的自适应方案可以在我们的方法之上实现。

鉴于最近的大型数据集用于其多位分析可以产生新的生物学见解的增殖,并给出了不干净的分析称为空分布的信息理论措施排列测试的重要性,我们相信,我们的做法是朝着使这些大型的宝贵贡献,重要的分析更易于计算。对于在本文中执行这些计算和复制附图中的代码是免费提供的,在https://github.com/kunert/permute-counts

方法

合成数据集及其计数分布

如本节中所述,生成了我们的合成数据集中的每个SNP-SNP-表型元组。通过假设具有次要等位基因频率的完美HATY-WEINBERG均衡,独立为SNP而独立生成SNP数据\(p = 0.45 \)(即我们生成一个\(n \ times 2 \)基因型数组,其中每个元素都有一个概率\ (p ^ 2 \)等于0的概率\(2p(1 - p)\)为1,概率\ ((1 - p) ^ 2 \)我们同样产生一个二元表现型向量,它有一个概率\ (q = 0.66 \)等于零。正如我们稍后建立的那样,P.问:不影响我们的结果。

上述参数导致一个随机数表,如一个的下方,用于产生\(N = 10 {,} 000 \)个人:

$$ \开始{对齐} C = \左[\开始{bmatrix} 619和{} 992和{} 439 \\ 964&{} 1576&{} 614 \\ 409&{} 674和{} 264 \\?\端{bmatrix}\开始{bmatrix} 347和{} 527和{} 200 \\ 496&{} 862和{} 332 \\ 220 {} 328 {} 137 \\?\端{bmatrix} \右],\端{对齐} $$
(8)

我们通过排列上面的count表来验证我们的方法是否按预期工作\(n_p = 1 {,} 000 {,} 000 \)使用两种不同方法的时间:(1)天真排列测试方法,我们随机地洗掉表型矢量并重新计算计数表;(2)我们在教派中概述的方法。主要文本。元素的分布\ \ (c_ {ij0} ^ *)如图所示。2.如图所示,得到的分布几乎完全相同,两种方法生成的分布几乎完全重叠。这种方法节省的计算成本是相当可观的。在我们的机器上,生成\(n_p = 1 {,} 000 {,} 000 \)允许的计数表共361.8秒使用Naive方法,只使用我们的方法仅5.7秒。

它从图中显而易见。2分布非常接近正态分布,这并不奇怪,因为我们有很多选择\ (N_P \).有人可能会受到诱惑,利用这一点来制定一个简单的方法来生成随机数表:可能我们只是估计每个正态分布\ \ (c_ {ij0} ^ *)并直接品尝那些?这种方法是行不通的,因为元素不是相互独立的,也就是说,如需要我们这样的迭代过程。

图2
图2.

使用中教所描述的模拟数据。我们使用的直接置换的表型,标签和使用我们的方法既天真的方法产生百万计置换表。计数表元素的分布\ \ (c_ {ij0} ^ *)用蓝色表示直接排列结果用红色表示我们的方法。这张图几乎完全由紫色重叠区域组成,因为在分布之间几乎没有可见的差异

信息测量的分布

使用每种方法生成了1,000,000计数表的集合,我们可以计算我们的变量的联合熵以及任何信息理论度量,这是熵的函数。例如,我们可以计算多重信息:

$ ${对齐}\ \开始ω= -H_{123} + \总和_i H_i \{对齐}$ $
(9)

在哪里\(你好\)是每个变量的熵,和\({H_ 123} \)是三个变量(即我们的两个SNP与表型)的联合熵。

随后的信息测量计算比计数表的构建昂贵得多。例如,计算分布ω\ (\ \)使用前一节中生成的1,000,000个计数表的任何一组的值都花了1.6秒。数字3.显示了ω\ (\ \)值基于上一节中由两种不同的排列方法生成的计数表。我们再一次看到,我们的方法得到的分布与直接排列的朴素方法几乎相同。在实际数据分析的情况下,这些排列的分布将在我们的显著性分析中作为零分布。这一结果验证了我们的方法产生的零分布对显著性分析同样充分,如朴素排列方法,但在相当少的计算费用。

图3
图3.

来自SECT的置换计数表。可用于计算联合熵,我们可以计算任何信息理论测量,这是熵的函数。在这里,我们计算多信息ω\ (\ \)使用由直接排列和我们的方法生成的计数表,得到的分布几乎是相同的

分布等价性的统计检验

图1和图2中的分布。23.似乎是几乎相同的,但我们希望检验(1)是否可以通过统计检验来区分它们,(2)这个结果是否对参数的选择敏感P.问:.因此,我们进行了1000次以下试验:

  1. 1。

    自主选择的参数值P.问:从(0.01,0.99)上的均匀随机分布,并使用它生成计数表\(N = 10 {,} 000 \)样品。

  2. 2.

    生成\ \ (N_P = 1000)使用表型标签和我们的方法的直接排列允许的计数表。

  3. 3.

    对于每一个人\ \ (c_ {ij0} ^ *),对两种方法进行双样本Epps-Singleton检验。

结果是9000P.在广泛的不同参数值下产生的值。EPPS-Singleton测试[39]是否具有从相同的分布中抽出的空白假设(此处使用,因为它允许离散分布)。根据定义,P.在零假设下,值应该均匀分布。在无花果。4.,我们表明,我们的P.值是具有均匀分布的完全兼容,使得由幼稚置换和由我们的方法所产生的那些生成的计数表不是统计学上可区分的。

图4
装具

的位数,位数图P.从艾普-的Singleton值测试,比较两个分布。零假设是两个分布是相同的。在零假设,P.值是均匀分布的,我们希望Q-Q曲线沿着对角线线性,这是我们观察到的。通过该测试无法区分从每个方法生成的计数表分布

可用性数据和材料

在当前的研究中生成和/或分析的数据集可在Zenodo存储库中获得,http://doi.org/10.5281/zenodo.4068765

缩写

GWAS:

基因组协会研究

SNP:

单核苷酸多态性

参考文献

  1. 1。

    Cantor RM, Lange K, Sinsheimer JS。GWAS结果的优先次序:统计方法的综述及其应用建议。美国之音,2010;86:6-22。https://doi.org/10.1016/j.ajhg.2009.11.017

    中科院文章PubMed公共医学中心谷歌学者

  2. 2.

    Zuk O, Hechter E, Sunyaev SR, Lander ES。遗传性缺失之谜:基因相互作用创造了幻影遗传性。中国科学院院刊。2012;109(4):1193-8。

    中科院文章谷歌学者

  3. 3.

    法拉西奥PG,KönigIR。将熵传递给GXG交互的领域。简报Bioinf。2016; 19(1):136-47。https://doi.org/10.1093/bib/bbw086

    文章谷歌学者

  4. 4.

    柯HJ。检测导致人类疾病的基因-基因相互作用。中国科学(d辑:地球科学)2009;10(6):392-404。

    中科院文章谷歌学者

  5. 5.

    Purcell S, Neale B, Brown T-K, Thomas L, Ferreira M, Bender D, Maller J, Sklar P, de Bakker PIW, Daly MJ, Sham PC。Plink:全基因组关联和基于群体连锁分析的工具集。Am J Hum Genet. 2007; 81:559-75。

    中科院文章谷歌学者

  6. 6.

    吴婷婷,陈玉芳,陈玉芳,吴婷婷。基于lasso惩罚logistic回归的全基因组关联分析。生物信息学,2009,25(6):714 - 21所示。

    中科院文章谷歌学者

  7. 7.

    Breiman L.随机森林。马赫学习。2001; 45(1):5-32。

    文章谷歌学者

  8. 8.

    Lunetta KL,海沃德LB,西格尔Ĵ,范Eerdewegh P.筛选大型关联研究数据:使用随机森林利用相互作用。BMC Genet。2004; 5(1):32。

    文章谷歌学者

  9. 9.

    Bureau A, Dupuis J, Falls K, Lunetta KL, Hayward B, Keith TP, Van Eerdewegh P.使用随机森林鉴定snp预测表型。基因流行病学杂志。2005;28(2):171-82。

    文章谷歌学者

  10. 10。

    里奇MD,哈恩LW,Roodi N,贝利LR,杜邦WD,PARL FF,摩尔JH。多因素,降维揭示了散发性乳腺癌雌激素代谢基因中高阶相互作用。我是j嗡嗡声的遗传。2001; 69(1):138-47。

    中科院文章谷歌学者

  11. 11.

    戈拉d,Mahachie约翰JM,范·斯蒂恩K,柯尼希IR。路线图,以多因子降维的方法。简报Bioinf。2016; 17(2):293-308。

    文章谷歌学者

  12. 12.

    关键词:基因-基因交互作用,条件熵,假阳性,控制PLoS ONE。2013; 8 (12): e81984。

    文章谷歌学者

  13. 13.

    Moore JH, Gilbert JC, Tsai C-T, Chiang F-T, Holden T, Barney N, White BC。一个灵活的计算框架,用于检测、描述和解释人类疾病易感性遗传研究中上位性的统计模式。中华医学杂志。2006;241(2):252-61。

    文章谷歌学者

  14. 14.

    范瑞敏,钟敏,王胜,张勇,陈华,熊敏。基于熵的信息增益方法检测和表征复杂疾病的基因-基因和基因-环境相互作用/相关性。麝猫论文。2011;35(7):706 - 21所示。

    中科院文章谷歌学者

  15. 15.

    陈磊,余光,Langefeld CD, Miller DJ, Guy RT, Raghuram J, Yuan X, Herrington DM, Wang Y.相互作用基因座检测方法的比较分析。BMC染色体组。2011;12(1):344。

    文章谷歌学者

  16. 16.

    权M-S,公园男,公园T. Igent:基于高效熵算法的全基因组基因 - 基因相互作用的分析。BMC MED GENOMICS。2014; 7(1):6。

    文章谷歌学者

  17. 17.

    苏·刘·刘王,田玉,周Z,韩升,闫兰。网络视角下单核苷酸多态性相互作用检测的研究。PLoS ONE。2015; 10(3):E0119146。

    文章谷歌学者

  18. 18.

    胡涛,陈勇,Kiralis JW, Collins RL, Wejse C, Sirugo G, Williams SM, Moore JH。在遗传关联研究中发现三方向上位性相互作用的信息获取方法。J Am Med Inform Assoc. 2013;20(4): 630-6。

    文章谷歌学者

  19. 19.

    董C,楚X,王Y,王Y,Jin L,Shi T,Huang W,Li Y.基于熵的方法探讨基因 - 基因相互作用效应。EUR J HUM Genet。2008; 16(2):229-35。

    中科院文章谷歌学者

  20. 20。

    议Ĵ,权M-S,公园T,公园M.一种改进的基于熵的方法用于鉴定在病例对照研究基因 - 基因相互作用。PLoS ONE。2013; 8(7):e69321。

    中科院文章谷歌学者

  21. 21。

    张传忠,李志强,张志强,范志强。总结结合三种非参数评分检测疾病相关的2-way SNP-SNP相互作用的技术。基因。2014;533(1):304 - 12所示。

    文章谷歌学者

  22. 22。

    Chanda P,Sucheeston L,Zhang A,Brazeau D,Freudenheim JL,Ambrosone C,Ramanathan M.环境:一种新的方法和高效算法,用于识别复杂表型的信息遗传和环境关联。遗传学。2008; 180(2):1191-210。

    文章谷歌学者

  23. 23。

    张亚平,张亚平,张亚平。遗传变异与环境因子间的相互作用指数。acta photonica sinica, 2009;17(10): 1274-86。

    文章谷歌学者

  24. 24。

    Chanda P,Sucheeston L,Liu S,张A,ramanathan M.信息理论基因 - 基因和基因 - 环境相互作用分析的定量性状。BMC基因组。2009; 10:509。https://doi.org/10.1186/1471-2164-10-509

    中科院文章谷歌学者

  25. 25.

    如此困难L,Chanda P,Zhang A,Tritchler D,Ramanathan M.信息理论对遗传异质性存在的基因 - 基因相互作用的统计方法的比较。BMC基因组。2010; 11(1):487。

    文章谷歌学者

  26. 26.

    Chanda P,Zhang A,Ramanathan M.环境和遗传相互作用与ambrosia,一种信息 - 理论模型合成方法。遗传。2011; 107(4):320-7。

    中科院文章谷歌学者

  27. 27.

    杨建军,张安华,杨建军。疾病综合征基因-基因和基因-环境相互作用的信息理论分析。遗传。2013;110(6):548 - 59。

    中科院文章谷歌学者

  28. 28.

    多相互作用基因间协同作用的计算分析。中国生物医学工程学报。2007;3(1):83。

    文章谷歌学者

  29. 29.

    SNPsyn: SNP-SNP相互作用的检测与探索。核酸学报2011;39(sup2): 444-9。

    文章谷歌学者

  30. 30.

    Sakhanenko NA, Galas DJ。作为信息论问题的生物数据分析:多变量依赖测度和阴影算法。中国生物医学工程学报。2015;22(11):1005-24。

    中科院文章谷歌学者

  31. 31.

    Sakhanenko Na,kunert-graf j,Galas DJ。离散函数的信息含量及其在遗传数据分析中的应用。j计算biol。2017; 24(12):1153-78。

    中科院文章谷歌学者

  32. 32。

    杨少华。基于重采样的多重检测:p值调整的例子和方法,第279卷。霍博肯:威利;1993.

    谷歌学者

  33. 33。

    韩波,康慧敏,艾斯金。快速、准确的多重检测校正和数百万个相关标记的功率估计。Plos Genet。2009; 5:1-13。https://doi.org/10.1371/journal.pgen.1000456

    中科院文章谷歌学者

  34. 34。

    尚j,张j,孙y,张玉。介绍:一种检测和可视化背景性的三阶段共同信息。数字信号proc。2014; 24:1-13。

    文章谷歌学者

  35. 35。

    基于信息理论的双基因相互作用研究。PLoS ONE。2014.https://doi.org/10.1371/journal.pone.0092310

    文章PubMed公共医学中心谷歌学者

  36. 36。

    布朗勃勃的bl。presto:通过赋予一个和两级遗传关联研究的排列快速计算订单统计分布和多次测试调整的p值。BMC Bioinf。2008; 9:309。https://doi.org/10.1186/1471-2105-9-309

    中科院文章谷歌学者

  37. 37.

    韩波,康慧敏,艾斯金。快速、准确的多重检测校正和数百万个相关标记的功率估计。公共科学图书馆麝猫。2009;5(4):1-13。https://doi.org/10.1371/journal.pgen.1000456

    中科院文章谷歌学者

  38. 38.

    phl R, Schäfer H. PERMORY:一个强大的全基因组关联测试的ld开发排列测试算法。生物信息学,2010,26(17):2093 - 100。https://doi.org/10.1093/bioinformatics/btq399

    中科院文章PubMed谷歌学者

  39. 39.

    EPPS T,Singleton KJ。使用经验特征函数的两个样本问题的Omnibus测试。j stat comput simul。1986; 26(3-4):177-203。

    文章谷歌学者

下载参考

确认

我们要感谢太平洋西北研究所的支持。

资金

本出版物报告的研究得到了国家心脏,肺和血液研究所的奖励号码U01HL126496。内容完全是作者的责任,不一定代表国家卫生研究院的官方意见。

作者信息

隶属关系

作者

贡献

j.k., n.s.和D.G.构思和设计了这个项目;J.K.进行了计算和形式分析;N.A.和D.G.监督了这个项目并验证了结果;J.K.罗琳将结果可视化;j.k.、N.A.和D.G.撰写并编辑了这篇论文。所有作者阅读并批准了最终的手稿。

通讯作者

对应到詹姆斯·M Kunert - 格拉夫

道德声明

伦理批准和同意参与

不适用。

同意发布

不适用。

利益争夺

两位作者宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Kunert-Graf,J.M.,Sakhanenko,N.A.&Galas,D.J.多基因相互作用信息理论测量的优化排列测试。欧宝娱乐合法吗22,180(2021)。https://doi.org/10.1186/s12859-021-04107-6

下载引用

关键词

  • 排列测试
  • 信息理论
  • 多位点GWAS
  • 多变量相互作用
\