跳到主要内容

用于线粒体DNA变异的全球多样化参考比对和面板

抽象的

背景

通过基因分型微阵列或仅对基因组高变区进行测序来鉴定线粒体DNA (mtDNA)的变异可能不足以可靠地将线粒体基因组划分为系统发育谱系或单倍群。这种分辨率的缺乏会限制现有大量mtDNA数据的功能和临床解释。为了解决这一局限性,我们开发并评估了一个完整mtDNA序列的大型参考比对,作为输入缺失mtDNA单核苷酸变异(mtSNVs)的管道的一部分。我们称我们的参考对齐和管道为MitoImpute。

结果

我们对齐从GenBank中下载了36960个人的完整线粒体基因组序列,过滤,控制质量。这些序列重新格式化为归集软件,IMPUTE2使用。我们通过测量单倍群和基因型一致,从千人基因组计划和阿尔茨海默氏病神经影像学倡议(ADNI)数据评估MitoImpute的估算精度。这mean improvement of haplogroup assignment in the 1000 Genomes samples was 42.7% (Matthew’s correlation coefficient = 0.64). In the ADNI cohort, we imputed missing single nucleotide variants.

结论

这些结果表明,我们的参考对准和面板可用于插补在从使用微阵列,从而扩大线粒体功能和临床调查的范围获得的现有数据丢失mtSNVs。这种改善可能是在研究中,参与者被招募随着时间的推移和使用不同的方法得到的mtDNA数据,从而更好地整合收集早期数据的使用不太准确的方法与最近序列数据特别有用。

同行评审报告

背景

线粒体DNA(mtDNA)的变异是令人感兴趣的,因为它是关于人类进化的信息[1因为它与许多人类疾病有关[2].由于人类线粒体基因组不重组,它们之间的关系可以用单一的系统发育树来描述。因此,它们可以根据它们所属的系统发育谱系来分组,进入所谓的单倍群。在这个进化分类系统中,属于高度分化谱系的基因组形成主要的单倍群,较小的单倍群对应于最近分化的谱系[3.4.].

在一些研究中,线粒体DNA并不是通过全基因组测序来完全表征的,而是通过使用微阵列在预定的线粒体基因组位点集上确定的单核苷酸变体(MTSNV)[5.].使用这种阵列获得的部分mtSNV数据可能不足以对线粒体基因组进行可靠的单倍型分配。mtSNV数据的可靠分类非常重要,因为单倍群分类经常用于群体遗传学研究和线粒体基因组与疾病之间关系的临床研究[6.].

此外,并非所有的微阵列都被设计用于检测人类线粒体基因组中相同位点的变异。不同研究中使用的微阵列设计的不一致可能导致mtSNV数据集部分不兼容,使其难以结合进行联合分析。缺乏全基因组序列的遗留数据集可以重新测序,为充分的比较提供完整的信息。然而,考虑到mtDNA 40多年的研究,许多研究的生物原料可能已经不再可用。此外,直到2021年,一些研究还将归位作为工具,用于基因型-表型关联研究中填补缺失的mtSNVs [7.]突出了生物医学研究中持续的重要性估算。

通过从人体线粒体基因组序列的代表性参考面板抵抗缺失的位点,可以通过从人体线粒体基因组序列的代表性参考面板中抵抗MTSNV来解决不准确的单倍型分配和来自使用不同微阵列的研究的数据的双重问题。对于不完全的线粒体基因组序列数据,可以通过估计来自数据可获得的站点的基地的共置,作为单倍型,缺失核苷酸位点的基本状态(A,C,G,T)估算其碱基。这些概率的准确估计有两个基本要求:(1)基因组序列的准确多序列对准(MSA);(2)代表群体的基因组序列的参考小组。

线粒体基因组的序列在不同的人群中差异很大。为了具有代表性,必须从作为调查目标的人群中获得基因组参考数据。由于从不适当的人群中获得的数据不具有代表性,可能会导致插补产生偏差和不准确[8.9.10111213].在构建msa的过程中可能会出现额外的偏倚和不准确性,这需要在一些被比对的序列中的一些核苷酸之间插入比对间隙(' - ')——精确地插入比对间隙是一个不小的挑战[141516].

使用1000个基因组项目数据集来识别不完全序列数据中缺失的核基因组变体。1718]. 然而,该数据集包含代表26个群体的2504个核基因组和线粒体基因组序列,仅部分代表人类基因组变异,一些群体(如太平洋岛民、土著澳大利亚人和中亚人)仍然没有代表。因此,为了能够准确地从其他人群中估算缺失的变异,需要包含来自尽可能多的全球不同人群的高质量完整数据的参考面板。

此外,还需要进行大量的工作,将1000个基因组项目mtSNV数据从公开的格式转换为可用于推断的格式。从1000基因组计划数据或其他更有限的数据集(例如,[6.19),用于线粒体基因组测序。除了引入误差之外,需要为新研究重新创建参考面板和MSAs,导致缺乏对不同研究结果进行比较所需的标准化。

mtDNA数据的输入将大大简化,不完整线粒体基因组序列的大量现有数据集将更容易获取,因为克服了以下需求:初步数据格式化、识别和管理合适的参考数据面板,以及高质量多序列比对的标准化。

在这里,我们通过创建一个大型(N = 36960)由经验丰富的研究人员使用自动校准软件和手动管理全球多样化的MSA。该资源在GitHub上公开,作为FASTA格式的完整序列的标准参考MSA(以下简称“参考MSA”)。我们还包括标准参考MSA,仅包括以易于输入2读取的格式过滤的变量位点[20.](此后称为“参考面板”)。此外,我们还描述了一条蛇纹管道,我们开发该管道是为了通过插补2框架轻松插补MTSNV[20.].我们将我们的参考MSA/面板和管道组合称为MitoImpute。最后,我们报告了来自1000个基因组项目联盟的在硅微阵列(“微阵列数据集”)中使用MitoImpute的评估[17全基因组序列(WGS)数据和阿尔茨海默病神经成像倡议(ADNI)的经验数据[21].

方法

参考对齐和参考面板

全人类mtDNA序列于2018年7月18日通过适配MitoMap从GenBank下载[22搜索词(附加文件1:补充方法)。这次搜索返回了44299个完整的人类mtDNA序列,并排除了古老的和古老的序列。2011年使用7747个完整mtDNA序列创建了一个精心整理的比对,该比对使用了MAFFT和经验丰富的研究人员对间隙字符状态放置的手工决定的组合(未发表,附加文件)1: 5。方法;eassteal和Jermiin, pers。通讯)。为了保留间隙字符状态的位置,序列被对齐到这种预先存在的对齐方式(未发布,附加文件1: 5。方法)2500批使用MAFFT [23]在遗传v10.2.6中使用默认设置[24].修订后的剑桥参考序列(rCRS)保留了标准化的网站编号公约[25在这两种预先存在的和新的参考医疗储蓄账户,并通过移除推出差距字符状态在RCRS网站。我们认为保留这些网站介绍了差距字符状态,因为它们可能代表真正的插入事件。然而,我们认为优先维护的RCRS网站编号约定参考比对。在序列的间隙未在该RCRS被保留那个。

To improve the quality of the Reference MSA, sequences with ≥ 5 ambiguous characters or ≥ 8 gaps were removed. This threshold was set to enable the inclusion of haplogroup B sequences, which averaged 7 gaps relative to other sequences. This quality filter reduced the Reference MSA to 36,960 sequences (Additional file2: 表格1)。为避免向种群频率估计添加偏差,因此保留了具有相同序列的Genbank accessions,基于它们代表相对常见的线粒体基因组。Alistat v1.11 [26]用于量化新参考MSA的完整性。

参考面板是通过转换参考MSA与IMPUTE2 [兼容格式创建的20.].首先,整个参考MSA被转换为VCF文件,其中包含所有差距和其他模糊的字符状态,编码为“n”。其次,使用BCFTOOLS v1.4从VCF文件中删除所有不变站点[27].第三,使用BCFtools v1.4将VCF文件转换为可IMPUTE2-readable .gen、.hap、.legend和.sample文件[27],并进入用PLINK V1.9 [.ped文件28]. 最后,通过使用BCFtools v1.4从VCF文件中提取站点列表来创建重组图文件[27并将每个位点的重组率定为零。此外,我们通过进一步将VCF过滤到> 1%、> 0.5%和> 0.1%的次要等位基因频率,创建了不同版本的参考面板。这导致参考面板有四个版本在不同的小等位基因频率滤波阈值。我们使用这些阈值来测试在不同等位基因频率截断时,归化过程的表现如何;因此,我们将所有四个小组统称为参考小组。参考MSA和参考面板的创建和管理流程图如图所示。1

图。1
图1

参考多序列比对和参考面板的创建和管理流程图

验证小组

在硅片微阵列('微阵列数据集)是通过从1000个基因组项目3 WGS数据中选择的仅在市售微阵列中存在的MTSNV来创建(N = 2535). Microarray information was obtained from strand orientation files available from the Wellcome Centre for Human Genetics at the University of Oxford [29, 103个链文件包含mtsnv(附加文件2:表2)。WGS数据的HAPLOGROUP分配和MicroArray数据集使用HAPLOGREP2执行[30.]和hi-mc [31].

归责

我们使用了插补2 X染色体插补方案[6.20.将缺失的变异归并到参考面板的微阵列数据集。假设没有复合(即,均匀的复合率R= 0在所有站点)。IMPUTE2中的马尔可夫链蒙特卡罗步骤,用于解释二倍体数据重组中的相位不确定性[20.]没有使用,因为人类线粒体基因组是单倍体,不知道是否会重组。只有高质量的插补位点通过删除插补信息得分为2的位点而保留 ≤ 0.3.

K.羟基磷灰石参数指定K.从参考面板IMPUTE2单倍型的数量将归集管道使用。改变的影响K.羟基磷灰石参数通过运行插补管道进行评估K.羟基磷灰石设置为100、250、500、1000、2500、5000、10000、20000、30000。

我们测试了当参考面板以不同的次要等位基因频率(MAF)阈值过滤时,我们的归责管道如何耗尽罕见的变体。我们测试了MAF> 1%,MAF> 0.5%和MAF> 0.1%的阈值,导致409,682和1874mtsnvs(附加文件2: 表3)。使用此过滤方案,103个Strand文件中的两个不包括MAF的任何MTSNV> 1%或MAF> 0.5%(附加文件2计算精度采用马修斯相关系数(MCC)评估[3233基因型一致性。我们还使用单倍群一致性评估归因的准确性。Haplogrep2都是[30.]和hi-mc [31]被用于单倍群的分配,以作为真理一套完整的千人基因组计划WGS数据。HaploGrep2具有覆盖PhyloTree单倍群命名的全部范围的优势[30.34],包括小的亚单倍体群。Hi MC是为流行病学研究而开发的,它使用高通量数据,通过使用有限的MTSNV数组将系统树命名法简化为46个常见单倍体组,从中分配单倍体组。我们将所有L基因的第一个主要亚单倍型群(即L0)以及HV和JT视为大单倍型群[3.4.].

线性混合模型ANOVA用于评估MCC(每个微阵列数据集MTSNV的平均值)差异的意义,以及针对不同测试参数的单倍体组分配K.羟基磷灰石和加。

用于实施我们的归纳管道和再现我们的结果的管道最初是在Bash Shell脚本中创建的,然后解除进入Snakemake [35用于MitoImpute管道。输入和分析管道的流程图如图所示。2

图2
图2.

MitoImpute注入和分析管道的流程图

结果

参考对齐和参考面板

为了符合最低报告用于管理服务协定的标准,参考MSA的完整性度量进行了计算(表1).如在黄,Kalyaanamoorthy [描述26],C一种是MSA的完整性,CR是否完整Rth序列,CC是否完整C网站,和CIJ.是否完整一世他和j序列。总的来说,参考MSA非常完整(C一种 > 0.99). 单个序列也大多是完整的(CR),用含有完全指定的核苷酸在其位点的91%和含有完全指定的核苷酸在其所有位点的最完整的序列中的至少完整序列。在MSA的至少完整的网站完全包含指定的核苷酸序列中的44.3%,和最完善的网站曾在所有序列的完全指定的核苷酸。同源位点具有完全指定的核苷酸的在两个序列中位点(比例CIJ.)范围从83%到100%,表明大多数序列对包含足够的信息来量化进化距离。缺失大量核苷酸状态的位点和序列在过滤过程中被去除,如“中所述”方法“ 部分。

表1参考MSA的AliStat完整性度量

在参考面板中,来自49个国家和54个次区域的7128个序列(19.3%过滤和16.1%未过滤)的GenBank元数据的地理来源可用(附加文件)2这些地区包括较小的少数民族,如台湾雅美人、摩洛哥柏柏尔人、太平洋岛民、土著澳大利亚人,以及中亚和西伯利亚的人。然而,对于有来源信息的序列,有明显的欧洲倾向(3855;54.1%;10.4%过滤;8.7%未过滤)和东亚(2065;29.0%;5.6%过滤;未经过滤的4.7%)。

所有主要的单倍组都表示在参考面板(附加文件1:表1)包括罕见的Haplogrous,如HaploGroup S,其是土着澳大利亚人的流行,HaploGroup L5,其在MButi Pygmies,HaploGroup L6中发现,其在也门和埃塞俄比亚的低频中发现,以及Haplogroups O和Q,哪个仅在太平洋岛上发现(图。3.). 单倍体B是质量控制过滤器最常删除的单倍体(3395个或全部7339个删除序列的46%),只留下273个单倍体B序列。单倍体组H在质量控制后也进行了大量筛选(1376;19%),但在最终参考小组(n = 7644). 在质量控制过程中,只有一小部分其他单倍体被移除。

图3.
图3.

线粒体参考多序列比对的多样性。一种线粒体序列的主成分分析(PCA)包括在单倍体组着色的参考面板中。B.均匀流形逼近和线粒体序列的投影(UMAP)投影。C1000个基因组线粒体序列的系统发育树,强调线粒体单倍体群之间的系统发育关系。D.1000组基因组的线粒体的序列投影到线粒体参考对准

在硅芯片

参数调优

我们使用马修斯相关系数(MCC)测量基因型归位的准确性[3233].为了总结MCC值,我们计算了所有估算位点的平均MCC,然后使用线性混合模型方差分析比较估计的边际均值。我们的结果显示,过滤到MAF > 0.1%的参考面板表现最好(\({\mu}{MCC}=0.60\)),其次为MAF > 0.5 (\({\ mu} _ {mcc} = 0.58 \)),然后由MAF > 1% (\({\ mu} _ {mcc} = 0.57 \)).这些对比均有统计学显著(ANOVA,\(p = 0.002 \))(附加文件2表5:a - c)。为K.羟基磷灰石参数,两者之间无显著的两两差异\({k} _ {hap} = 100 \)和另一个\({k}_{hap}\ mathm {value up to} 1000\).上面一个\({k} _ {hap} = 1000 \),对比通常具有统计学意义(附加文件2:表5d-f),带有较大的K.羟基磷灰石参数值进行比较差的,指示的能力降低正确地分配单倍一些微阵列数据集。

还使用使用对MCC描述的相同统计框架的Impute2信息分数评估归属准确度。与MCC相比,过滤到MAF的参考面板> 1%是最好的表现(\({\mu}{info}=0.73\)),其次为MAF > 0.5 (\({\ mu} _ {mcc} = 0.69 \)), MAF > 0.1% (\({\μ}_ {MCC} = 0.63 \)).所有这些对比在统计学上都是显著的(方差分析,\(P <0.0001 \))(附加文件2:表6 a - c)。从\({k} _ {hap} = 1000 \),两两比较较大K.羟基磷灰石值成为统计学显著,表明平均单倍群一致有意义的差异,当被包括多个参考单元型变得明显。

通过确定单倍体组分配在插补序列数据集之间是否一致,进一步评估插补准确性。由于单倍型rep2将单倍型分配给非常特定的子单倍型组,因此除了宏单倍型组外,我们还使用子单倍型组测量一致性。我们发现MAF的亚单倍体组一致性略有下降 > 1% (− 2.5%)和MAF > 0.5% (− 0.6%),使用MAF时仅略有增加 > 0.1% (1.4%). 在所有这些比较中观察到统计显著性(附加文件2:表7a-c)。两者的区别K.羟基磷灰石参数设置更加明显K.羟基磷灰石显示一致性降低的参数值(附加文件2:表7d-f),可能是因为全部K.羟基磷灰石实验使用在MAF > 1%过滤的参考面板。更大的K.羟基磷灰石参数值的性能比较小的值差。

Macrohaplogroup一致性以下归集仅略有增加。有任何的MAF阈值之间没有统计学差异显著,虽然有在精度略有增加随MAF(0.8%至2.2%,ANOVA\ (p = 0.09 \)).引用的单倍型参数值\({k} _ {hap} = 100 \)\({K} _ {HAP} = \ mathrm {1000} \)表现出微小的性能提升,与较大K.羟基磷灰石参数值导致相对较差的推断性能(附加文件2:表8)。但是,我们注意到,微阵列数据集中的平均Macrohaplogroup的一致性已经存在> 86.7%。

此外,我们评估了输入后HaploGrep2单倍群质量评分是否得到改善。MAF阈值之间的单倍组质量评分差异无统计学意义(方差分析,\ (p = 0.56 \));然而,平均而言,质量分数有小幅下降(0.6-0.8%)(附加文件2:表9A-C)。对于包括参照单倍型的数目的参数值显示起始处的对比度的统计差异\({k} _ {hap} = 100 \)\({k} _ {hap} = 1000 \),计算精度越高则越低K.羟基磷灰石参数值(附加文件2:表9d-f)。

在单倍群的一致性的改进是使用Hi-MC分配单倍群也进行评估。继归集,有跨不同的参考面板MAF阈值的单倍群分配的准确度平均增加(31.2-32.5%)。然而,有这些MAF阈值之间无统计学差异显著(ANOVA,\ (p = 0.83 \))(附加文件2:表10a-c)。随着K.羟基磷灰石参数,观察到准确的HAPLOGroup分配的减少,具有对比度\({k} _ {hap} = 100 \)\ ({k} _ {hap} = 2500 \)成为统计学显著。观察到这些图案时macrohaplogroups检查(附加文件2:表11)。平均而言,单倍群的一致性,从16.7到不等21.0%,而macrohaplogroup一致性范围从88.0到88.4%

连同,这些发现表明了最佳值\({k} _ {hap} = 500 \)为参考单倍型数量,MAF > 0.1%为参考面板的次要等位基因频率阈值。

总体芯片性能

使用我们推荐的设置(\({k} _ {hap} = 500 \), MAF > .1%),大多数病例成功地输入了大多数基因型\({\μ}_ {MCC} = 0.618 \)\(95\%置信区间[CI] = 0.615, 0.620\)).性能最好的芯片是GSA-24v2-0_A1-b37 (\(MCC=0.658;95\%CI=0.636,0.681\)),最糟糕的表演芯片是人造脑球菌2.5s-8v1_b-b37(\(MCC = 0.381; 95 \%CI = \ MATHRM {0.320,0.441} \))(附加文件2:表12)。

平均而言,使用Haplogrep2.0从算书中分配的Macrohaplogroups与真相协调一致,定位设置了88.2%的时间(\(95 \%ci = 88.1 \%,89.4 \%\)).GSAMD-24v2-0_20024620_A1-b37是在HaploGrep宏单倍群一致性方面表现最好的微阵列数据集(\ (99.4 \ %;95 \ % CI = 99.2 \ % 99.7 \ % \)),而InfiniumImmunoArray-24v2-0_A-b37是表现最差的微阵列数据集(\(10.8 \%; 95 \%ci = 9.6 \%,12.0 \%\)).平均有1.5%的一致性的改善。HumanOmni2.5S-8v1_B-B37具有最大的改善(24.4%)。HumanOmni5-4v1_B-B37表现最差的微阵列数据集,并在一致13.6%的降低(附加文件2:表12)。

平均而言,使用Hi-MC从imputed数据分配的大单倍群与真值集一致的概率为91.8% (\(95 \%ci = 91.7 \%,91.9 \%\)).bdchp-1x10-hummhap240s_11216501_A-B37是在HI-MC Macrohaplogroup协调条款中表现最佳的微阵列数据集(\(99.9\%,95\%CI=99.8\%,100\%)中化-8v1-3_A1-b37表现最差(\(28.6 \%; 95 \%ci = 26.9 \%,30.4 \%\)).改善的总体增加为24.9%(附加档案2:表12),HumanOmni5-4v1-1_A-b37是性能最好的芯片,增长了43.6%,HumanOmni1-Quad_v1-0_B-b37是性能最差的芯片,一致性下降了32.8%。

整体Haplogroup协调一致

使用HAPLOGREP2.0和HI-MC估计单个HAPLOGOUPS的一致性估计单个HAPLOGOUP级别。在估算之前,分配了宏海普洛群v的次数少于50%的序列由haplogrep2.0分配给他们的连接宏麦克劳群(附加文件2:表13A),和从macrohaplogroups H,HV,I,M,V,W序列的小于50%,X被分配到通过的Hi-MC它们的正确macrohaplogroup(附加文件2:表13b)。使用HaploGrep2.0通过宏单倍体组一致性测量的插补准确度显示,与微阵列数据集的差异从减少16.6%(HV)到增加52.9%(V)。除L5外,所有非洲大单倍体群体均略有下降(3.12–0.18%)。对于美洲土著相关的大单倍体群体,只有B组出现下降(5.02%)。在东亚相关的大单倍体群中,G、N和Z显示出下降(0.88–7.42%)。在欧洲-印度相关的宏单体型组中,H、J和U显示出下降(0.14–1.82%)。使用Hi-MC通过宏单倍体组一致性测量的插补准确度表明,与微阵列数据集相比,插补准确度从15.7%(B)下降到89.9%(M)。所有非洲大单倍体群体都略有下降(8.9–0.64%)。美洲土著相关的大单倍体群B和C显示下降(0.15–15.7%)。在东亚相关的大单倍体群中,只有N表现出下降(6.5%)。在与欧洲-印度相关的宏单体型组中,只有U显示出下降(0.8%)。然而,应该注意的是,Hi-MC没有检测到任何大单倍体群F、G、L4、L5、Y或Z的存在。

阿尔茨海默病神经影像学倡议

我们对ADNI研究中258名参与者的数据应用了MitoImpute,他们提供了两个WG[5.]和微阵列数据[21)(附加文件2:表14)。ADNI微阵列数据被映射到RCR,并丢弃了舒适的2个信息评分≤0.3的归因地。Haplogrep2都是[30.]和hi-mc [31]被用来分配单倍到WGS,微阵列,以及插补数据。基因型适度成功估算,如由MCC(测量\({\μ}_ {MCC} = 0.322;95 \ % CI = \ mathrm {0.294, 0.350} \)). 这与ADNI基因分型芯片的微阵列数据集(Illumina Human610 Quad BeadChip,Human610-Quadv1_B-b37,\({\ mu} _ {mcc} = 0.606; 95 \%ci = \ mathrm {0.576,0.637} \)).

使用HaploGrep2.0,微阵列数据的正确大单倍群为95.7%,加样后为97.7%。除H下降0.9%外,其余大单倍组均无变化2:表15)。Hi-MC的相应改善率为37.9% ~ 95.0%。大单倍群A, H, J, JT, M, N, V, W,和X都显示了改进,范围从27.2到100%(附加文件2:表15B)。Macrohaplogroups M,V,W和X的结果特别值得注意,因为它们在估算之前没有正确的任务。Macrohaplogroup HV在估算之前和之后仍然在0%的一致性。

讨论

人类线粒体疾病的遗传基础和进化史的研究依赖于同源核苷酸位置的精确比对和完整的mtDNA序列[36].这两个因素反过来受益于这些研究中所使用的MSAs中包含的全球多样化序列。缺失变量的归因可以减轻不完整mtsnv的数据集;然而,即使是经验丰富的生物信息学家,序列的精确比对和间隙特征状态的一致放置也充满了困难和时间[14].因此,缺乏公开的参考MSA和参考面板对研究人员调查线粒体疾病或进化历史来说有一个限制。我们通过创建来自全球范围的36,960个不同的MTDNA序列的参考MSA来解决这些限制,该序列由经验丰富的研究人员手动策划,以确保差距字符状态的放置的一致性。将新颖的序列对准对参考MSA将通过提供这些新序列的指导来缓解对准过程的压力。

参考MSA和参考面板我们在这里提出在全球范围内和系统发育的代表。尽管样本,我们从具有地理种源的元数据可用基因库中提取的不到20%,那些包含此信息的样本表明有来自覆盖所有有人居住的大陆49个国家至少103个地理区域。这些包括种群通常不是在主要群体遗传数据集表示的(例如,1000基因组计划),例如太平洋岛民和土著澳大利亚人。此外,所有PhyloTree [34宏单倍群出现在我们的参考MSA和参考面板中。据我们所知,这是最大的、在基因和地理上最多样化的mtDNA参考面板。

此外,作为一个管理MSA,参考MSA和参考面板可以下采样用于回答进化和疾病相关的研究问题。此外,参考MSA可以作为判断mtsnv的参考面板。这个参考面板将能够跨不同年龄和完整性的数据集进行比较和组合分析。参考面板已包装成一个用户友好的mtSNV imputation管道,MitoImpute。

通过指定单倍体组的一致性和基因型的马修斯相关系数,我们评估了使用我们的参考面板估算MTSNV的准确性。在大多数微阵列数据集中,当使用HaploGrep2.0进行分配时,我们能够略微改善基因型一致性和大单倍体组分配,当使用Hi-MC时,我们能够显著改善基因型一致性和大单倍体组分配。由于HaploGrep2.0已经准确地分配了大单倍体组,这些结果表明我们正在成功地输入系统发育信息MTSNV。一些宏单倍体组的正确分配出现了边际下降;然而,这似乎并不偏向非洲以外的任何地方。除单倍型组JT和X外,所有单倍型组都经历了平均改善 > 30%,这表明参考小组并不偏向于改善某些血统。在参考面板中添加新序列只会进一步增加仍然代表性不足的群体或线粒体DNA谱系中准确的单倍体分配。我们还通过在ADNI数据集中插补MTSNV测试了参考面板的实际使用,证明参考面板和插补管道可以成功插补基因型,并且在某些情况下,显著增加了正确的宏单倍体组分配。鉴于ADNI基因分型数据集中有499个样本未在后续阶段重新测序,这证明了我们的参考小组对于长期研究的效用,这些研究需要将其较旧、不完整的数据集与较新、完整的数据集达到相同的标准。

使用微阵列数据集的MitoImpute管道的性能测试显示了一个看似违反直觉的结果;估算精度的降低K.羟基磷灰石参数增加。增加了K.羟基磷灰石参数增加了参考面板中的单倍型数量,从中赋予其赋予赋予赋予。我们怀疑增加了1000多倍型的参考单倍型数量导致不完全样品单倍型和参考面板单倍型之间的不匹配的机会更大,特别是在具有少数MTSNV的微阵列数据集中。或者,高度多样的参考板可以含有大量的单倍型,对于从研究样本中缺失的抵抗损失的变体,其先前已被[37].农林部的限制和K.羟基磷灰石我们怀疑,这些参数是由于某些微阵列数据集中缺乏MTSNV所致。含有少量变量的数据集(用于估算缺失的MTSNV)将始终存在此限制,我们建议用户在使用这些数据集进行后续分析时谨慎行事。

由于许多原因,我们没有将参考小组划分为群体特异性或单倍群特异性的子小组。只有19.3%的GenBank样本有地理来源元数据可用,这将极大地限制我们利用大多数序列的能力。此外,以前的研究已经注意到,当混合发生时,具有不同单倍型的大型参考面板可以提高归因质量[10],例如在后殖民社会。然而,其他研究表明,“全球”参考面板会降低插补质量,而特定人群的参考面板可能会提高插补精度[3839].考虑到这一点,MitoImpute的用户可以试探性地指派单倍到其微阵列数据使用的先验指导从子采样参考面板序列。然而,我们注意到K.羟基磷灰石参数应该直观和自动地实现这一点。进一步的研究可以使用MitoImpute来调查完整或下采样参考面板是否在单种群和多种群微阵列样本上都实现了更高的imputation准确性。

我们旨在创建具有尽可能多的基因组的参考MSA,这些线粒体基因组代表作为可能的全球单倍型多样化。因此,我们的搜索标准可以排除具有大缺失的一些完整序列。小缺失仍然存在于参考MSA中作为间隙字符状态;但是,除去插入以保留RCRS位点编号约定。我们承认米托克斯的这些限制。另一个限制是米托·琼脂设计不设计用于检测异质性,但如果RAW探测强度数据可用,则可以检测到它[40]. 最后,我们承认,对于处理不完整序列,重新排序通常是更好的选择。然而,当原始生物材料不再可用于重新测序或财政资源有限时,MitoImpute提供了一种现成的替代方法。

结论

我们的参考小组为线粒体遗传变异有限的数据集提供了一个机会,可以用更完整的遗传变异集和更准确的单倍型群分配进行分析。医学研究的全球差异在欧洲个体的高比例中表现得很明显(~ 78%)关联研究目录[41].千人基因组计划第3阶段包括来自26个种群,然而,这些人往往来自不同地区的国家在1至3个城市,比如中国取样2504人。我们的参考面板包含来自至少103区的序列在至少49个国家,捕捉线粒体遗传多样性的更全局代表性的样品。包括我们的参考面板中的多样性将允许研究人员在代表性不足的人群进行归集,有助于解决差距医疗基因组学研究。这项研究还强调了必须提交序列的公共库,如基因库时,包括准确和详细的元数据。有可供下载的基因库序列的19.3%,仅地理种源的元数据限制了我们确定DNA数据库中代表性不足的区域能力。作为单体群仅可用于在细子单倍群级确定地理来源分析[1],Haplogroups不能依赖于地理代理。

数据和材料的可用性

在目前的研究中产生和/或分析的数据集可在https://github.com/sjfandrews/mitoimpute.https://doi.org/10.5281/zenodo.4338785).本文所用的数据来自阿尔茨海默病神经成像倡议(ADNI)数据库(adni.loni.usc.edu)。因此,ADNI研究人员参与了ADNI的设计和实施,并/或提供了数据,但他们没有参与本报告的分析或撰写。ADNI研究人员名单可在以下网站找到:http://adni.loni.usc.edu/wp-content/uploads/how_to_apply/ADNI_Acknowledgement_List.pdf

缩写

Adni:

阿尔茨海默病神经影像学倡议

主义:

在硅芯片

MAF:

次要等位基因频率

MCC:

马修斯相关系数

MSA:

多序列比对

线粒体DNA:

线粒体DNA

mtSNVs:

线粒体DNA单核苷酸变异

WGS:

全基因组序列

参考文献

  1. 1.

    UnderHill PA,Kivisild T.在追踪人迁移中的Y染色体和线粒体DNA群体结构的使用。Annu Rev Genet。2007; 41(1):539-64。

    中科院文章谷歌学者

  2. 2.

    高曼等。线粒体疾病。Nat Rev Dis Primers. 2016;2:16080。

    文章谷歌学者

  3. 3.

    Torroni A,Huoponen K,Francalacci P,Petrozzi男,莫雷利L,Scozzari R,等人。从三个欧洲人群的分析线粒体DNA的欧洲分类。遗传学。1996; 144(4):1835年至1850年。

    中科院文章谷歌学者

  4. 4.

    华莱士DC。在人类进化和疾病的线粒体DNA序列变异。PROC NATL ACAD SCI。1994; 91(19):8739-46。

    中科院文章谷歌学者

  5. 5.

    里奇PG、沃兹沃斯ME、米勒JB、赛金AJ、格林RC、考威JSK。通过临床、影像学和流体生物标记物分型组装809个完整线粒体基因组。阿尔茨海默痴呆症。2018;14(4):514–9.

    文章谷歌学者

  6. 6.

    Gonçalvesvf,giamberardino sn,crowley Jj,Vawter MP,Saxena R,Bulik Cm,等。研究常见和罕见的线粒体变异在精神分裂症中的作用。Plos一个。2018; 13(1):E0191153。

    文章谷歌学者

  7. 7.

    yonova做e,calabrese c,gomez-duran a,schon k,wei w,karthikeyan s等人。英国Biobank中的线粒体DNA基因型 - 表型关联的图谱。NAT Genet。2021。

  8. 8.

    黄建军,侯伟,黄建军,等。利用UK10K单倍型参考面板改进低频和罕见变异的imputation。Nat Commun。2015;6:8111。

    中科院文章谷歌学者

  9. 9.

    liu S- k, Kim C-U, Kim HL, Kim S, Shin J-Y, Kim N,等。1779个东北亚人的全基因组参考图谱提高了罕见和低频变异的归因准确性。基因组医学。2019;11(1):64。

    文章谷歌学者

  10. 10.

    Sariya S, Lee JH, Mayeux R, Vardarajan BN, reyesdumeyer D, Manly JJ,等。混合种群中罕见变异的归化:参考面板和生物信息学工具之间的比较。麝猫。2019;10:239。

    中科院文章谷歌学者

  11. 11.

    等。下一代基因型输入服务和方法。Nat麝猫。2016;48(10):1284 - 7。

    中科院文章谷歌学者

  12. 12.

    郑宏福,Ladouceur M, Greenwood CMT, Richards JB。全基因组基因分型和参照组对罕见变异的影响。acta Genet Genom. 2012;39(10): 545-50。

    中科院文章谷歌学者

  13. 13.

    勃朗宁BL,勃朗宁SR.一种统一的方法,用于三组和不相关个体的大数据集的基因型推断和单倍型阶段推断。acta photonica sinica, 2009;84(2): 210-23。

    中科院文章谷歌学者

  14. 14.

    Golubchik T,明智的MJ,Easteal S,Jermiin LS。介意差距:在多序列比对的估计偏差的证据。mol Biol Evol。2007; 24(11):2433-42。

    中科院文章谷歌学者

  15. 15

    莫里森DA。为什么会phylogeneticists忽略电脑序列比对?系统中的生物学。2009; 58(1):150-8。

    中科院文章谷歌学者

  16. 16

    莫里森DA。序列对齐艺术还是科学?SYST BOT。2015; 40(1):14-26。

    文章谷歌学者

  17. 17

    1000个基因组项目联盟。人类遗传变异的全局参考。自然。2015; 526(7571):68-74。

  18. 18.

    McCarthy S、Das S、Kretzschmar W、Delaneau O、Wood AR、Teumer A等。基因型插补的64976个单倍型参考面板。纳特·吉内特。2016;48(10):1279–83.

    中科院文章谷歌学者

  19. 19.

    哈得逊G,戈麦斯·杜兰A,威尔逊IJ,Chinnery PF。最近的线粒体DNA突变增加了患常见晚发性人类疾病的风险。《公共科学图书馆·遗传学》。2014;10(5):e1004369。

    文章谷歌学者

  20. 20.

    Howie BN, Donnelly P, Marchini J.一种灵活和准确的基因型归化方法用于下一代全基因组关联研究。公共科学图书馆麝猫。2009;5 (6):e1000529。

    文章谷歌学者

  21. 21.

    acta optica sinica, 2010, 31 (4): 594 - 594 . acta optica sinica, 2010, 31 (4): 594 - 594 . acta optica sinica, 2010, 31(4): 594 - 594。作为定量表型的阿尔茨海默病神经成像生物标志物:遗传学核心目标、进展和计划老年痴呆症痴呆症。2010;6(3):265 - 73。

    中科院文章谷歌学者

  22. 22.

    Lott MT,Leipzig JN,Derbeneva O,Xie HM,Chalkia D,Sarmady M,等。使用mitomap和mitomaster进行线粒体DNA变异和分析。Curr-Protoc-Bioinform。2013;44:1–6.

    文章谷歌学者

  23. 23.

    kaoh K, Standley DM. MAFFT多序列比对软件版本7:性能和可用性的改进。生物医学进展。2013;30(4):772-80。

    中科院文章谷歌学者

  24. 24.

    Kearse M,Moir R,Wilson A,Stones-Havas S,Cheung M,Sturrock S等人。佐芙基本:用于组织的集成和可扩展的桌面软件平台和序列数据分析。生物信息学。2012; 28(12):1647-9。

    文章谷歌学者

  25. 25.

    andrew RM, Kubacka I, Chinnery PF, Lightowlers RN, Turnbull DM, Howell N.人类线粒体DNA剑桥参考序列的再分析和修订。Nat麝猫。1999;23(2):147。

    中科院文章谷歌学者

  26. 26.

    王TKF, Kalyaanamoorthy S, Meusemann K, Yeates DK, Misof B, Jermiin LS。多序列比对的最小报告标准。NAR Genom Bioinform. 2020;2(2)。

  27. 27

    李H。一个统计框架,用于SNP调用、突变发现、关联映射和从测序数据估计群体遗传参数。生物信息学。2011;27(21):2987–93.

    中科院文章谷歌学者

  28. 28

    Purcell S,Neale B,Todd Brown K,Thomas L,Ferreira MAR,Bender D,等。PLINK:全基因组关联和基于群体的连锁分析的工具集。我是詹·赫内特。2007;81(3):559–75.

    中科院文章谷歌学者

  29. 29

    基因分型芯片链和建立文件:牛津大学Wellcome人类遗传学中心。https://www.well.ox.ac.uk/~wrayner/strand/

  30. 30.

    Weissensteiner H,Pacher D,Kloss Brandstätter A,Forer L,Specht G,Bandelt H-J,等。单倍型代表2:高通量测序时代的线粒体单倍型组分类。Nucl Acids Res.2016;44(W1):W58-63。

    中科院文章谷歌学者

  31. 31。

    Smieszek S,Mitchell S1,Farber-Eger EH,Veatch OJ,Wheeler NR,Goodloe RJ等人。HI-MC:一种高吞吐量线粒体HAPLOGroup分类的新方法。peerj。2018; 6:E5149。

    文章谷歌学者

  32. 32.

    Matthews BW。T4噬菌体溶菌酶二级结构预测与观察的比较生物物理学报。1975;405(2):442-51。

    中科院文章谷歌学者

  33. 33.

    基科d,TötschN,Jurman G.马修斯相关系数(MCC)大于平衡精度,庄家信息性,并且标记性两级混淆矩阵评估更可靠。Biodata min。2021; 14(1):13。

    文章谷歌学者

  34. 34.

    面包车烤箱M. PhyloTree构建17:日益增长的人类线粒体DNA的树。Forens科学诠释遗传学增刊序列。2015; 5:e392-4。

    文章谷歌学者

  35. 35.

    Köster J, Rahmann S. snake -一个可扩展的生物信息学工作流引擎。生物信息学。2012;28(19):2520 - 2。

    文章谷歌学者

  36. 36.

    库马尔S,Filipski A.多序列比对:在追求同源的DNA位置。Genome Res。2007; 17(2):127-35。

    中科院文章谷歌学者

  37. 37.

    Nelson SC, Stilp AM, Papanicolaou GJ, Taylor KD, Rotter JI, Thornton TA,等。使用更大和更多样化的参考面板提高西班牙裔/拉丁裔人口的归因准确性:应用于西班牙裔社区健康研究/拉丁裔研究(HCHS/SOL)。acta photonica sinica, 2016;25(15): 3245-54。

    中科院文章谷歌学者

  38. 38.

    Surakka I、Sarin A-P、Ruotsalainen SE、Durbin R、Salomaa V、Daly MJ等。从全球插补面板插补基因型时引入的假多态性率。生物十四。2016

  39. 39

    米特男,卡尔斯男,潘戴维K,加布里埃尔SB,兰德ES,Palotie A,等人。稀有和低频的改进的准确性估算变体使用基于WGS特定人群的高覆盖率的插补参考面板。EUR J HUM Genet。2017年。

  40. 40。

    Nandakumar P,Tian C,O'Connell J,23andme研究团队,Hinds D,Paterson Ad等。具有线粒体异质的核基因组关节。SCI ADV。2021; 7(12)。

  41. 41。

    Sirugo G, Williams SM, Tishkoff SA。人类基因研究中缺失的多样性。细胞。2019;177(1):26-31。

    中科院文章谷歌学者

下载参考

致谢

该项目的数据收集和共享由阿尔茨海默病神经成像计划(ADNI)(国家卫生研究院拨款U01 AG024904)和国防部ADNI(国防部奖励编号W81XWH-12-2-0012)资助。ADNI由国家老龄化研究所、国家生物医学成像和生物工程研究所提供资金,并通过以下机构的慷慨捐助:AbbVie,阿尔茨海默病协会;阿尔茨海默病药物发现基金会;阿拉克隆生物技术公司;生物临床公司。;生物基因;百时美施贵宝公司;CereSpir公司。;Cogstate;卫材公司。;伊兰制药公司。;礼来公司;欧洲免疫;FHoffmann La Roche有限公司及其附属公司Genentech,Inc。;藤里庇奥;通用电气医疗;IXICO有限公司。;杨森阿尔茨海默病免疫治疗研发有限责任公司。;强生制药研发有限责任公司。;发光性;伦德贝克;默克公司。;中尺度诊断有限责任公司。;神经疗法研究;神经营养技术;诺华制药公司;辉瑞公司。;吡拉麦显像;施维雅;武田制药公司;和过渡疗法。加拿大卫生研究院正在提供资金支持加拿大的ADNI临床站点。美国国立卫生研究院基金会为私营部门捐款提供便利(www.fnih.org.).资助机构是北加州研究与教育研究所,这项研究由南加州大学阿尔茨海默氏症治疗研究所协调。ADNI数据由南加州大学神经成像实验室传播。

资金

JP和CP得到了国家老龄研究所(R01AG054617 PI: Judy Pa)的支持。BFH及AMG由JPB基金会(http://www.jpbfoundation.org).RHS由P30 AG035982支持。SJA由JPB基金会和阿尔茨海默氏症协会(AARF-20-675804)的支持。

作者信息

从属关系

作者

联盟

贡献

TWM, SJA概念化,设计研究,协调数据收集,开发软件代码,进行初步分析,起草初步文稿。BFH、CP和DP参与了计算机代码和支持算法的实现,并审阅了手稿。HP, JP, RHS, AG, SE和LSJ提供了指导并审阅了手稿。所有作者同意最终稿件提交,并同意对工作的所有方面负责。

相应的作者

对应到Shea J. Andrews.

道德声明

伦理批准和同意参与

书面知情同意书获取了阿迪尼的所有参与者。本研究经澳大利亚国立大学人类研究伦理委员会批准,所有方法都按照相关指南和法规进行。

同意出版

不适用。

利益争夺

AMG担任了迪纳利治疗的科学顾问委员会2015 - 2018年从。她还一直担任生物遗传,艾伯维,辉瑞,葛兰素史克,卫材和Illumina公司的顾问。TWM,BFH,CP,DP,LSJ,HRP,JP,RHS,SE和SJA没有利益冲突的声明。

附加信息

出版说明

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充资料

额外的文件1

.补充方法。包括用于从GenBank下载序列的搜索字符和2011年参考对齐的创建。

额外的文件2

.补充表。包括序列id、地理来源数据、单倍群分配摘要和统计测试结果。

权利和权限

开放获取本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

McInerney,T.W.,Fulton Howard,B.,Patterson,C。用于线粒体DNA变异的全球多样化参考比对和面板。欧宝娱乐合法吗22日,417(2021)。https://doi.org/10.1186/s12859-021-04337-8

下载引用

关键词

  • 线粒体DNA
  • 归责
  • 参考面板