跳到主要内容

ATAV:群体规模基因组分析的综合平台

摘要

背景

测序研究的一种常见方法是联合调用并将所有样本的变体存储在一个文件中。如果不断添加新样品或将对照品重新用于几项研究,则进行每次分析的联合调用所需的成本和时间可能会变得令人望而却步。

结果

我们展示了ATAV,一个分析平台,用于大规模全面和全基因组测序项目。ATAV存储各种样本的变体和每个站点覆盖数据,用于集中式数据库中的所有样本,由ATAV有效地查询,以支持TRIOS和Singletons的诊断分析,以及用于在复杂疾病中寻找疾病关联的罕见变体塌陷分析。运行时日志确保完全再现性,模块化的ATAV框架使其可以扩展到持续开发。除了帮助鉴定导致一系列疾病的疾病变异外,ATAV还通过稀有变体折叠在含有超过20,000个样品的数据集上的稀有变体塌陷来发现疾病 - 基因。迄今为止的数据分析了超过110,000人的数据,证明了框架的可扩展性。

为了方便用户直接从数据库访问变量级数据,我们提供了一个基于web的界面,即ATAV数据浏览器(http://atavdb.org/)。通过这个浏览器,普通公众可以询问超过40,000个样本的摘要级数据,代表了各种血项的案例和控制。用户可以访问型号类别的变体载波,以及预测的祖先,性别和质量指标。与许多其他平台相比,数据浏览器能够实时显示新添加的样本的数据,因此随着越来越多的样本被测序,因此越来越快地发展。

结论

通过ATAV,用户可以公开访问在第三关节中心测序的患者中最大的变体数据库之一,并可以查找任何感兴趣的基因或变体。此外,由于整个代码在GitHub上自由使用,因此可以通过希望构建自己的平台,数据库和用户界面的其他组可以轻松部署ATAV。

背景

诊断和队列测序研究受益于分析大量样品与类似加工对照组合的。达到必要的分析规模的常见方法是使用联合呼叫程序,并将所有样本存储在单个VCF文件中[12].虽然允许对单个VCF文件中包含的所有样本进行单一分析是有效的,但这种方法有显著的局限性。也许最重要的是,当有新的样本可用时,这种方法不适合进行持续的分析。此外,当项目合并多个队列时,没有排序在一起,其中的控制可能在几个研究中重复使用,为每个分析执行联合调用所需的成本和时间可能变得令人望而生畏。除了这些考虑之外,典型的排序文件格式(VCF、BAM)在将这些数据从物理存储移动到计算节点以满足动态和多用户分析需求时,还会带来相当大的开销。此外,标准诊断和病例对照研究利用了一系列过滤参数,包括变异调用(基因质量,阅读覆盖率)、变异注释(基因,效应)、内部群体频率(小等位基因频率,基因型频率)和外部数据集过滤器(gnomAD [3.],rvis [4.)来识别满足用户定义的一组特定标准的“合格变体”。这些复杂的需求需要系统的日志记录和版本控制,以便重新分析和再现。随着数据规模和同时用户数量的增加,在传统的单一联合基因型VCF框架中,特别分析变得非常低效。

为了解决这些约束和动态分析需求,我们开发了ATAV(用于注释变体的分析工具,见图。1)以简化从标准诊断病例解释到疾病相关基因发现的大规模队列分析的基因组分析需求。ATAV平台建立在一个开源的关系数据库上。数据库(ATAVDB)配置了一个允许跨节点集群进行数据复制的特性。ATAVDB包含样例级变量数据、读取覆盖数据、变量注释数据、外部注释数据和元数据。与代码一起提供的数据管道工具包从VCF文件中提取变量、注释和相关质量数据,从BAM文件中提取覆盖率和基因型质量。哥伦比亚大学基因组医学研究所(IGM)目前拥有超过100 K的完整外显子数据,以及超过10 K的完整基因组编码区域存储在ATAVDB中。它包含来自2.2亿多个不同基因组坐标的240亿多个不同呼叫,并阅读所有样本的覆盖信息。

图1
图1

ATAV平台框架概述:从单样本VCF和BAM文件中提取的数据存储在ATAV数据库中。ATAV数据浏览器和ATAV命令行工具从ATAV数据库中检索信息,用于变体查找、诊断分析和使用罕见变体折叠的关联研究

已经开发了几种其他工具和系统,以解决一些相同的需求。例如,gorpipe [5.]提供一种快速查询变体数据的方法,但不能提供简单的管道,用于执行诊断变体优先级或关联研究。tiledb-vcf(https://github.com/tiledb- inc/tiledb-vcf.)提供了一个简单的处理,存储和查询来自单个样本VCF文件的数据的解决方案,但必须由用户实现额外的分析。其他框架,如发光(https://github.com/projectglow/glow)和冰雹(冰雹团队。冰雹0.2。https://github.com/hail-is/hail)将共同称为Variant文件推荐为输入,但为更复杂的分析提供函数,例如关联测试。据我们所知,ATAV是唯一一个将单个样本文件作为输入的唯一一个,仍提供能够轻松用于执行完整诊断分析和稀有变体关联测试的工具。此外,ATAV提供了一种网络界面和API,提供用户访问患有各种疾病的患者中检测到的丰富的变体目录。

实现

数据库

我们使用Percona Server为MySQL及其高性能存储引擎Percona TokudB,以提高可扩展性和运行效率。在数据库中,我们跨所有样本存储通用变体列表,通过clineff注释的注释数据[6.]、样本级变异呼叫和相关的质量度量,以及所有站点推断非呼叫站点参考等位基因的覆盖数据。此外,ATAV已经标准化代码,用于合并任何基于基因、基于站点或基于变异的外部数据。ATAVDB目前存储外部数据库,如gnomAD的等位基因频率[3.],exac [7.],或,discovehr [8.];如TraP [9.],LIMBR [10.,地铁11.],rvis [4.],子公司[12.],陶醉[13.], PrimateAI [14.],CCR[15.];Clinvar的临床注释[16.17.], ClinGen [18.],hgmd [19.和OMIM(见图)。2)。

图2
figure2

ATAV核心数据库(蓝色)和外部数据库的架构(绿色)

从单样本VCF文件中提取变量、注释和相关的质量数据。自定义脚本在向数据库添加新变体之前,检查数据库中是否已经存在相同变体的不同表示,以确保在所有示例中相同的表示相同的变体。

为了有效地存储每个站点和每个样本的覆盖率信息,ATAV数据管道解析BAM文件以生成读取的覆盖率数据,并将站点覆盖率值转换为装箱值:a[0–9];b[10-19];c[20-29];d[30-49];e[50-199];F ≥ 运行长度编码程序用于进一步压缩固定1000 bp块区域内的数据(参见图。3.)。该方法将数据大小降低约1000次,使得可以存储超过100k个样本的覆盖信息。多年的应用公司帮助我们确定了作为诊断遗传研究和基因发现的一部分所进行的标准遗传分析所需的信息。例如,在诊断分析中,用于识别受影响儿童中的Novo突变,有必要知道父母样本在相关网站上有足够的覆盖,但没有必要了解读取的准确数量,导致覆盖的融合策略如上所述。对于绝大多数应用程序,我们发现如上所述,可以经济地存储和检索必要的信息。

图3
图3

有效存储覆盖率信息:将每个站点的覆盖率值转换为固定的1000碱基对长度的bin字符串,首先将覆盖率值转换为bins (一种-F),然后使用游程编码程序,通过汇总同一bin内连续的覆盖值,进一步压缩固定在1000 bp块区域内的数据

平台架构

平台架构如图所示。4..为了运行ATAV作业,用户需要登录到head节点,该节点会自动分配资源并将作业提交给集群。6节点的Sun Grid Engine (SGE)集群(2 × 10 Cores, 128gb RAM)的标准设置允许至少100个作业同时运行。每个作业都用最小的数据库连接查询副本数据库,从而优化速度和工作负载。使用本地定制的生物信息学管道,可以继续将新的样本加载到主数据库,主数据库将自动复制到所有复制数据库。

图4
装具

平台架构:用户将作业提交给SGE集群。然后,各个ATAV作业可以查询副本数据库以获取数据

应用程序

ATAV命令行工具是ATAVDB的程序化用户界面。在Java中写作,ATAV由三个模块组成。(1)命令行解析器和查询引擎转换用户定义的参数和输入示例列表(以plink的ped格式为单位[20.(2)运行时变量对象创建者将SQL输出解析为变量对象的集合。每个变异对象包括变异信息(基因组坐标、注释)、样本列表中的变异调用、坐标处的样本基因型调用以及外部注释数据。(3)一个统计分析模块对变量目标集合进行迭代,以执行下游分析。ATAV目前支持诊断分析的测试,如确定假定的新生和遗传基因型的兴趣,以及基于区域的罕见变异崩溃分析的框架,该框架识别与ATAVDB内部控制中观察到的背景变异相比,在病例中携带过量合格变异的基因或其他基因组单位。此外,ATAV还提供了输出其他流行格式的命令,如PLINK的PED/MAP文件或多样本VCF文件,这些格式可以作为ATAV框架之外的许多工具的输入。模块化的ATAV框架能够持续开发新的功能,对测序/变异数据集进行操作。对于数据完整性至关重要的是,所有ATAV分析都包括软件和数据库版本的可审计日志、使用的过滤器参数、特定运行中使用的输入样本列表以及确保完全重现性的所有运行时日志。

IGM的分析师和研究人员在去年的营业部约为33,000名ATAV工作。从运行时的角度来看,在几分钟内完成22,000个工作岗位,在数小时内完成的职位8000个工作岗位,两天内完成的3000个工作岗位。

为了允许直接从ATAVDB中的完整数据集(对于授权用户)或公开可用数据集(对于匿名用户)访问可变级别的数据,我们提供了一个基于web的用户界面,ATAV数据浏览器(http://atavdb.org/)。它支持通过基因,区域和变体ID搜索变体。基因或区域视图显示具有等位基因计数,等位基因频率,样品数量,效果,基因等的等位基因计数列表(参见图15.)显示一组注释(效果,基因,转录物,复合[21.])有关变体载体(性别,预测的血统,表型和质量指标)的详细信息。它包括与其他公共数据资源的链接,例如Ensembl,Gnomad [3.],Clinvar [16.17.,并直接通过api集成额外的注释,例如。用于临床变异解释的Genoox Franklin API(见图)。5.)。数据浏览器具有几种高级过滤器,可将结果限制为稀有或超稀有变体(使用最大等位基因频率阈值),高质量变体或具有特定表型的样品的变体。此变体信息也可以通过REST API轻松地以编程方式查询。公众视图目前载有超过40,000个样本,代表多元化的案件和健康控制的混合。用户可以查找潜在的疾病导致变体,并检查ATAVDB中变异载体的表型是否与其感兴趣的表型相匹配。与许多其他平台相比,数据浏览器能够实时地显示新添加的样本的数据,因此随着越来越多的样本被测序,因此可以快速发展。虽然当前版本仅支持HG19,但是将来的更新还将包括HG38的版本,一旦生成了足够的数据。

图5
figure5

ATAV数据浏览器的变体视图示例。上部包含来自ATAVDB的数据和与公共数据资源的链接,而下部包含由Genoox Franklin API提供的数据,用于临床变异解释

崩溃分析

ATAV为Povysil等人最近总结的罕见变体崩溃工作流的所有推荐步骤提供功能。[22.].对于采样修剪步骤,ATAV通过查询来自ATAVDB的数据来创建必要的输入文件,并自动调用诸如国王之类的现有标准工具[23.]或flashpca [24.].因为每个样本的覆盖率信息和站点已经有效地存储在ATAVDB, ATAV可以有效地比较病例和之间的覆盖控制和提供了两种不同的测试执行覆盖协调:网站可以删除如果病例和控件显示不同比例的个人有足够的覆盖范围(25.];或者如果二项式检验表明病例/控制状态和覆盖范围不是独立的[26.].样本修剪和覆盖率协调步骤的输出可以作为显性或隐性崩溃模型的输入。在崩溃模型调用中,ATAV根据变体质量(Phred质量(QUAL))、基因型Phred质量(GQ)、深度质量(QD)、映射质量(MQ)和变体质量评分log-odds (VQSLOD))、变体注释(效果、致病菌预测评分、不耐受评分),选择合格变体(QVs)通过过滤器。以及内部和外部小等位基因频率(MAFs)。所有qv都用于构建崩溃矩阵,即一个按个体的基因指标矩阵,如果该基因在该个体中没有发现合格的变异,则该矩阵的值为0,如果该个体中至少有一个合格变异,则该矩阵的值为1。这种塌陷矩阵通过Fisher精确检验或基于firth的逻辑回归来检查与QVs的基因和表型兴趣之间的关联。最后,创建分位数(QQ)图,并使用基于排列的预期分布估计基因组膨胀因子lambdaP.值(25.].一个标准的崩溃分析通常由几个不同的模型组成,这些模型都捕获了特定类型的qv。虽然质量控制(QC)过滤器用于所有模型,但其他过滤器,如预测的变异效应或总体等位基因频率,取决于使用的特定模型。为了加快计算速度,ATAV提供了一种选择,首先运行一个通用的崩溃模型,使用所有模型共享的QC过滤器和放松等位基因频率阈值。可以使用这个初始模型的输出作为输入“collapsing-lite”功能,使得它可以在几分钟内运行个人崩溃模型因为额外的过滤器可以被应用到前面的输出和变异数据库不需要再次查询。详细说明整个工作流的示例命令可以在GitHub上找到(https://github.com/nickzren/atav/wiki/Collapsing-Workflow)。

诊断分析

ATAV还支持诊断工作流程,根据美国医学遗传学和基因组学学会(ACMG),该流程强调了符合“致病性”或“可能致病性”标准的候选个体中的所有变体。这些候选变异体随后可以接受遗传顾问和实验室主任的进一步检查。前面提到的所有注释和过滤器,如QC过滤器或内部或外部MAF,对于诊断分析也很重要,特别是对于我们无法使用额外家族信息的单身患者。此外,ATAV为三人组和家庭提供了特殊功能,以减少最终输出中潜在致病变异的数量。ATAV利用示例文件(PLINK样式PED文件)提供的有关族结构和受影响状态的信息。可以一次分析多个族,并在计算控制频率时自动删除相关控制。此外,情感状态用于决定是寻找遗传变异还是从头变异。在一个受影响的后代和两个未受影响的父母的标准三人病例中,ATAV使用一系列功能提取所有新基因型:从头变异、新复合杂合子和新纯合子变异。为了区分复合杂合性和同相变异,ATAV检查父母双方是否携带一个合格变异。ATAV不仅考虑个体的基因型,还考虑其覆盖率。如果变异位点的覆盖率低于任何个体的最低阈值10,则该变异仍包括在输出中,但标记为可能是新发、可能是新复合杂合子或可能是新纯合子。此外,ATAV识别假定的父母马赛克变异传播。对于每个亲子对,它提取所有从亲子间传播的变体,其中亲子间的变体具有低比例的替代等位基因,表明嵌合体。

ATAV还结合了来自多种变体和疾病数据库的信息(例如ClinVar [16.17.],hgmd [19.],omim,clingen [18.)转换为一个名为KnownVar的外部注释数据集。数据存储在ATAVDB中,并定期更新。KnownVar注释不仅包括“确切的”变体之前是否被报道过,而且还包括同一位点的不同变体是否与疾病有关。典型的注释包括相关疾病、ClinVar临床意义、HGMD分级和相关论文的Pubmed id。变异也用从HGMD和ClinVar中提取的信息进行注释,用于任何与疾病密切相关的变异。在基因水平上,注释包括ClinVar中每一类可能致病或致病变异的总数(拷贝数变异、小插入/缺失、剪接、无义、错义),来自OMIM的疾病关联和遗传,来自ClinGen的剂量敏感性。KnownVar提供的所有信息都可以用作诊断设置中的附加信息,以评估某一变异是否可以被认为是对特定患者的诊断。使用ATAV运行诊断分析的示例命令可以在GitHub上找到(https://github.com/nickzren/atav/wiki/Diagnostic-Workflow)。

结果

ATAV的倒塌框架使得在广泛的疾病中确认了新的基因的发现[27.28.],癫痫猝死原因不明[29,先天性肾脏畸形[30.]、慢性肾脏疾病[31],肌营养的外侧硬化[3233],老年痴呆症[26.,视网膜营养不良症[34]特发性肺纤维化[25.,以及心力衰竭[35].Cirulli等。2015 [32]使用上述ATAV的罕见变异塌陷框架,在肌萎缩性侧索硬化症患者中寻找与对照组相比具有多余的可能有害的罕见变异的基因。在具有广泛研究意义的基因中,已知的渐冻症基因包括SOD1,还有一本小说叫做TBK1.在最近的研究中[35[ATAV用于检测罕见的蛋白质截断变体的显着富集TTN.与对照组相比,主要是缺血性病因的心力衰竭患者的基因。

此外,诊断框架有助于在各种疾病中鉴定已知基因和候选基因型中的诊断基因型,包括死基的各种疾病[36],罕见未确诊的遗传疾病[3738],癫痫[394041],儿童交替性偏瘫[42],以及慢性肾脏疾病[43].Zhu等[37利用ATAV的三重奏诊断管道分析了119名未诊断的遗传疾病患者。通过限制对新生变异、新复合杂合或新纯合变异的分析,并整合来自ClinVar、HGMD和OMIM的数据,作者能够获得29例(24%)患者的遗传诊断。此外,他们在不耐受基因中发现了大量破坏性的新生突变,这突出了一种识别新疾病基因和扩大已知疾病基因表型的可能方法。一项关于死产中因果遗传变异的最新研究[36]使用了ATAV的非三重奏工作流程,通过关注一般人群中罕见的来自OMIM的孟德尔病基因的变异,对被认为具有丰富致病性的变异进行了优先排序。在246例死产病例中,作者确定了15例(6.1%)的诊断,其中包括先前与死产有关的基因和表型扩展的潜在候选基因。

检查等位基因频率的分布(AFS)可以帮助在我们的ATAVDB版本中表征超过100K样品的变体的组成。数字6.显示了双等位基因编码变异的AF分布,仅限于编码或剪接区域,这些区域在我们的大多数样本中都有很好的覆盖,并使用了大约101,000个不相关个体的数据。我们还应用了基本的质量控制过滤器,包括删除任何gnomAD过滤器标记为潜在工件的变体。正如预期的那样,在我们的数据集中,绝大多数的变异是单例的,反映了4.95 × 10的频率-6(面板e中最左侧的条形图)并且在gnomAD v2.1外显子组数据中不存在(面板f中最左侧的条形图)。

图6.
figure6

双位等位基因编码变体等等位基因频率分布。一种C, 和E.根据内部频率显示不同的AF范围,以极少罕见,而其他面板显示基于GNOMAD V2.1 Exome数据的相同频率范围。绝大多数变体都代表单例(最左右的酒吧E.)来自Gnomad的缺席的变体(最左右的酒吧F

结论

我们将ATAV作为大规模全外显子组和全基因组测序项目的分析平台。为了鼓励ATAV的广泛采用,我们提供了关于GitHub的详细指南,介绍如何设置整个框架,包括数据库、命令行工具和数据浏览器。这使任何用户都能够创建本地版本的ATAVDB,以便将数据加载到其中,并使用命令行工具和数据浏览器的所有功能来运行ATAV提供的分析和查询。ATAV框架的优点在于:(1)它允许对加载到数据库中的所有样本进行连续实时分析,而无需在每次分析之前进行计算要求高的联合调用;(2)它允许方便地记录执行的特定分析。新添加的ATAV数据浏览器提供了一个直观的web界面,可以直接从数据库查询变量级别的数据,因此即使是计算经验很少的用户也可以轻松访问。

我们在数据库上使用这个平台的经验表明,可以优化关系数据库,使其能够分析大规模基因组数据集。我们目前的数据处理和存储框架在结合多个项目的数据和分析外显子和基因组时是健壮和灵活的。ATAV支持三组和单组的诊断分析,以及在复杂疾病中发现疾病相关性的罕见变异塌陷分析。还可以进行进一步的优化,如数据库分片,即数据库或搜索引擎中数据的水平分区。其他可能的解决方案包括将数据存储在Hadoop Distributed File System (HDFS)中,以及利用Apache Spark进行分布式集群计算。这将允许同时并行处理大量的不同数据,加快计算速度,并进一步增加样本大小。

ATAV的目标是在多个研究中标准化和优化用于大规模测序数据的存储和数据处理,并为具有很少计算经验的用户提供易于使用的界面,同时确保完全再现性。

ATAV构建的所有代码都是公开的,为其他组提供了一种方便的方法,以构建自己的分析平台,数据库和用户界面。此外,由于我们通过ATAV浏览器提供对我们数据库的一部分数据库的一般访问,因此用户还可以查询在第三级护理中心测序的患者可用的最大的变体数据库之一。目前,公共用户可以访问超过40,000个样本的摘要级数据,但由于新排序样本的数据实时添加,此数字稳步增长,甚至将数据库的值进一步增加,进一步增加了越来越多的样本被测序。

可用性和要求

项目名称:ATAV

项目主页:欧宝直播官网apphttps://github.com/nickzren/atav

操作系统:平台独立

编程语言:Java,Python,R,HTML和JavaScript

其他要求:Java 1.8或更高,Percona Server 5.6或更高版本

许可证:麻省理工学院执照

对非学者使用的任何限制:没有限制

Web链接和URL

ATAV,https://github.com/nickzren/atav

ATAV数据浏览器,http://www.atavdb.org/

克莱纳夫,http://www.dnaminer.com/clineff.html

ClinGen,https://clinical genome.org/

Clinvar,https://www.ncbi.nlm.nih.gov/clinvar/

Ensembl Grch37,https://grch37.ensembl.org/

ExAC,http://exac.broadinstitute.org/

DBSNP,https://www.ncbi.nlm.nih.gov/snp/

富兰克林,https://franklin.genoox.com/

Iranome,http://www.iranome.com/

myvariant,http://myvariant.info/

基因组亚洲,https://browser.genomeasia100k.org/

GME Varioome,http://igm.ucsd.edu/gme/

gnomAD,https://gnomad.broadinstitute.org/

HGMD,http://www.hgmd.cf.ac.uk/ac/index.php

omim,https://www.omim.org/

旋转HG19,https://bravo.sph.umich.edu/freeeze3a/hg19/

陷阱,http://trap-score.org/

RVIS,http://genic-Intolerance.org/

UCSC基因组浏览器,https://genome.ucsc.edu/index.html.

可用性数据和材料

ATAV数据浏览器托管在http://atavdb.org/.所有代码都在GitHub上自由提供https://github.com/nickzren/atav

缩写

VCF:

变体电话格式

BAM:

二进制排列图

gnomAD:

基因组聚合数据库

rvis:

残余变异不耐受评分

ATAVDB:

ATAV数据库

IGM:

基因组医学研究所

ClinEff:

临床变异注释软件

ExAC:

外显子组聚合体

GERP:

基因组进化速率分析

陷阱:

转录性推断的致病性

LIMBR:

局部不宽松模型使用贝叶斯回归

MTR:

错义公差比

HGMD:

人类基因突变数据库

OMIM:

网上孟德尔遗传在人

SQL:

结构化查询语言

多个:

多态性表现型

QC:

质量控制

QVS:

合格的变种

Qual:

质量分

GQ:

基因型质量分数

QD:

深度分数的质量

MQ:

映射质量分

VQSLOD:

变体质量得分降价

MAF:

次要等位基因频率

HDFS:

Hadoop分布式文件系统

参考文献

  1. 1。

    霍特CV Van, Tachmazidou I, Backman JD, Hoffman JX, Ye B, Pandey AK,等。英国生物样本库中49960个个体的全外显子组测序和编码变异特征。bioRxiv。2019;572347.https://doi.org/10.1101/572347

  2. 2。

    Taliun D,Harris DN,Kessler Md,Carlson J,Szpiech Za,Torres R等人。从NHLBI TopMed程序测序53,831种不同基因组。bioRxiv。2019;563866。https://doi.org/10.1101/563866

  3. 3.

    王强,王志强,王强,等。从141456人的变异中量化了突变约束谱。大自然。2020;581:434-43。https://doi.org/10.1038/s41586-020-2308-7

    中科院文章PubMed公共医学中心谷歌学术

  4. 4.

    Petrovski s,Gussow ab,wangq,halvorsen m,han y,weir wh,等。监管序列​​对遗传变异的不耐受预测基因剂量敏感性。Plos Genet。2015; 11:E1005492。https://doi.org/10.1371/journal.pgen1005492

    中科院文章PubMed公共医学中心谷歌学术

  5. 5.

    Guðbjartssonh,乔治森GF,GuðjónssonSa,ValdimarssonRþ,SigurðssonJH,StefánssonSK等。gorpipe:用于基于基因组有序关系(GOR)架构的基于基因组有序数据的查询工具。生物信息学。2016; 32:3081-8。https://doi.org/10.1093/bioinformatics/btw199

    中科院文章PubMed公共医学中心谷歌学术

  6. 6。

    Cingolani P,Platts A,Wang LL,Coon M,Nguyen T,Wang L等。注释和预测单核苷酸多态性效应的程序。Snpeff飞(奥斯汀)。2012; 6:80-92。https://doi.org/10.4161/fly.19695

    中科院文章谷歌学术

  7. 7。

    Lek M,Karczewski KJ,Minikel Ev,Samocha Ke,Banks E,Fennell T等人。60,706人的蛋白质编码遗传变异分析。自然。2016; 536:285-91。https://doi.org/10.1038/nature19057

    中科院文章PubMed公共医学中心谷歌学术

  8. 8。

    Dewey FE, Murray MF, Overton JD, Habegger L, Leader JB, Fetterolf SN等。来自discoverhr研究的50726个全外显子组序列中功能性变异的分布和临床影响。科学。2016;354:aaf6814。https://doi.org/10.1126/science.aaf6814

    中科院文章PubMed谷歌学术

  9. 9。

    Gelfman S,Wang Q,McSweNey Km,Ren Z,La Carpia F,Halvorsen M等。在遗传区域注释致病性非编码变体。NAT Communce。2017; 8:236。https://doi.org/10.1038/s41467-017-00141-2

    中科院文章PubMed公共医学中心谷歌学术

  10. 10。

    Hayeck TJ,Stong N,Wolock CJ,Copeland B,Kamalakaran S,Goldstein DB等。通过分层模型改善致病型变体定位。我是j嗡嗡声的遗传。2019; 104:299-309。https://doi.org/10.1016/j.ajhg.2018.12.020

    中科院文章PubMed公共医学中心谷歌学术

  11. 11.

    刘丽,王强,王强,等。通过基因定制的误解变体解释优化癫痫的基因组药物。基因组研究》2017;27:1715-29。https://doi.org/10.1101/gr226589.117

    中科院文章PubMed公共医学中心谷歌学术

  12. 12.

    Gussow AB,Petrovski S,Wang Q,Allen As,Goldstein DB。蛋白质结构域的功能遗传变异的不耐受预测基因内致病性突变的定位。基因组Biol。2016; 17:9。https://doi.org/10.1186/s13059-016-0869-4

    中科院文章PubMed公共医学中心谷歌学术

  13. 13.

    Ioannidis NM, Rothstein JH, Pejaver V, Middha S, McDonnell SK, Baheti S, et al.;REVEL:预测罕见错义变异致病性的集合方法。Am J Hum Genet. 2016; 99:877-85。https://doi.org/10.1016/j.ajhg.2016.08.016

    中科院文章PubMed公共医学中心谷歌学术

  14. 14.

    孙达伦,高辉,帕迪加帕提,李勇,Kosmicki JA,等。用深度神经网络预测人类突变的临床影响。Nat麝猫。2018;50:1161 - 70。https://do.org/10.1038/s41588-018-0167-z.

    中科院文章PubMed公共医学中心谷歌学术

  15. 15.

    HAVRILLA JM,PEDERSEN BS,Layer RM,Quinlan AR。人类基因组中约束编码区的地图。NAT Genet。2019; 51:88-95。https://doi.org/10.1038/s41588-018-0294-6

    中科院文章PubMed谷歌学术

  16. 16.

    Landrum Mj,Lee Jm,Riley Gr,jang w,rubinstein ws,church dm,等。Clinvar:序列变异和人类表型之间的公共档案。核酸RES。2014; 42(数据库问题):D980-5。https://doi.org/10.1093/nar/gkt1113

    中科院文章PubMed谷歌学术

  17. 17。

    Landrum MJ,Lee JM,Benson M,Brown Gr,Chao C,Chitipiralla S等人。Clinvar:改善对变体解释和支持证据的获取。核酸RES。2018; 46:D1062-7。https://doi.org/10.1093/nar/gkx1153

    中科院文章PubMed谷歌学术

  18. 18。

    Rehm HL,Berg Js,Brooks Ld,Bustamante CD,Evans JP,Landrum MJ,等。Clingen:临床基因组资源。n Engl J Med。2015; 372:2235-42。https://doi.org/10.1056/nejmsr1406261

    中科院文章PubMed公共医学中心谷歌学术

  19. 19。

    Stenson PD、Ball EV、Mort M、Phillips AD、Shiel JA、Thomas NST等。人类基因突变数据库(HGMD)®): 2003更新。哼Mutat。2003;21:577 - 81。https://doi.org/10.1002/humu.10212

    中科院文章PubMed谷歌学术

  20. 20。

    等。PLINK:全基因组关联和基于群体的连锁分析的工具集。Am J Hum Genet. 2007; 81:559-75。

    中科院文章谷歌学术

  21. 21。

    Adzhubei IA,Schmidt S,Peshkin L,Ramensky VE,Gerasimova A,Bork P等。一种预测破坏性错义突变的方法和服务器。Nat方法。2010;7:248–9.https://doi.org/10.1038/nmeth0410-248

    中科院文章PubMed公共医学中心谷歌学术

  22. 22。

    Povysil G、Petrovski S、Hostyk J、Aggarwal V、Allen AS、Goldstein DB。复杂性状的罕见变异折叠分析:指南和应用。纳特·杰内牧师。2019;20:747–59.

    中科院文章谷歌学术

  23. 23。

    Manichaikul A, Mychaleckyj JC, Rich SS, Daly K, Sale M, Chen W-M。全基因组关联研究中的可靠关系推断。生物信息学。2010;26:2867 - 73。https://doi.org/10.1093/bioinformatics/btq559.

    中科院文章PubMed公共医学中心谷歌学术

  24. 24。

    亚伯拉罕G,邱Y,Inouye M. Flashpca2:Biobank级基因型数据集的主要成分分析。生物信息学。2017; 33:2776-8。https://doi.org/10.1093/bioinformatics/btx299

    中科院文章PubMed谷歌学术

  25. 25.

    Petrovski S,Todd JL,Durheim Mt,Wang Q,Chien JW,Kelly Fl,等。exome测序研究,评估稀有遗传变异对肺纤维化的作用。am j respir crit care med。2017; 196:82-93。https://doi.org/10.1164/rccm.201610-2088oc.

    中科院文章PubMed公共医学中心谷歌学术

  26. 26.

    Raghavan NS,Brickman Am,Andrews H,Manly JJ,Schupf N,Lantigua R等。在阿尔茨海默病患中20,197人罕见的罕见变种的全面测序。ANN CLIN TRACKEN TOIL NEUROL。2018; 5:832-42。https://doi.org/10.1002/ACN3.582.

    中科院文章PubMed公共医学中心谷歌学术

  27. 27.

    等。常见癫痫的超罕见遗传变异:病例对照测序研究。柳叶刀神经。2017;16:135-43。https://doi.org/10.1016/s1474 - 4422 (16) 30359 - 3

    中科院文章谷歌学术

  28. 28.

    Zhu X,Padmanabhan R,Copeland B,Bridgers J,Ren Z,Kamalakaran S等人。病例对照崩塌分析鉴定了含有聚焦测序研究的癫痫基因,其集中于Novo突变。Plos Genet。2017; 13:E1007104。https://doi.org/10.1371/journal.pgen.1007104

    中科院文章PubMed公共医学中心谷歌学术

  29. 29。

    Bagnall, Crompton DE, Petrovski S, Lam L, Cutmore C, Garry SI,等。基于外显子的癫痫猝死中心律失常、呼吸控制和癫痫基因的分析安神经。2016;79:522-34。https://doi.org/10.1002/ana24596

    中科院文章PubMed谷歌学术

  30. 30

    Sanna-Cherchi S,Khan K,Westland R,Krithivasan P,Fieget L,Rasouly HM,等。外壳的协会研究识别先天性肾脏畸形中的GREB1L突变。我是j嗡嗡声的遗传。2017; 101:789-802。https://doi.org/10.1016/j.ajhg.2017.09.018

    中科院文章PubMed公共医学中心谷歌学术

  31. 31

    Cameron-Christie S,Wolock CJ,Grapman E,Petrovski S,Kamalakaran S,Povysil G,等人。基于稀有的基于CKD的稀有变体分析。J是Soc Nephrol。2019; 30:1109-22。https://doi.org/10.1681/ASN.2018090909

    中科院文章PubMed公共医学中心谷歌学术

  32. 32。

    Cirulli等,Lasseigne BN,Petrovski S,Sapp PC,Dion Pa,Leblond Cs等。肌萎缩侧面硬化症中的exome测序鉴定了风险基因和途径。科学。2015; 347:1436-41。https://doi.org/10.1126/science.aaa3650

    中科院文章PubMed公共医学中心谷歌学术

  33. 33。

    Gelfman S,Dugger S,De Araujo Martins-Moreno C,Ren Z,Wolock CJ,Shneider Na等。在功能蛋白质结构域塌陷的罕见变异的新方法意味着ALS中的特定遗传区域。Genome Res。2019; 29:809-18。https://doi.org/10.1101/gr.243592.118

    中科院文章PubMed公共医学中心谷歌学术

  34. 34。

    Wolock CJ,Stong N,MA CJ,Nagasaki T,Lee W,Tsang Sh等。案例控制崩塌分析鉴定了无病原ABCA4变体的患者眼科病相关的视网膜染素基因。Genet Med。2019; 21:2336-44。

    文章谷歌学术

  35. 35。

    Povysil G,Chazara O,Carss KJ,Deevi SVV,Wang Q,Armisen J,等。评估稀有遗传变异对心力衰竭患者的作用。Jama Cardiol。2020。https://doi.org/10.1001/jamacardio.2020.6500

    文章PubMed谷歌学术

  36. 36。

    斯坦利克,Giordano J,Thorsten V,Buchovecky C,Thomas A,Ganapathi M等。死产中因果遗传变异。n Engl J Med。2020。https://doi.org/10.1056/nejmoa1908753

    文章PubMed公共医学中心谷歌学术

  37. 37.

    Zhu X,Petrovski S,Xie P,Ruzzo Ek,Lu Y-F,McSweNey Km,等。未确诊的遗传疾病中的全面测序:解释119 TRIOS。Genet Med。2015; 17:774。https://doi.org/10.1038/gim.2014.191

    中科院文章PubMed公共医学中心谷歌学术

  38. 38.

    Petrovski S,Shashi V,Petrou S,Schoch K,McSweNey Km,Dhindsa Rs等。exome测序导致成功的核黄素治疗迅速进行的神经功能。摩洛案例螺柱。2015; 1:A000257。

    文章谷歌学术

  39. 39.

    Allen As,Berkovic SF,Costette P,Delanty N,Dlugos D等人。癫痫脑病中的Novo突变。自然。2013; 501:217-21。https://doi.org/10.1038/nature12439.

    中科院文章PubMed谷歌学术

  40. 40.

    Myers CT,Stong N,Countier Ei,Helbig KL,Freytag S,Sullivan Je,等。PPP3CA中的DE Novo突变导致癫痫发作严重的神经发育疾病。我是j嗡嗡声的遗传。2017; 101:516-24。

    中科院文章谷歌学术

  41. 41

    Petrovski S, Küry S, Myers CT, anyanya - yeboa K, Cogné B, Bialer M,等。GNB1的新生种系突变可导致严重的神经发育障碍、低张力和癫痫发作。2016; 98:1001-10。

    中科院文章谷歌学术

  42. 42

    Heinzen El,Swoboda KJ,Hitomi Y,Gurrieri F,De Vries B,Tiziano FD等。ATP1A3中的DE Novo突变导致儿童的交替偏瘫。NAT Genet。2012; 44:1030-4。

    中科院文章谷歌学术

  43. 43

    grouopman e, Marasa M, Cameron-Christie S, Petrovski S, Aggarwal VS, Milo-Rasouly H, et al.;外显子组测序在肾脏疾病诊断中的应用医学杂志2019;380:142-51。

    中科院文章谷歌学术

下载参考

确认

我们感谢Slavé Petrovski对分析框架原始设计的贡献,感谢王全利对原始平台开发的贡献。

资金

该项目由哥伦比亚大学欧文医学中心基因组医学研究所资助。资助方不参与研究设计、数据收集和分析、决定发表或手稿的准备。

作者信息

隶属关系

作者

贡献

ZR开发并设计了ATAV的架构;GP LED并改进了分析工作流程;JAH提供了工作流指示;HC和NB贡献给数据管道;DBG设想该项目并提供资金;Zr,GP和DBG写了这篇论文;ZR,GP,JH,DBG修改了纸张。所有作者阅读并认可的终稿。

通讯作者

对应到中任

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

DBG是普拉西斯的创始人并持有股权,持有Q-StateBiosciences的股权,作为Astrazeneca的顾问,并获得了Janssen,Gilead,Biogen,Astrazeneca和Union Chimique Belge(UCB)的研究支持。ZR,GP,JAH,HC和NB声明没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

仁,Z.,Povysil,G.,Hostyk,J.A.等等。人口规模基因组分析的综合平台。欧宝娱乐合法吗22,149(2021)。https://doi.org/10.1186/s12859-021-04071-1

下载引用

关键词

  • 协会测试
  • 基因组分析
  • 基因发现
  • 诊断
  • 网络平台
\