跳到主要内容

Wescover.:在临床整体exome测序和基因面板测试之间的选择

抽象的

背景

全面exome测序(WES)在临床和研究环境中广泛采用;然而,其中一个实际问题是由于在临床暗示基因中的几个外显子的不完全宽度和覆盖深度,因此潜在的假阴性。在某些情况下,靶向基因面板测试可以是可靠的选择,以确定已知的疾病相关基因中的基因组变体的真实否定。我们开发了一种基于Web的工具来快速衡量所有感兴趣的基因是由WES可靠地覆盖,或者是否应考虑靶向基因面板测试,以最小化候选基因中的假阴性。

结果

Wescover.是一种新型的Web应用程序,提供直观的用户界面,用于发现人口级WES数据集的广度和深度,通过表型,通过靶向基因面板或基因搜索。此外,该应用程序显示来自基因组聚合数据库的指标,以提供基因以覆盖范围为中心的视图。

结论

Wescover.允许用户有效地查询基因和表型,以便通过WES覆盖相关的外显子,并建议使用WES潜在不完整的基因的面板测试。

背景

作为全外膜测序(WES)滴剂的成本,WES正在取代靶向基因面板测试[12]。例如,在不同癌症类型中测量不同基因中的不断增长的驾驶员和乘客突变以及对大多数遗传疾病的少渊贡献的认识,衡量越来越多的基因的驾驶员和乘客突变的优越性优异。3.]。然而,WES没有在人类基因组中临床上暗集基因中的所有外显子[4.5.[整个基因组测序(WGS)面临类似的挑战,对包括高多态的基因。因此,WES和WG的人口规模聚集在一些临床上暗示的基因中,WES和WG的覆盖率明显地显示了有限的覆盖范围[4.6.]。

王及其同事发现,遗传性眼病浓缩面板可以在41.2%的遗传视网膜营销患者中鉴定病原和可能的致病性突变,而WES的33.0%[7.]。在某些情况下,WES没有捕获遗传性视网膜疾病患者的致病变异,候选基因面板可以提示遗传原因[8.]。另一项研究表明,富含目标的外显子组测序方法能够检测出导致神经肌肉疾病的99.7%的已知遗传变异,而两种不同的WES分析分别检测出97.1%和99.2% [9.]。有趣的是,使用Illumina平台的下一代测序的成本分析表明,针对目标基因面板(333欧元)的每个样品的估计成本不到WES的一半(€792)[10.]。因此,基因面板检测,无论是单一基因还是数百个候选基因,当可能是WES和WG的次优不覆盖导致的假否定时,仍然是一个临床有用的措施。

然而,难以预测涉及患有病情相关变体的外显子是可以用足够的每个站点覆盖深度覆盖,以可靠地呼叫变体。已经努力识别目标面板或WES覆盖不良的地区或基因。exomeslicer基于1,932名临床外壳测序样品提供各种外显子覆盖深度,使得用户可以识别具有感兴趣基因的不完全覆盖的区域[11.]。Ebbert和同事系统性地研究了包括疾病基因的基因 - 这难以分析标准的短读测序技术[12.]。这些工具提供了有用的措施,其中基因可能不被WES充分涵盖,但缺乏意味着建议替代方案。

Wescover.提供概述临床涉及基因的覆盖信息以及基因面板测试信息的优点。它可以为建议对WES未覆盖的基因使用基因组检测提供依据。同时,Wescover.提供了按大洲人口分层的WES覆盖率,突出了外显子组覆盖率的人口特异性差异。通过与基因组聚合数据库(Genome Aggregation Database, gnomAD)项目等其他数据集相比较,用户可以在匹配的人群中找到给定基因的覆盖范围[13.]仅在所有展开上只提供全球平均覆盖范围。还提供了与GNOMAD的链接,使得可以检查大规模样本的全局覆盖率。

执行

Wescover.通过提供对感兴趣的基因的WES覆盖的广度和深度的经验性度量来协助生物医学研究人员的决策。用户可以从1000基因组计划(1KGP)第三阶段数据中找到外显子组的全球覆盖摘要[14.](n = 2,504)以及人口之间的差异。对于每个基因,Wescover.亦提供国家卫生研究院基因测试登记处(GTR)的相关基因测试清单[15.]因此,当基因可能不被WES覆盖时,调查人员可以快速搜索替代方案。

Wescover的覆盖度量

平均读取深度是最广泛使用的覆盖度量,描述了通过平均在WES中有效地对准每个轨迹的支持次数。然而,鉴于外显子捕获诱饵的效率方差,即使对于大多数外显子的平均读取深度足够高,即使平均读取深度足够高,也会对一些编码区进行了不完整的覆盖4.]。然后,没有遗传变异可能包括假底层。要解决这个问题,Wescover.为每种基因的覆盖水平的不同水平提供覆盖范围。

基因模型的覆盖广度计算为读深度高于给定阈值的蛋白质编码序列与外显子总长度的比例。对于蛋白质编码序列为300个碱基对(bps)的基因,如果300个bps中有270个碱基对的读取深度大于10倍,则该基因10 ×处的覆盖宽度为90%。覆盖的广度随每个位置的阅读深度目标水平而变化,并随着需要更高的覆盖深度而减小。数字1说明了不同读取深度水平的覆盖范围。Wescover.为蛋白质编码基因计算每个不同的转录模型的覆盖范围。所有基因和转录物的列表和坐标都基于共识编码序列(CCD)[16.](我们使用用于人参考基因组组件版本37(GRCH37)和38(GRCH 38)的版本15和21)。

图1
图1

覆盖范围广度的例证基因的。它显示由三个外显子组成的基因的实例(外显子1,外显子2,外显子3)。映射到每个外显子的短读数在相应的外显子上方显示。每个基因座覆盖的深度相当于外显子中每个位置上方的短读数的计数。框'a'和'b'表示基因中的区域(位置),其中每个轨迹有3个或更多读数。3×以3×的覆盖范围是基因内的'a'和'b'的比例(显示在左下)。同样,5×以5×的覆盖范围计算为盒子的比例,每个轨迹有5个或更多读入基因(在右下方显示)

全球覆盖和不同种群间的差异

使用1000基因组计划(1KGP)第3阶段的外显子组,我们计算了每个基因在8个不同深度上的覆盖宽度——5x、10x、15x、20x、25x、30x、50 x和100x [14.]。我们使用了两组映射到两个人参考基因组装配的对齐文件:GRCH37和GRCH38。Wescover.显示1KGP中突出的覆盖范围的平均宽度,以及1KGP中的最小值和最大值。Wescover.还为1KGP中的5个人群中的每组中每组的平均覆盖范围提供了平均覆盖范围:非洲(AFR),美国(AMR),东亚(EAS),欧洲(EUR)和南亚(SAS)。每种群体可以在基因组中具有不同的序列背景,这影响了极端捕获效率,并反映在覆盖范围和深度的范围内。提供单向ANOVA测试,KOLMOGOOROV-SMIRNOV测试和TUKEY诚实显着差异测试的统计数据,以比较人口中覆盖范围的平均宽度。

为了使覆盖数据覆盖较大的展开和多样化的exome捕获套件,我们在GNOMAD版本2.1中使用了125,748个展开的覆盖范围。然而,由于缺乏个性覆盖数据,我们无法计算Gnomad Exomes的覆盖范围。相反,GNOMAD提供了覆盖摘要,每个轨迹在给定的读取深度上的样品的比例,我们利用的是为了可视化基因覆盖范围的深度和程度(图。2d)。

图2
figure2

查询接口和输出Wescover.一个用户查询的初始屏幕。用户可以直接指定感兴趣的基因('基因符号')。否则,表型('GTR表型'或'HPO表型')或基因面板测试名称('GPT名称')可用于搜索相关基因。最后,需要选择在计算覆盖范围内使用的预期覆盖水平(“覆盖深度”)和人类基因组参考组装版本(“人参考基因组装配版本”)。b所选基因的结果摘要屏幕。单击“详细信息”按钮(在“禁令”列下)打开一个窗口,其中包含更多的信息,如每年级别的覆盖范围,其在不同种群的分布(c),来自Gnomad Exomes的覆盖价值(d),群体的差异以及包括所选基因的转录物的基因面板列表。c小提琴图显示了五个大陆群体中的每一个中的1KGP溢出的覆盖度量的分布。黑色水平线表示Gnomad Exomes的全局平均值。d覆盖图(上部)显示了来自该基因的GNOMAD Exomes的每基因座覆盖度量。Per-Locus覆盖度量值显示在5倍(红色)到100x(蓝色)的各个级别。基因的转录物显示在覆盖图下方:用于未翻译的区域和外显子的深蓝色块的浅蓝色块。为了突出外显子的覆盖范围,内含子将缩小到相同的长度。保持外显子的长度。即使选择了单个CCDS ID,它也可以显示基因的多个转录物

基因面板测试作为WES的替代品

我们收集了国家卫生遗传检测登记处(GTR)中列出的注册遗传测试[15.]告知用户可用的遗传测试。此外,Wescover.使用户可以通过整合相关的人类表型本体(HPO)术语来查询表型以列出候选基因[17.]对于来自GTR的每个遗传测试。首先,在GTR的临床和研究中共有59,928个遗传测试(最后一次访问2月28日th,2021年)编制了Wescover.,包括32,390克拉亚认证的。总共6,097个诱导的疾病相关基因与一个或多个注册试验相关联。

结果

利用GTR或HPO中列出的表型、GTR中的基因检测名称与基因之间的关系,我们使用R Shiny package [18.]。初始查询界面允许用户输入表型、基因检测名称(从GTR网站检索)或感兴趣的官方基因符号(图1)。2一种)。表型可以在GTR中列出或来自HPO的标准术语。它还提供了目标深度的选择:5倍,10x,15x,20x,25x,30x,50x和100x。作为默认选择,我们使用覆盖范围> 20x的覆盖范围 - 足以达到检测单个核苷酸变体的99%敏感性的阈值[19.]。最后,用户还可以选择人参考基因组装配版本:GRCH37和GRCH38(最新)。对于匹配查询的每个基因,覆盖范围的全局均值以及其最大值和最小值的平均值以全局方式的升序显示在表中(图。2b)。我们还执行单向分析方差,以测试群体覆盖范围之间的差异,并在此表中报告测试统计信息和p值。每行末尾的按钮打开一个窗口,包含有关基因覆盖范围的进一步细节。小组首先显示了一张表格,其中覆盖范围的平均覆盖范围是由非洲大陆群体分层的。第二个标签显示由群绿群分层的覆盖范围的小提琴图(图。2c).我们还提供了平均gnomAD覆盖度量(即,在每个基因位置X读深度上样本的平均分数),用于与1KGP外显子组的比较。尽管平均gnomAD覆盖度量根据不同外显子组平台上更大范围的样本度量不同的值,但它与平均覆盖宽度很好地相关(参见附加文件1)。根据gnomAD覆盖率数据,所选基因每个基因组位置的覆盖率图在小提琴图旁边显示(图1)。2d)。此外,我们提供了两对群体之间的差异测试的两个结果:Kolmogorov-Smirnov测试以比较累积分布和Tukey对手段成对比较的诚实显着差异测试。最后,小组报告了涉及该基因的所有遗传测试。两个项目,1kGP和GNOMAD的覆盖不足应通知用户候选基因可能不充分覆盖WES,并且应考虑靶向基因面板测试以最大限度地减少潜在的假阴性。

我们进一步调查了每个基因座靶深度和人参考基因组组装版本的覆盖范围的分布(图。3.)。全球平均盖度20 ×的基因中位数为93.3%;即对于大多数CCDS基因,93.3%的基因被平均20个或以上的外显子组所覆盖。部分由于1KGP外显子组中捕获外显子组目标的旧设计,覆盖的广度值Wescover.最好是作为下界。尽管不同的CCDS版本之间存在差异,但在不同的基因组组装版本之间的分布趋势是一致的。值得注意的是,基因非常低(< 10%)的意思是广度覆盖观察在所有情况下,即使在低深处如5×10倍,这表明外显子组捕获目标1 kgp并未涵盖所有基因和外显子的ccd用于发布Wescover.。通过从Gnomad Exomes检查覆盖度量值,可以容易地识别这些基因。如果基因被最近的最终数据充分覆盖,则Gnomad Exomes之间将具有良好的覆盖值。因此,Wescover.显示在基因外显子上的平均Gnomad覆盖度量和覆盖曲线。我们鼓励用户检查具有次优覆盖范围的基因的GNOMAD浏览器Wescover.在致力于基因面板测试之前。

图3
图3

不同目标阅读深度和基因组组装版本的平均覆盖广度分布。y轴表示每个基因在1KGP外显子组上的平均覆盖宽度。每个箱线图代表所有CCDS基因在5到100x读取深度上的分布。在每个阅读深度,每个基因组组装版本(GRCh37和GRCh38)的值分布显示为单独的箱形图。基因的总覆盖广度水平在5 ×时最高,随着阅读深度的增加而减小。在相同的读取深度水平下,观察到的基因组组装版本之间的差异很小。箱区较低的尾部——特别是5 ×或10x的低读深度——表明基因在大多数1KGP外显子组中覆盖的广度较差

利用有两个限制Wescover.。首先,覆盖值的广度(以及Gnomad覆盖度量)未归一化为通常有助于诸如序列上下文和GC内容的极端覆盖的因素。这些因素在基因之间广泛变化,并与另一种基因的值的比较超出了拟议的使用Wescover.。第二,Wescover.侧重于覆盖范围的基因级广度,并不提供搜索基因内的特定变体和地区的方法。

结论

WES和WGS提供了不同条件下不同类型基因组变异的综合评估。然而,用户必须被告知可能的错误的阴性结果,由于不完全的广度和深度的覆盖,最好是来自测序供应商。在这种情况下,一个目标基因面板测试应该被认为是首要的选择。Wescover.可以指导用户确定WES是否适合测试感兴趣的基因。考虑到许多实验室,尤其是临床检测设施,从之前的基因组构建过渡缓慢(GRCh37),Wescover.支持GRCH37和GRCH38的覆盖摘要。与GTR的信息一起提供透明和综合的遗传测试列表,具有适应症,用户可以在在在临床环境中排序遗传测试之前对测试基因进行明智的决定。

可用性和要求

项目名称:Wescover。

项目主页:欧宝直播官网apphttps://tom.tch.harvard.edu/shinyapps/wescover/

项目源代码:https://github.com/bch-gnome/WEScover

操作系统:平台无关。

编程语言:闪亮。

其他需求:Wescover.要求以下R包:闪亮的ShinyThemes.DT.ggplot2.Shinyjs.shinyBS重塑2.rcolorbrewer.FST.data.tablewiggleplotr拼凑而成ggpubr.dplyr.corrplot

许可协议:麻省理工学院。

对非学者使用的任何限制:没有。

可用性数据和材料

从1000个基因组计划(GRCh37或GRCh38)中获得的大洲水平人群分层的覆盖广度数据可供下载https://tom.tch.harvard.edu/shinyapps/wescover/在“数据”标签下。

缩写

WES:

全外显子组测序

WGS:

全基因组测序

Gnomad:

基因聚合数据库

GTR:

基因检测登记处

ccd:

共识编码序列

1 kgp:

1000个基因组项目

HPO:

人类表型本体

参考

  1. 1。

    Stavropoulos DJ,Merico D,Jobling R,Bowdin S,Monfared N,Thiruvahindrapuram B,Nalpathamkalam T,Pellecchia G,Yuen RKC,Szego MJ等:全基因组测序扩大了诊断效用,提高了儿科医学的临床管理。NPJ Genom Med 2016,11。

  2. 2。

    关键词:癫痫,新一代测序,临床,诊断JAMA神经。2014;71(5):650 - 1。

    文章谷歌学术搜索

  3. 3.

    Chong JX, Buckingham KJ, Jhangiani SN, Boehm C, Sobreira N, Smith JD, Harrell TM, McMillin MJ, Wiszniewski W, Gambin T, et al.;孟德尔表型的遗传基础:发现、挑战和机遇。[10]张建平。中国生物医学工程学报。2015;

    CAS文章谷歌学术搜索

  4. 4.

    Kong SW,Lee Ih,Liu X,Hirschorn Jn,Mandl Kd。临床背景下全外序列测量的覆盖和准确性。Genet Med。2018; 20(12):1617-26。

    文章谷歌学术搜索

  5. 5。

    Meienberg J, Zerjavic K, Keller I, Okoniewski M, Patrignani A, Ludin K, Xu Z, Steinmann B, Carrel T, Rothlisberger B等。对人类全外显子组捕获平台性能的新见解。核酸杂志2015;43(11):e76。

    文章谷歌学术搜索

  6. 6。

    Wang Q, Shashikant, Jensen, Altman, Girirajan等。一种新的外显子组测序覆盖度量方法。Sci众议员2017;7(1):885。

    CAS文章谷歌学术搜索

  7. 7。

    王L,张俊,陈,王L,张F,MA Z,Li G,杨L:全外肢体和靶向面板测序在临床分子诊断中的应用继承视网膜营养不良和比较研究。基因(巴塞尔)2018,9(7)。

  8. 8.

    Cho A,Limadecarvalho JR,Tanaka Aj,Jauregui R,Levi SR,Bassuk AG,Mahajan VB,Tsang Sh。基础指导的基因检测重新评估消极的全外膜测序结果。orphanet j罕见dis。2020; 15(1):32。

    文章谷歌学术搜索

  9. 9.

    Gorokhova S,Cerino M,Mathieu Y,Courrier S,Designes JP,Salgado D,Beroud C,Krahn M,Bartoli M.比较针对神经肌肉疾病的遗传诊断遗传诊断的目标。Appl Transl Genom。2015; 7:26-31。

    文章谷歌学术搜索

  10. 10。

    Van Nimwegen KJ,Van Soest Ra,Veltman Ja,Nelen Mr,Van der Wilt GJ,Vissers Le,Brutters JP。在我们思考时,是1000美元的基因组吗?下一代测序的成本分析。Clin Chem。2016; 62(11):1458-64。

    文章谷歌学术搜索

  11. 11.

    Niazi R,Gonzalez Ma,Balciuniene J,Evans P,Sarmady M,Abou Tayoun An。exoMeslicer的临床基于外壳的面板的开发与验证:使用癫痫面板的考虑和概念证明。J Mol Diagn。2018; 20(5):643-52。

    CAS文章谷歌学术搜索

  12. 12.

    Ebbert MTW,Jensen Td,Jansen-West K,Sens JP,Reddy JS,Ridge PG,Kauwe JSK,Belzil V,Pregent L,Carrasquillo MM,等。对黑暗和伪装基因的系统分析显示出掩藏在透明的疾病相关基因。基因组Biol。2019; 20(1):97。

    文章谷歌学术搜索

  13. 13。

    Lek M,Karczewski KJ,Minikel ev,Samocha Ke,Banks E,Fennell T,O'Donnell-Luria啊,Ware JS,Hill AJ,Cummings BB等。60,706人的蛋白质编码遗传变异分析。自然。2016; 536(7616):285-91。

    CAS文章谷歌学术搜索

  14. 14.

    1000个基因组项目财团,Auton A,Brooks Ld,Durbin RM,驻军EP,Kang HM,Korbel Jo,Marchini JL,McCarthy S,McVean Ga等:人类遗传变异的全局参考。自然2015,526(7571):68-74。

  15. 15.

    Rubinstein WS, Maglott DR, Lee JM, Kattman BL, Malheiro AJ, Ovetsky M, Hem V, Gorelenkov V, Song G, Wallin C等:NIH基因检测登记:一个新的、集中的基因检测数据库,使人们能够获得全面的信息并提高透明度。核酸研究2013,41(数据库版):D925-935。

  16. 16。

    Pruitt KD,Harrow J,Harte Ra,沃林C,Diekhans M,Maglott Dr,Searle S,Farrell Cm,Loveland Je,Ruef Bj等。共有编码序列(CCD)项目:鉴定为人和小鼠基因组设定的常见蛋白质编码基因。Genome Res。2009; 19(7):1316-23。

    CAS文章谷歌学术搜索

  17. 17。

    Kohler S, Doelken SC, Mungall CJ, Bauer S, Firth HV, Bailleul-Forestier I, Black GC, Brown DL, Brudno M, Campbell J:人类表型本体项目:通过表型数据连接分子生物学和疾病。核酸res 2014,42(数据库问题):D966-974。

  18. 18.

    Web应用程序框架R. R包1.3.2版本。(https://cran.r-project.org/package=shiny.]

  19. 19.

    Meynert Am,Ansari M,Fitzpatrick博士,泰勒MS。全基因组和外壳测序中的变体检测敏感性和偏差。欧宝娱乐合法吗BMC生物信息学。2014; 15:247。

    文章谷歌学术搜索

下载参考

确认

不适用。

资金

设计的设计Wescover.,稿件的数据收集,分析,解释和写作是由波士顿儿童医院精密链接Biobank和国家健康研究院(R01MH107205,R24OD024622,U01TR002623和U01HG007530)的赠款支持。

作者信息

隶属关系

作者

贡献

IHL和SWK产生了总结的原始覆盖数据广度Wescover.。Web界面应用程序的源代码由WJA,IHL和CHF开发。SWK,IHL,YL和WJA准备了稿件。IHL,KDM和SWK起草了稿件,所有作者都已读过并批准了最终手稿。

通讯作者

对应于SEK WON KONG.

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1

便携式网络图形。1000基因组计划(1KGP)和gnomAD的外显子组覆盖率指标的比较。每个面板显示了基因(基于CCDS版本15)的覆盖指标,通过选择的读取深度(X)测量:X=5x, 10x, 15x, 20x, 25x, 30x, 50x和100x。在每个面板上,X轴代表一个基因(在某个位置具有X或更高阅读深度的基因的部分)平均覆盖超过2504个外显子组。另一方面,y轴显示基因中一个位点(在某个位置具有X或更高阅读深度的gnomAD外显子的比例)的gnomAD外显子的平均覆盖度量。这两个值相关性很好,而gnomAD的度量值往往高于1KGP的度量值。还需要注意的是,部分CCDS基因未被包含为1KGP的外显子组靶区,与gnomAD外显子组(点x=0)具有良好的度量值(>0.9)。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

李,伊夫。,林,y。,alvarez,w.j。等等。Wescover.:临床全外显子组测序和基因面板检测之间的选择。欧宝娱乐合法吗22,259(2021)。https://doi.org/10.1186/s12859-021-04178-5

下载引用

关键词

  • 遗传测试
  • 假阴性
  • 报道
  • 全外显子组测序
  • 基因面板测试