跳到主要内容

靶SSR基因分型具有SSR和侧翼区域核苷酸变化的靶SSR基因分型的综合策略

摘要

背景

随着高通量测序技术的广泛应用和成本的降低,简单序列重复测序(SSR)基因分型(SSR- gbs)已被广泛应用于不同领域的遗传数据解释,包括群体遗传多样性和结构分析、遗传图谱的构建、生物信息学和生物信息学。种内关系的研究。为SSR-GBS开发准确和高效的分型策略是迫切需要的,已经发表了一些工具。然而,到目前为止,还没有合适的准确的基因分型方法可以容忍SSRs和侧边区域的单核苷酸变异(SNVs)。这些snv可能是由PCR和测序错误或品种间的SNPs引起的,直接影响序列比对和基因分型的准确性。

结果

在此,我们报告了一种新的综合策略,称为基于靶向测序的精确微卫星基因分型工具(AMGT-TS),并提供了一个用户友好的网络平台和命令行版本的AMGT-TS。为了处理SSR或侧翼区域的SNV,我们开发了一种广泛匹配算法(BMA)这可以快速准确地实现SSR分型,用于超深覆盖和高通量分析SNV兼容的基因座,并对类型化读取进行分组,以便进一步深入信息挖掘。为了评估此工具,我们在8个玉米品种中测试了21个随机抽样的基因座,并在实际和模拟的基础上进行了实验验证我们的评估表明,与其他工具相比,AMGT-TS在纯合和杂合样本的单碱基分辨率下提供了极其准确的分型结果。

结论

该综合策略可以基于靶向测序来实现精确的SSR基因分型,并且它可以耐受SSR和侧翼区域的单核苷酸变化。该方法可以容易地应用于不同的测序平台和物种,并具有出色的遗传和人口生物学研究的应用前景。AMGT-TS的基于Web的平台和命令行版本可用https://amgt-ts.plantdna.site:8445https://github.com/plantdna/amgt-ts,分别。

背景

简单序列重复序列(SSRs),也称为微卫星或短串联重复序列(STRs),在真核生物基因组中广泛存在[1].SSR侧翼的序列可能足够保守,以允许设计特定的扩增引物;因此,SSR可以通过常规PCR扩增进行检测,并根据扩增产物进行分型。大多数SSR是非编码的,因此可以影响基因的表达、剪接、蛋白质序列和基因组结构[23.].SSRs标记通常用于基因组相关研究[45].SSR基因分型在不同领域也得到了广泛的应用,已被用于群体遗传多样性和结构分析、遗传图谱的构建以及种内关系的研究[678].

SSRS的所有应用都是基于精确的SSR基因分型方法,并且较低的准确性可能会产生严重后果[910.].此外,DNA数据库的构建和应用还需要样本的准确SSR基因分型[11.12.].影响精确SSR基因分型的因素包括以下内容:1)聚合酶的可滑动是体外SSR聚合酶PCR扩增的固有,这导致SSR等位基因不正确,并准确地对基因型SSRS挑战;2)SSR或侧翼区域的变化的发生将直接影响基因分型结果(图。1)[13.14.].这些问题都伴随着SSR基因分型技术的发展。该技术经历了最初的凝胶电泳、毛细管电泳、第一代和第二代测序、高通量扩增子测序阶段。目前,扩增子测序技术广泛应用于遗传疾病筛查和基因诊断,以及其他研究[15.16.].然而,仍然没有适当精确的SSR基因分型方法,可以耐受SSR和侧翼区域的核苷酸变化,这可能影响序列对准和基因分型精度。

图1
图1

由SSR或侧翼区域的变异引起的易错SSR分型示意图。以一个具有CAGCC SSR基序的位点为例,对于Seq1(来自参考基因组),其SSR区域明显具有3次CAGCC重复;对于SSR区域G- > a变异的Seq2,常规精确匹配算法将其识别为2个重复,容错算法可识别为3个重复;对于右侧侧翼区域存在T- > C变异的Seq3,侧翼边界算法将其视为3次CAGCC重复,而常规精确匹配算法将其识别为4次重复。在比较不同样品,特别是不同品种时,这种SSR分型的不一致会造成遗传信息的误解

在这里,我们开发了一种新的开源微卫星基因分型策略,包括基于目标测序的精确微卫星基因分型工具(AMGT-TS)和用户友好的网络版本。AMGT-TS具有超深覆盖和高通量的快速精确SSR基因分型能力,包括广泛匹配算法(BMA),可以处理SSR和侧边区域核苷酸变异的情况。我们还通过内部实验室测试和模拟数据测试对AMGT-TS进行了全面评估。结果表明,AMGT-TS可达到近100%的分型准确率。虽然AMGT-TS是在植物上开发的,是我们目前工作的重点,但该方法具有通用性,可以作为一个新的工具应用于许多生物领域。所有已完成的代码、样本数据和文档已提交到GitHub。

实现

AMGT-TS工具设计

AMGT-TS的过程有三个主要步骤来获得准确的基因分型信息(图。1).对于每个样本:首先,读取被映射到其善意的根据参考序列的基因座;然后,SSR区域由基因座的侧翼信息确定;最后,AMGT-TS根据读取信息的解剖获得准确的SSR基因分型结果,例如读数和主SSR键入。

具体来说,在获得原始测序数据(通常为FASTQ格式)后,我们使用FASTX (http://hannonlab.cshl.edu/fastx_toolkit/)以删除低质量的数据。然后,我们使用bwa-mem执行“基因座对齐”处理步骤[17.],根据引用序列文件中位置的读取信息。在这一步之后,读取将被分组到一个轨迹。接下来,皮卡德(https://broadinstitute.github.io/picard/)用于将同一轨迹中的读数分组在一起。同时,SAMtools[18.]用于对数据进行索引,以提高后续处理的效率。接下来,我们使用SAMtools进行“方向分割”,分离正向和反向数据。然后,我们使用SEQTK (https://github.com/lh3/seqtk.)改为“调整方向”,将反转序列转换为正向序列。之后,我们使用BLAST工具[19.[根据参考序列中的SSR区域的左侧和右侧侧序序列的20-BP序列执行“查找SSR区域”操作,以获得每个读取的SSR区域。最后,我们使用Python脚本在SSR区域中“查找SSR键入”以获取SSR键入信息。

这里,作为AMGT-TS处理工作流程的示例,在图2中为结果1和2提供了两个实际的实验数据集。2.对于结果1,示出了显示B73(玉米模型各种玉米)轨迹S4121的agaga * 6的SSR基因分型结果(图。3.).我们使用了AMGT-TS Web平台(https://amgt-ts.plantdna.site:8445/)生成读取的对齐图。该平台将读取文件分组以对准图4中的堆序列。3.,显示分类对齐的结果。每条线是一个读取,黄色背景区域是被键入的SSR区域。基因型恰好是5个碱基的六个重复。对于结果2,轨迹S17883的键入结果显示在附加文件中1:表S1。发现了128.20%的读取的SSR长度为12(ATA * 4),因此我们可以获得结果ATA(4,4)(玉米是二倍体植物,因此每个轨迹有两种等位基因)。此外,我们获得了轨迹S691405的AGG(4,4)的SSR键入结果。最后,第三基因座的基因型(S838417)是纯合型CTC(5,5),其是15bp长重复,相应的读数占总读数的98.70%。总的来说,AMGT-TS的打字策略是清晰令人满意的。

图2
figure2

AMGT-TS的处理流程。绿色条:读取轨迹1(L1),蓝色条:读取轨迹2(L2),橙色条:读取轨迹3(L3)。灰色条表示读取质量低。实心箭头表示流程中的逐步操作。虚线箭头表示相应步骤引用的数据信息。颜色栏中指向右侧的白色小箭头表示正向序列,而指向左侧的白色小箭头表示反向序列

图3
图3

读取轨迹S4121的对准B73的MOTIF AGAGA重复六次(30bp的SSR区域;黄色背景)

评估键入错误

打字错误可以用两种方法测量。一个是SSR分型的假阳性率,另一个是正确分型结果的误读率。等式(1)可以获得,在哪里j代表轨迹的索引,K.代表键入索引,和Ramgt.(j,k)代表了读的读K.- 打字的j- 来自AMGT-TS的轨迹。

$$ {\ text {sum}} \; {\ text {}} \; {\ text {r}}}}} = \ mathop \ sum \ limits _ {{\ text{j}} \ mathop \ sum \ limits _ {{\ text {k}}} {{\ text {r}}} \ lef({{\ text {j}},{\ text {k}}} \右)$$
(1)

年代ra.表示从人工数据和读取的总和ER.表示读取的错误。等式(2)可获得如下信息:

$ $ E_ {r} = \压裂{{{文本\{年代}}_ {{{{ra \文本 }}}} { } - { }\ mathop \总和\ nolimits_{{\文本{j}}} \ mathop \总和\ nolimits_{{\文本{k}}}{\文本{R}} _{{{文本\ {amgt}}}} \离开({{\文本{j}},{\文本{k}}} \右)}}{{{{年代}\文本}_{{{文本\ {ra}}}}}} $ $
(2)

同样地,,ET.代表键入错误,T一个表示人工数据的键入和Tamgt.表示从AMGT-TS的正确键入结果计数。等式(3.)可获得如下信息:

$$ e_ {t} = \ frac {{{{\ text {a}}} {{\ text {a}}} {} - {} \ mathop \ sum \ nolimits _ {{\ text {j}}}}}}}}}}}}} {\_ {{\ text {amgt}}}}}左({\ text {j}} \ = {{\ text {t}}} {{\ text {t}}} {{\ text {a}}}}} $$
(3)

精确和广泛的匹配算法

为了记录SSR分型的高准确性和SSR和侧翼区变异的耐性,我们分别开发了两种不同的算法,精确和广泛的匹配策略(图。4).精确匹配的分析策略分为三个步骤。第一步是“分组”。对于多层扩增子测序数据,首先根据参考序列分配测序读取到相应的基因座。AMGT-TS使用BWA-MEM实现数据映射。第二步是“SSR边界确定”。在提取每个基因座的序列后,AMGT-TS在参考序列中使用每个基因座的SSR区域的侧翼序列,以确定左侧和右侧侧序的边界,其间接地确定SSR区域的边界并进一步提取通过呼叫爆炸来序列SSR区域。第三步是“SSR基因分型”。在确定了SSR序列之后,通过使用重复序列的精确匹配方法来确定SSR的重复数量,并且SSR重复长度用于命名SSR基因型。 For example, the motif of a certain SSR was ATC, with a repetition number of three times, so the SSR was named SSR9.

图4
装具

精确和广泛匹配策略的不同方法。左侧的箭头指向精确方法的结果,以及右边的方法。我们可以看到READ1和READ3的基因分型是相同的,但不是read2。对于SSR区域中存在变体,精确的方法只能识别2个基序重复,而广泛的方法可以识别5个重复

广泛的匹配算法(BMA)具有与精确匹配算法相同的第一步。然而,在第二步中,BMA直接处理BAM文件的信息,并使用Charise Itioyncratic覆盖对准报告(雪茄)信息,每个读取掩码分类信息,这使得它与某个错误范围内的变化兼容在更好的容错分类信息中。如图1所示。4,SSR图案表示SSR区域中的重复单元。SSR区域表示SSR序列所在的区域。例如,当SSR的序列是AGCAGCAGC时,SSR图案是AGC,SSR区域是AGCAGCAGC。精确匹配仅识别连续的图案,因此在读取2中,只有最后10个BP被标识为两个复制。读3只有一个主题重复。对于广泛的匹配,鉴定的结果与精确匹配的结果相同,除了读取1,这是一个完全重复的序列;为其他两个读数获得了不同的结果。对于读取2,当两种红色碱被认为是两个SNP时,获得5个矩阵的重复。对于读3,当该区域被认为是indel时,是图案被认为包含3个重复的图案。

AMGT-TS的模拟试验

为了更好地模拟不同的情况,每次读取分为五个部分(附加文件)1:图S1)。在我们的模拟中考虑了5个不同类别的读,命名为A到e类。这些数据的具体生成方法如下:

  • A类:我们根据S17883主题的3个重复创建了SSR_Region。然后将参考序列SSR_region的左右两侧序列分别添加35 bp为Flank_L和Flank_R。最后,我们在左侧的侧翼和右侧的一个SNP添加了一个SNP。这个数据集有2000个人工读数。

  • B类:根据5个motif (AGCT)和6个s423645 motif重复序列,构建了SSR_Region。然后将参考序列SSR_region的左右两侧序列分别添加35 bp为Flank_L和Flank_R。这个数据集有1000次人工读取。

  • C类:我们根据图案(CGCAT)的4个重复的4个重复创建了SSR_Region(CGCAT)和图案的3个重复(CGCAT)+ CACAT + 2个重复的图案S566749。然后将参考序列SSR_region的左右两侧序列分别添加35 bp为Flank_L和Flank_R。这个数据集有2000个人工读数。

  • 类D:在该类型的SSR_Region中,Flank_L和Flank_R也是随机基。加入Random_L和Random_R,将总长度随机扩展至180 ~ 220 bp。这个数据集有1000次人工读取。

  • 类E:规则与类A相同,但该数据集有2000次人工读取。Random_L和Random_R为随机碱基,总长度随机扩展至180 ~ 220 bp。

A到C组合的类包含总共8000个读数。random_l和random_r区域是随机基础,总长度随机扩展到180〜220 bp。A到D组合的课程包含总共9000个读数。A类到D类的质量信息标记为最高。C类的质量信息标记为最低。对于读取编号规则,编号分为三个段。第一段是固定的:@bmstc(北京玉米种子测试中心),代表人工序列。第二段是类别信息,使用1,2,3,4和5分别表示a,b,c,d和e。第三个是序号,从每个类别中的1开始,以当前类别中的最大条目结尾。创建了10,000次读取后,将它们随机分发给FASTQ文件。

软件和包依赖关系

AMGT-TS在Ubuntu Server 14.04.4 LTS上验证了18.04.2 LTS。AMGT-TS依赖于各种工具,包括Bamtools(v2.5.0)[20., BLAST工具套件(v2.6.0 +) [19.],BWA(V0.7.17-R1188)[17.],FastX_Toolkit(v0.0.13),Picard(v2.15.0),samtools(v1.3.1)[18.]和seqtk(v1.2)。AMGT-TS中使用的Java版本是OpenJDK1.7。Python版本为2.7 +。Python需要Pandas,可以使用pip安装。

AMGT-TS实施细节

AMGT-TS在Linux上运行,Ubuntu 18.04已经过测试。从GitHub下载代码后,用户需要按照README.md文件中的说明安装依赖组件。launch.sh中的ENV_FILE变量指定配置文件的位置。在配置文件中,用户必须配置相应的组件位置。目标测序样本文件放在“working/00_fastq”目录中。在配置文件的目录“REF_DIR”下是每个轨迹的参考序列文件信息。配置此信息后,用户可以执行launch.sh文件来运行该工具。在运行程序之前,用户可以指定不同的算法:精确算法或广泛算法。当工具完成运行时,将生成一个日志文件。在“working/04_reads”目录中,显示了整个样本的轨迹类型信息。在每个基因座的目录中是当前基因座的类型信息,并读取对应于每个类型的数据。对于每个子EAP读取文件,用户可以使用读取对齐工具进行图形显示。

结果

概述

目前,没有合适的基因分型方法可以达到SSRS和侧翼区域中单个核苷酸变化(SNV)的耐受,这可能是由PCR和品种中的测序误差或SNP引起的,并且可以直接影响序列对准和基因分型精度。如图1所示。1以一个具有CAGCC SSR基序的位点为例,Seq1(来自参考基因组)的SSR区域有3个CAGCC重复;对于SSR区域G- > a变异的Seq2,常规精确匹配算法将其识别为2个重复CAGCC,容错算法可识别为3个重复;而对于在右侧侧翼区域存在T- > C变异的Seq3,侧翼边界算法将其视为3个重复的CAGCC,而常规精确匹配算法将其识别为4个重复。在比较不同样品,特别是不同品种时,这种SSR分型的不一致会导致遗传信息的错误分类。

为了解决这个问题,在本研究中,我们开发了一种广泛的匹配算法(BMA),可以快速准确地实现用于UltraDeep覆盖率的SSR,以及使用SNV兼容性的SNV兼容性和分组用于进一步深入的信息挖掘.我们还设计了包含靶向微卫星基因分型的BMA的AMGT-TS工具。下面,我们使用实验数据和模拟数据测试AMGT-TS工具。我们还将AMGT-TS与其他SSR键入工具进行比较,以及流行的商业SSR键入软件,NextGENE。

实验评价

我们使用三种遗传相关的样品来映射50个基因座的基因分型信息(图。5和额外的文件1:表S2)。后代样品的键入结果是在两个父母中发现了100%,表明AMGT-TS的键入结果是精确的,并且AMGT-TS可能对遗传分析有用。此外,我们使用AMGT-TS分析了8个样本的目标测序数据和21个随机采样的基因座,并将结果与​​Resequecing结果进行了比较(附加文件1:图S2,表S3和S4)。在两个实验中,我们比较了在同一位点产生有效数据的位点。如果任何实验在某个位点上没有产生结果,那么该位点就不包括在比较中。在附加文件1图S2,样本中可供比较的位点最少为11个,最多为18个。所有比较位点的结果均100%一致。

图5
figure5

由AMGT-TS检测到的三个示例样本的每个轨迹的等位基因变体。为了评估AMGT-TS工具,给出了用于分析具有遗传关系的三个样品的实例,并选择总共50个基因座以验证遗传关系。这三个样本是Jingke968及其父母Jing724(女性父母)和Jing 92(男性父母)。在视觉上观察遗传兼容性,面板(一个) 和 (B)分别为50个位点的第一等位基因和第二等位基因结果。图中横坐标为50个位点;纵坐标为每个样本的基因分型片段长度(bp)。50个位点100%符合亲缘关系,说明AMGT-TS分析结果准确

模拟数据测试

为了进一步验证AMGT-TS结果的准确性,我们使用人工方法创建了1万reads的模拟靶向测序原始数据。根据来自B73的3个样本位点(s499955、s423645和s996971)的信息,这些数据的平均读长约为200 bp实现,人造读取组成设计在附加文件中1:图S1)。

对于模拟数据,AMGT-TS分析结果显示在附加文件中1:表S5。使用上述计算进行错误率评估,我们获得了ER. = 0 andET. = 0; 换句话说,对于模拟靶向测序数据的分型结果,读取和SSR分型的准确率为100%。如附加文件所示1:表S5, 1000个低质量点被正确过滤,而1000个随机读取没有被识别。此外,精确匹配算法未处理SSR区域的SNPs,仅识别出3个基序重复。然而,广泛匹配算法可以容忍这些SNPs,并鉴定出这些SSRs为6个motif重复,如附加文件所示1:图S3A。然后附加文件1:图S3B显示了侧翼区域snp的情况。广义匹配算法具有鲁棒容错能力。

与其他SSR键入工具进行比较

要确定AMGT-TS的检测精度,我们与其他已发布的SSR键入工具进行了集成的比较,SSRSEQ [21.],MICNESS [22.Chiimp [23.],具有不同的模拟数据集(表1).为了提供一个更合理的比较,我们在三个基础上进行了仿真善意的来自玉米B73 V3参考基因组的基因座(附加文件1:表S6);这3个位点的motif长度不同(3 ~ 5 bp),多态性信息含量不同(PICs)。对于每个轨迹,我们模拟了四种情况(附加文件1:表S7):不变体SSR或侧翼区域(数据集,作为控制),SSR地区一个SNP站点数据集(B),侧翼地区一个SNP站点数据集(C)和一个2 bp删除侧翼地区(数据集D)。有10000在每个数据集读取每个轨迹。经过模拟和ssr类型的每个工具(表1),我们发现SSR-Seq在数据集A到C上表现良好,而在位点与侧翼变体的SSR结合方面表现较差。MicNeSs设计用于筛选完美的SSR位点,在长基序的SSR分型方面表现较差(> 3 bp)。CHIMP在SSR区域与SNP的SSR系结方面表现不佳。在这四种工具中,只有AMGT-TS能够处理所有四种情况;具体而言,该工具在侧翼或SSR区域具有变体的位点的SSR系结方面表现优异。

表1 AMGT-TS与其他ssr分型工具的比较

我们还与流行的商业SSR键入软件,NextGENE进行了比较(https://softgenetics.com/NextGENe.php),使用三组离子洪流排序数据(附加文件1:图S4和附加文件2表S8-S13),包括两个不同玉米品种的杂交种京科968的数据;自交品种京724;以及基因组测序的品种B73。在484个评估的SSR位点中,NextGENe检测到的等位基因中有96%以上在AMGT-TS检测到。相比之下,AMGT-TS仅检测到100多个等位基因(附加文件1:图S4)。手动验证后,我们确认从NextGene结果中缺失的等位基因是由短侧面尺寸引起的:NextgeNe不能在左侧或右侧的5-330 BP处理读数,而AMGT-TS可以。总体而言,这些结果表明,AMGT-TS是精确且能够高度的SSR变体基因分型检测。

讨论

多路复用PCR技术的开发使得可以一次放大多个目标站点。此外,扩增子测序技术的开发使得大规模的高通量SSR打字成为可能。目前,扩增子测序技术广泛用于遗传疾病筛查和基因诊断,以及植物育种[15.16.].本研究突破了传统分型方法的局限性,实现了SSR在单碱基水平上的大规模分型;该方法快速、准确、低成本,可广泛应用于遗传多样性研究、高度精确的基因定位和新品种的分子辅助选择[21.].在这里,我们提出了一种开发新的SSR-SEQ方法的工具,我们证明了一系列具有不同基因组资源可用性的物种的效率。最重要的功能是该工具提供优化轨迹选择和底漆设计的策略。该工具可用于轨迹选择和优点选择。AMGT-TS可以分析三种容易出错和复杂的案例,包括具有太多占SSR类型的某些基因座的案例,其主导SSR类型的读取比率极低,SSR区域内的太多变化。然后,研究人员可以根据AMGT-TS提供的信息将这些基因位视为低质量基因座。通过过滤以上三种类型的信息,可以获得高质量的SSR网站,这对于准确的键入是重要的[910.].因为基因分型数据由简单的核苷酸编码的字符串,不需要或封装在特殊的数据类型,它是更容易使用现有的生物信息学工具执行流水线,从而便于不同实验室之间的数据共享和存储为不同的应用程序在不同的数据库。

AMGT-TS可以在SSR区域没有变化的前提下,使用精确匹配算法准确地获得SSR分类。然而,重复基序的多态性难以确定,会影响SSR检测的准确性。当SSR区域发生变化或由于实验导致碱基发生变化时,AMGT-TS可以使用广义匹配算法来解释SSR区域的变化。AMGT-TS采用的广泛策略不同于其他SSR基因分型软件,如MicNeSs [22.,它还可以根据测序数据识别SSR的基因型,同时可以在SSR区域内进行多达一次的替换。AmpSeq-SSR是一种与AMGT-TS功能相似的微卫星基因分型工具[24.].当AmpSeq-SSR在其中一个中间重复序列中遇到碱基变异的motif重复序列时,结果是鉴定错误,完整的motif重复序列丢失,直接影响基因分型结果。对于AMGT-TS,资源数据可以是FASTA或FASTQ文件,特别是对于FATSQ文件,基于质量的过滤过程不仅可以提高结果的准确性,还可以减少分析时间。AmpSeq-SSR处理的数据仅为FASTA格式,不包含质量信息,无法进行上述优化。

通常,对于超深测序,突出的峰(s)将被认为是善意的SSR基因型。剩余的基因型往往是由扩增口吃或测序误差引起的。将两个LOCI作为示例,如附加文件所示1:图S5。Jing724和Jingke968分别是一种自行玉米品种和来自两种不同玉米品种的杂交品种。因此,预计Jing724和Jingke968中的基因座分别具有一种基因型和两种基因型。如这里所知,Jing724中的S994429基因座和Jingke968中的S677195轨迹分别具有由AMGT-TS检测的一个峰(Tcat * 3)和两个峰(AAG * 4和AAG * 6)。这些结果表明AMGT-TS具有容易容纳放大口吃或测序误差的能力。

以前基于目标测序的工具只能识别连续的SSR主题。他们无法处理SSR区域有变化的情况(可能是由于实验引入的错误)​​[22.24.].而AMGT-TS则可以获得连续的SSR基序序列,处理SSR区域内存在变异的病例,使我们对SSR基因分型的实际情况有一个清晰、直观、全面的了解。AMGT-TS是一个强大的工具,适用于需要SSR基因分型精确知识的应用,如诊断疾病。AMGT-TS具有分类识别的鲁棒性,即使数据中存在少量错误,也不会丢失完整的重复信息。AMGT-TS对BAM文件中的雪茄信息进行分析,进行与SSR区域变异兼容的处理。此外,这两种算法在AMGT-TS中产生的结果不同,在植物品种分类和病害检测方面存在显著差异。因此,可以针对不同的生物领域考虑不同的算法。

结论

总之,BMA和AMGT-TS工具提供了用于精确微卫星的综合策略,用于识别用于SNV兼容性的LOCI的超级覆盖和高通量分析,并将所输入的读数分组进一步深入信息挖掘。随着下一代测序技术的更广泛应用和目前AMGT-TS的应用到不同的测序平台和物种,我们预计AMGT-TS将来将在遗传和人口生物学研究中具有出色的应用前景。

可用性数据和材料

本研究中使用的所有脚本和数据可在https://amgt-ts.plantdna.cn/data/https://github.com/plantdna/amgt-ts

缩写

聚合酶链反应:

聚合酶链反应;

BMA:

广泛的匹配算法

SSR:

简单序列重复

str:

短串联重复序列

SNP:

单核苷酸多态性

AMGT-TS:

基于靶向测序的精确微卫星基因分型工具

图片:

多态性信息内容

雪茄:

简明的特殊缺口对齐报告

参考

  1. 1。

    李永春,李永春,李永春。微卫星基因的结构、功能和进化。生物化学学报2004;21:991-1007。https://doi.org/10.1093/molbev/msh073

    中科院文章PubMed.谷歌学者

  2. 2。

    Martin P,MeanceCeace K,Hill Sa,帽子DW,Moxon er。微卫星不稳定性调节转录因子结合和基因表达。PROC NATL ACAD SCI。2005; 102:3800-4。https://doi.org/10.1073/pnas.0406805102

    中科院文章PubMed.公共医学中心谷歌学者

  3. 3.

    Gymlek M,Willems T,Guilmatre A,Zeng H,Markus B,Georgiev S,Daly MJ,价格Al,Pritchard JK,Sharp Aj,Erlich Y.丰富的短串联对人类的基因表达变异的丰富贡献。NAT Genet。2016; 48:22-9。https://doi.org/10.1038/ng.3461

    中科院文章PubMed.谷歌学者

  4. 4.

    Li J,YE C. Gleditsia Sinensis中微卫星和性别联系标志物鉴定的基因组分析。BMC植物BIOL。2020; 20:338。https://doi.org/10.1186/s12870-020-02551-9

    中科院文章PubMed.公共医学中心谷歌学者

  5. 5。

    Dharajiya Dt,Shah A,Galvadiya BP,Patel MP,Srivastava R,Pagi NK,Solanki Sd,Parida Sk,Tiwari KK。蓖麻(Ricinus Communis L.)的基因组微卫星标记:邻近肌法的鉴定,开发,表征和可转移性。indacrops prod。2020; 151:112461。https://doi.org/10.1016/j.indcrop.2020.112461

    中科院文章谷歌学者

  6. 6.

    Shehata AI, Al-Ghethar HA, Al-Homaidan AA。SSR标记在玉米自交系分子多样性和杂合度分析中的应用。中国生物医学杂志2009;16:57-62。https://doi.org/10.1016/j.sjbs.2009.10.001

    文章PubMed.公共医学中心谷歌学者

  7. 7.

    陈志强,陈志强,陈志强,等。基于简单序列重复标记的水稻品种遗传分化及标记辅助选择研究进展。Crit Rev Food Sci Nutr. 2015; 55:41-9。https://doi.org/10.1080/10408398.2011.646363

    中科院文章PubMed.谷歌学者

  8. 8.

    Dudley Jc,Lin M-T,Le Dt,Eshleman JR。微卫星不稳定性作为PD-1封闭的生物标志物。临床癌症Res。2016; 22:813-20。https://doi.org/10.1158/1078-0432.CCR-15-1678

    中科院文章PubMed.谷歌学者

  9. 9.

    Naish KA, Warren M, Bardakci F, Skibinski DOF, Carvalho GR, Mair GC。多位点DNA指纹图谱和RAPD分析显示niloticus (Oreochromis niloticus,双鱼座:ciclidae)菌株间具有相似的遗传关系。摩尔生态。1995;4:271-4。https://doi.org/10.1111/j.1365-294X.1995.tb00219.x

    中科院文章PubMed.谷歌学者

  10. 10。

    Kretzschmar T, Mbanjo EGN, Magalit GA, Dwiyanti MS, Habib MA, Diaz MG, Hernandez J, Huelgas Z, Malabayabas ML, Das SK, Yamano T.农场级别的DNA指纹图谱绘制了孟加拉国水稻生物多样性,揭示了区域品种偏好。Sci众议员2018;8:14920。https://doi.org/10.1038/s41598-018-33080-z.

    中科院文章PubMed.公共医学中心谷歌学者

  11. 11.

    张永春,匡明,杨文辉,徐红霞,周大勇,王玉琴,冯新安,苏超,王峰。棉花品种DNA指纹图谱初步构建。Genet Mol Res GMR。2013; 12:1897 - 906。https://doi.org/10.4238/2013.january.30.3.

    中科院文章PubMed.谷歌学者

  12. 12.

    Backiyarani S,Chandrasekar A,Uma S,Saraswathi女士MusatransSSRDB(转录组衍生的SSR数据库)——香蕉改良的高级工具。生物科学杂志,2019;44:4。https://doi.org/10.1007/s12038-018-9819-5

    中科院文章PubMed.谷歌学者

  13. 13。

    关键词:深热球菌,嗜热DNA聚合酶,复制滑脱前面Microbiol》2014。https://doi.org/10.3389/fmicb.2014.00403

    文章PubMed.公共医学中心谷歌学者

  14. 14。

    阿南达·G,沃尔什·E,雅各布·杜兰特,卡拉希尔尼科娃·M,埃克特·卡,奇罗蒙蒂·F,马科娃·杜兰特。在人类基因组中,短串联重复序列与微卫星序列具有明显的突变行为差异。基因组生物学进展。2013;5:606-20。https://doi.org/10.1093/gbe/evs116

    中科院文章PubMed.谷歌学者

  15. 15.

    刘D,胡X,江X,高B,WAN C,Chen C.通过扩增子测序表征UNC13D基因的新剪接突变:HLH案例报告。BMC MED GEAT。2017; 18:135。https://doi.org/10.1186/s12881-017-0489-1

    文章PubMed.公共医学中心谷歌学者

  16. 16。

    Lindsey RL,Garcia-toledo L,Fasulo D,Gladney LM,跨克克里替康聚合酶链反应鉴定大肠杆菌,Escherichia Albertii和Escherichia Fergusonii。J Microbiol方法。2017; 140:1-4。https://doi.org/10.1016/j.mimet.2017.06.005

    中科院文章PubMed.公共医学中心谷歌学者

  17. 17

    李H,Durbin R.快速准确的短读对齐与挖洞轮转变换。生物信息学。2009; 25:1754-60。https://doi.org/10.1093/bioinformatics/btp324

    中科院文章PubMed.公共医学中心谷歌学者

  18. 18

    李H,手机B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G欧宝直播官网app,AbeCasis G,Durbin R.序列对齐/地图格式和SAMTools。生物信息学。2009; 25:2078-9。https://doi.org/10.1093/bioinformatics/btp352

    中科院文章PubMed.公共医学中心谷歌学者

  19. 19

    Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, Madden TL. BLAST+:建筑与应用。BMC Bioinf。2009;10:421。https://doi.org/10.1186/1471-2105-10-421

    中科院文章谷歌学者

  20. 20。

    Barnett DW,Garrison Ek,Quinlan Ar,Strömberg,Marth GT。BAMTOOLS:用于分析和管理BAM文件的C ++ API和工具包。生物信息学。2011; 27:1691-2。https://doi.org/10.1093/bioinformatics/btro174

    中科院文章PubMed.公共医学中心谷歌学者

  21. 21。

    Lepais O,Chancerel E,Boury C,Salin F,Manicki A,Taillebois L,Dutech C,Aissi A,Bacles CFE,Daverat F,Launey S,Guichoux E.快速序列的微卫星基因分型开发工作流程。peerj。2020; 8:E9085。https://doi.org/10.7717/PEERJ.9085

    文章PubMed.公共医学中心谷歌学者

  22. 22。

    Suez M,Behdenna A,Brauillet S,GraçaP,Higuet D,Achaz G.CICENCE:基因分型微卫星基因座来自(NGS)的集合读取。Mol Ecol Resour。2016; 16:524-33。https://doi.org/10.1111/1755-0998.12467

    中科院文章PubMed.谷歌学者

  23. 23。

    Barbian HJ, Connell AJ, Avitto AN, Russell RM, Smith AG, Gundlapally MS, Shazad AL, Li Y, bibollett - ruche F, Wroblewski EE, Mjungu D, Lonsdorf EV, Stewart FA, Piel AK, Pusey AE, Sharp PM, Hahn BH。一个自动化的高通量微卫星基因分型平台揭示了野生黑猩猩更大的等位基因多样性。生态另一个星球。2018;8:7946 - 63。https://doi.org/10.1002/ece3.4302

    文章PubMed.公共医学中心谷歌学者

  24. 24。

    关键词:SSR分子标记,基因组分型,SSR分子标记,基因分型核酸Res. 2017;45: e88-e88。https://doi.org/10.1093/nar/gkx093

    中科院文章PubMed.公共医学中心谷歌学者

下载参考

致谢

我们感谢那些在样品收集和技术援助方面帮助我们的人。我们感谢《自然科学研究编辑服务》编辑了这份手稿的英文草稿。

资金

“十三五”国家重点研发计划项目(批准号:2017YFD0102001)。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有发挥作用。

作者信息

隶属关系

作者

贡献

F.W.和J.Z.构思并监督了这个项目。YK.Z,12。X.J.设计了算法。李欣欣、洪宇和李振宇。进行实验并分析数据。YK.Z,12。,H.Z. and X.J. wrote the manuscript with contributions from all authors. All authors read and approved the final manuscript.

通讯作者

对应到赵久然或者Fengge王

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

相互竞争的利益

作者声明他们没有相互竞争的利益。

额外的信息

出版说明

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

附加文件1

图S1.人工读取组成设计;图S2.靶向测序结果的比较和重新排序结果(8个样品/ 21个基因座)。该图显示了AMGT-TS分析的靶标测序结果和重新排序结果(8个样品/ 21个基因座)的比较。横坐标是每个样本的名称。橙色纵坐标表示比较的基因座数。绿色纵坐标表示相同数量的比较基因座。没有比较缺失或不完整数据的基因座。在上图中,请参阅相应的重新排序数据的表S1。对于AMGT-TS分析的目标测序结果的相应数据,请参阅表S2。对于LOCI信息,请参阅表S5;图S3.SSR和侧翼区域的SNP情况;图S4.SSR基因分型结果比较AMGT-TS和Nextgene;图S5.AMGT-TS对两个代表性位点的SSR分型结果;表S1.3个样本位点的基因分型信息;表S2.该表显示了图3的50个基因分型的结果;表S3.图S2的数据-8个样本的重新排序数据;表S4.图S2的数据 - AMGT-TS分析的靶向测序结果;表S5.用精确广义算法分类的模拟数据分析结果;表S6.来自玉米B73参考基因组的轨迹信息进行仿真;表S7.测试SSR键入工具的四种模拟情境。

附加文件2

表S8.利用AMGT-TS对B73中484个SSR位点进行SSR分型表S9.SSR键入484的键入结果在Nextgene中的B73中评估了SSR基因座;表S10.SSR键入484的结果通过AMGT-TS在Jing724中评估SSR基因座;表S11.NextGENe对京724 484个SSR位点的SSR分型结果表S12.SSR键入484的结果评估Jingke968的SSR基因座通过AMGT-TS;表S13.利用NextGENe对京科968的484个SSR位点进行SSR分型。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

霍颖,赵颖,徐丽。等等。靶SSR基因分型具有占SSR和侧翼区域核苷酸变化的靶SSR基因分型的综合策略。欧宝娱乐合法吗22,429(2021)。https://doi.org/10.1186/s12859-021-04351-021-04351-0.021-04351-0.

下载引用

关键词

  • SSR-GBS.
  • 算法
  • 微卫星
  • 基于序列的微卫星基因分型
  • 遗传分析