跳过主要内容

快速和snp感知短读与SALT对齐

摘要

背景

DNA序列比对是大多数高通量测序技术应用中常见的第一步。序列比对的准确性直接影响下游分析的准确性,如变异调用和转录组定量分析;因此,快速、准确地将reads定位到参考基因组是生物信息学中的一个重要课题。传统的DNA读取比对器将读取到线性参考基因组(如GRCh38初级组装)。然而,这种线性参考基因组只代表一个或几个个体的基因组,因此缺乏关于种群变异的信息。这种限制会带来偏差,影响制图的灵敏度和准确性。最近,一些比对者已经开始绘制基因组群体的读图,可以用参考基因组和大量遗传变异来表示。然而,与线性参考比对器相比,能够存储和索引所有遗传变异的比对器在内存(RAM)空间上的成本很高,并且运行时间非常长。从理论上讲,将读取数据对齐到基于图模型的索引(包含所有类型的变体)最终是一个np困难问题。相比之下,只考虑单核苷酸多态性(SNP)信息将降低指标的复杂性,提高序列比对的速度。

结果

该SNP感知对准工具(盐)是一种快速,存储器效率,和SNP感知短读取对准工具。SALT用途5.8 GB的RAM来索引人参照基因组(GRCh38),并采用12.8M UCSC常见的SNP。与国家的最先进的一个对准相比,盐具有相似的速度,但更高的精度。

结论

在这里,我们提出了一个SNP感知比对工具(SALT),它将reads比对到包含SNP数据库的参考基因组。我们使用模拟和真实数据集对SALT进行了基准测试。结果表明,SALT可以有效地将reads映射到参考基因组,并显著提高了准确性。结合SNP信息可以提高阅读对齐的准确性,并可以揭示新的变异。源代码可在以下网站免费获得https://github.com/weiquan/SALT

背景

下一代测序技术的进步对各种生物分析的开放机会,例如细菌和真核基因组的De Novo组装,以及基于偏见组学研究的物种分类[1.].短读对准是各种下游分析,例如变体呼叫的共同的第一步骤[2., RNA丰度量化[3.],和表达数量性状座位(eQTL)分析[4.].

它在医学和种群遗传学中发挥着重要作用。传统的图谱测序仪读取的是一个线性参考基因组,代表一个或几个个体。然而,这种线性参考基因组缺乏群体变异的信息,因此不能反映个体的遗传多样性。

用已知的遗传变异来增加参考基因组,可以缩短供体和参考基因组之间的遗传距离,避免等位基因偏倚[5.].

十多年前,一些短读对齐工具,如BWA[6.,7.],SOAP2 [8.]、和领结[9,10),以有效地将短片段映射到线性参考基因组。通过对Burrows-Wheeler变换(BWT)的适应[11,这些方法可以有效地与线性参考基因组进行比对[12]仅在有限的内存中[13,14].这些比对者通常建立一个单一参考基因组的fm索引,然后使用反向搜索算法的变体来发现参考基因组中的测序reads。然而,参考基因组和测序reads之间的测序错误和基因组变异可能导致错误的比对。对单个人类参考基因组的测序图谱导致了对任意选择参考的固有偏见。

最近,几个变种感知对准已经开发出来。BWBBLE [15]构建扩展参考的FM索引,其将字母从4字母核苷酸代码扩展到16个字母的IUPAC核苷酸代码。vg [16]使用GCSA2 [17]图索引库,用于将遗传变异表示为索引中的双向序列图。

HISAT2修改所述分层索引方案从HISAT来创建分层图表FM-指数,其与GCSA [组合18]使DNA和RNA序列对齐。

与传统的序列比对工具相比,基因组变异感知比对工具可以减少参考基因组和供体基因组之间的差异,从而获得更好的比对精度。然而,存储和索引各种类型的变体的能力需要宝贵的RAM空间,并且将读取对齐到基于图的索引不如传统的对齐器效率高。在所有类型的基因组变异中,单核苷酸多态性(SNPs)的数量大约是其他变异的10倍。

因此,仅对SNP信息进行索引不仅可以提高对齐精度,还可以在低内存需求的情况下实现对齐。

在本文中,我们呈现盐,基于BWT的短读对准器,其包含遗传SNP来增加参考基因组。它可以有效地映射到具有低内存要求的参考基因组。我们在代表已知变化的模拟数据集上有基准盐和具有UCSC公共SNPS的真实排序数据集。结果表明,盐可以比不包含变化信息的对准器实现更高的准确性和灵敏度。此外,盐非常有效地映射短读,并且只有一个小的内存占地面积。我们认为,作为SNP感知读取对准算法的盐具有变体呼叫和其他下游生物分析的巨大潜力。

结果

实现

我们使用SALT将短读与参考基因组和SNP数据库进行比对。它对单端和对端读取执行对齐,并允许多线程。默认输出格式为SAM [19].SALT是在GNU通用公共许可证(GPL)下发布的。源代码可在https://github.com/weiquan/SALT

SALT的性能与最广泛使用的校准工具BWA-MEM(版本0.7.17-r1188)进行了比较。校准仪在两个模拟数据集和两个高通量测序(HTS)数据集上进行测试,以评估其速度、灵敏度和准确性。所有基准测试都是在一台桌面计算机上进行的,该计算机具有32 GB的RAM和一个3.30 GHz的Intel i9-7900X处理器,共有10个CPU内核运行Linux Ubuntu 18.04。

模拟数据集的评价

我们使用Mason2模拟了来自人类基因组GRCH38的400万100名BP和150bp Illumina的读数[20.]SNP突变率为0.1%,indel突变率为0.02%,平均测序错误率为0.4%。我们运行了SALT的两个版本,即SALT.snp和SALT.linear,它们分别使用snp感知索引和线性引用索引进行读取对齐。含snpLV的SALT.snp和SALT.linear延长种子。

表格1.显示100 bp和150 bp数据集的所有对准器的对准结果。盐。sNP我Ndexes human genome reference GRCh38 and 2.9M SNPs (simulated using Mason2 with the default settings). SALT.linear indexes only human genome reference GRCh38. We used the sensitivity, accuracy and running time to estimate the performance of read alignments on simulated datasets. A read is considered to present a perfect alignment (巴勒斯坦权力机构),若其最佳位置在距原坐标4 bp的距离内。给定一个数据集N读取和NN,其灵敏度和精度定义如下:

$$ \ {开始对准}森= \#PA / N \倍100 \%\\度Acc = N / N \倍100 \%\ {端对齐} $$
表1模拟人体数据集的统计数据

关于精度,无论参数,SALT.linear和SALT.snp均大于BWA更准确。其中BWA-MEM不能达到令人满意的序列比对的一个例子示于图。1..盐。sNPdiffers from SALT.linear by no more than 0.01% with the same argument. In the case of the same index, whether the seed has an overlap can lead to a seeding effect of up to 0.09%.

图1
图1

一个例子,线性参考对准器未能实现令人满意的序列对准

关于速度、盐。线性与设置“-r 21”和设置“-r 10”运行比BWA-MEM在所有模拟数据集上更快。

关于内存,SALT的峰值内存使用水平。snp和BWA分别为5.09 GB和5.24 GB。在大多数台式机和笔记本电脑上都有足够的内存。

HTS数据集评估

为了评估实际数据的性能,我们将所有对齐器基准在两个实时数据集上。用Illumina Hiseq 2000(SRA ID:Err037900)测序的四百万100bp读数,并用Illumina Hiseq 2000(SRA ID:SRR1766443)测序为400万148 BP读取,映射到人参考基因组(GRCH38)。

我们运行了两个版本的SALT,即SALT。snp和盐。该方法使用的指数分别包含12.8M UCSC Common SNPs (build 151)和原始fm指数。UCSC普通snp是dbsnp的一个子集,具有至少1%的小等位基因频率(MAF),并被定位到参考基因组组装中的一个单一位置。

SALT在播种阶段采用不同的重叠长度,导致速度和精度存在差异。使用默认设置运行BWA-MEM。

因为在参考基因组中的读取的确切位置尚不清楚,所以我们仅假设读取应该映射到人参考基因组中最相似的位置。因此,读取被认为是完美的对齐(巴勒斯坦权力机构)如果读取和参考之间的编辑距离(包括剪切)小于读取长度的10%。结果显示在表格中2.

表2关于真实人类数据集的统计

在这个评价中,BWA-MEM是最敏感的。两种盐。线性和盐。sNPA.re more accurate than BWA-MEM. With the same argument, SALT.snp is slightly more sensitive and accurate than SALT.linear. As the argumentX增加,SALT.snp和SALT.linear之间的灵敏度和准确性差异减小。

与论点成线性关系\(X = 21 \)是100bp和148 bp实时数据集最快的最快。

关于内存,BWA使用5.24 GB。SALT.snp和SALT.linear都使用5.81 GB。因此,记忆不是BWA或SALT的实际问题;两者都可以在大多数桌面计算机上运行。

讨论和结论

在这篇文章中,我们提出了一个扩充参考基因组的紧凑表示,它结合了人类参考基因组和基因组SNPs。我们提出了一种新的索引来支持snp感知搜索,设计了一种snp感知种子算法,修改了Landau-Vishkin和Smith-Waterman算法来支持snp感知的成对对齐,并实现了一个短读对齐工具(SALT)。SALT是一种基于bwt的短读比对器,包含了snp。对模拟和真实数据的评估表明,基于包含128m UCSC共同snp (build 151)的人类参考基因组的SALT提供了更高的准确性。SALT不输出编辑距离大于读取长度10%的对齐,这导致比BWA-MEM的灵敏度更低。然而,这样的排列更有可能导致错误的排列。尽管在某些情况下,将reads与snp扩增的参考序列进行比对比与线性人类基因组进行比对略慢,但将reads与主要组织相容性复合体(MHC)区域进行比对时,效率要高得多。此外,SALT通过提取基因组变异附近的序列,可以自然地扩展到对跨越更复杂基因组变异的reads的比对,一旦有大型基因组变异数据库可用,SALT的效用将会增加。最后,SALT可以输出数据集中SNP的信息(如SNP ID号),这将简化和改进当前的后对齐处理流水线。

总之,盐是一种快速,内存效率和SNP感知的短读对齐工具。这种方法在显示主叫变异和复杂的变化检测为人口众多的基因组的巨大潜力。

方法

盐的方法概述

一个线性参考基因组和一组SNPs可以通过迭代添加与非参考等位基因对应的边并终止于初始边基因组位点对应的节点来表示为一个图基因组[21].图基因组可以通过沿着图的所有可能路径创建带有k-mers的哈希表来建立索引。然而,为人类基因组构建这样一个基于哈希表的索引通常需要大量内存(例如,对于线性人类参考基因组,> 12gb)。而哈希表的大小可以通过每次采样k-mers来减少xNT,该过程可能会降低种子匹配的数量,这将降低序列对准的准确性和灵敏度。因此,需要压缩的数据结构来索引图形基因组。

Ferragina和曼齐尼首先介绍在2000年该结构通过添加后缀数组(SA)和字符发生(OCC)的数据结构延伸的字符串的BWT表示中的FM-索引数据结构。一个FM-指数是需要大量的内存,并支持一个相当低的搜索时间内搜索文本字符串的压缩表示。我们沿着图的所有可能路径应用基于BWT-改性指数(SALT-index)来索引k聚体。

我们定义在直线参照基因组作为主要的等位基因和等位基因不在线性参照基因组作为替代等位基因的等位基因。无等位基因或与伯等位基因K-聚体可以通过一个标准的线性参考基因组,这就是所谓的CFM-索引构成的FM-索引来索引。在2.2节中,我们表明,k聚体具有替代的等位基因也可以通过FM-指数的变化来索引。因此,我们提出了基于该指数SNP感知比对的算法。

SALT通过以下四个主要步骤实现snp感知的对齐:

  1. 1.

    用这个符号连接SNPs周围的所有基因组序列\ (\ \)生成替代参考;

  2. 2.

    建立初级参考的FM-index,称为CFM-index,以及备选参考的FM-index,称为RFM-index;

  3. 3.

    基于CFM-index和RFM-index生成最大精确匹配(maximum exact match, MEM)种子,并选择候选比对位置;

  4. 4.

    在引用和读取之间执行snp感知的成对对齐,并报告可能的对齐。

索引结构和读取对准的流程图如图4所示。2.

图2
图2.

盐索引构造和读取对齐的流程图

盐指数的构建

SALT实现基于BWT-指数(SALT-指数)和比对算法,以实现快速和敏感的对准相对于参照基因组和一个大集合SNP的读取。相比于其它基于BWT-对准,我们的算法采用指数的两种不同的类型:(1)主参考基因组(PRI-REF),表示所有k聚体而不替代等位基因的四字母FM-指数;和(2)表示k聚体具有替代等位基因替代参照基因组(ALT-REF)的五字母FM-索引。

通过建立初级参考基因组序列的FM-index,对所有没有备选snp的k-mers进行了索引(CFM-index)。为了检索包含备选SNPs的k-mers,我们枚举范围内所有可能的序列([P-k, P + k]\)以SNP网站为中心的参考文献P连接所有的序列\ (\ \),叫做ALT-REF。BWT和OCC建造ALT-REF(字母的大小是5)。的起始位置后缀需要存储在SA SA间隔转换成主参考基因组中的位置坐标,只有采样位置通常存储节省内存空间。然而,储存在传统SA中的位置在主要参考基因组坐标中没有定义。这里,我们在ALT-REF中存储所有后缀的起始位置\ (\ \)在主要参考基因组坐标中的SA中。Alt-REF的索引组合BWT,OCC和修改的SA称为RFM索引。将关于参考的已知变型添加到可以描述为混合索引(Salt-Index)的结构中,该结构包括CFM-Index和RFM-Index。我们证明,与现有的线性参考基因组(GRCH 38)相比,盐指数可以大大改善唯一和完美地映射的读数的分数。盐指数施工过程的流程图如图2所示。3.

图3
图3.

盐指数结构流程图

为了执行snp感知的成对比对,我们使用4位Gray代码对BWBBLE中引入的增强基因组参考上的每个位点的等位基因进行编码[15].格雷码的每一位都与给定的核苷酸相对应,如果给定的核苷酸是这个位点的等位基因,则将其设置为1;否则,它被设置为0。例如,Gray code 0011表示对应位点的等位基因是G和T。

snp感知的对齐通过SALT-index

SALT使用了一种典型的种子扩展策略,对齐算法如算法1所示。

雕像

基于盐指数的snp感知种子

比对过程需要识别所有snp敏感的种子。如果一个SNP不包含在一个种子中,那么可以在cfm指数中找到该种子的候选位置。如果种子确实包含SNP,那么可以在rfm索引(包含所有可能包含SNP的alt序列)中找到该种子。在播种阶段,对于任何不包含任何测序错误或包含已知SNP的种子,我们需要确定其在主要参考基因组中的位置,并将其作为SNP感知的成对比对的候选。我们首先寻找种子s在CFM索引中,获取所有出现的s在主要的参考文献中。然后,我们寻找种子s(见算法2),并得到所有出现的s在替代参考中,。这个altLocateRFM索引的函数以算法3呈现。

贴图
雕像

具有SNP意识的Landau-Vishkin线路扩展

在这一阶段,我们在候选位置对读序列和参考基因组序列进行两两比对,计算两两比对得分,选择得分最高的位置作为最佳比对结果。SALT支持两种成对对齐算法snpLV和snpSW。在snpLV中,编辑距离被用来衡量序列相似性(已知SNPs不增加编辑距离)。

我们采用Landau-Vishkin算法[22],这是一种高效的字符串匹配算法,用于实现snpLV。我们使用四位格雷码对读取序列进行编码,该序列由\ (Q_g \).以类似的方式,以候选位置开始的增强参考基因组中的灰度编码序列由\(T_g\)

递归公式[23为Landau-Vishkin对齐如下:

$ $ \{对齐}开始L_ {d e} = \马克斯{\左\{\{数组}{你}开始L_ {d, e 1} + 1 &{} \四+特性(L_ {d, e 1} + 2, L_ {d, e 1} + d + 2) \ \ L_ {d 1, e 1}和{}\四+特性(L_ {d 1, e 1} + 1, L_ {d 1, e 1} + d + 1) \ \ L_ {d + 1, e 1} + 1 &{} \四+特性(L_ {d + 1, e 1} + 2, L_ {d + 1, e 1} + d + 2) \{数组}\右结束。} \{对齐}$ $
(1)

我们提出了一种snp感知的最长公共扩展(LCE)算法来实现snp感知的Landau-Vishkin对齐(算法4)。

想通

支持SNP的Smith-Waterman校准扩展

我们调整史密斯 - 水工算法[24]以实施snpSW。Smith-Waterman算法的递归公式[24后藤改进[25]对于仿射缺口罚款,如下所示。

$$ \ {开始对准}和{\左\ {\开始{阵列} {LL} H_ {I,J}和{} = \最大\ {H_ {I-1,J-1} + S(I,j)中,E_ {I,J},{F_ I,J},0 \} \\ E_ {I,J}和{} = \最大\ {H_ {I,J-1} -o,E_ {I,J-1} \} -e \\ F_ {I,J}和{} = \最大\ {H_ {I-1,J} -o,F_ {I-1,J} \} -e \\\ {端阵列} \右。} \{对齐}$ $
(2)
$ $ \{对齐}年代开始(i, j) & ={\左\{\开始{数组}{你}和{}\文本{如果Q T[我]= [j]} \ \ b &文本{否则}{}\ \{数组}\结束。} \{对齐}$ $
(3)

在哪里oE分别为间隙开启罚和间隙延长罚;s是替换矩阵,它描述了当序列中的一个字符改变为另一个字符时的替换罚化;s(,J)是对目标序列的替代惩罚T[]和查询序列Q[J]; 和A.B分别是匹配刑罚和不匹配罚款。上面给出的公式可以通过修改替代矩阵来适应SNP感知局部对准。修改后的替换矩阵定义如下:

$$ \ {开始对准} S(I,J)= {\左\ {\开始{阵列} {LL} A&{} \ {文本如果} \四T_G [I] \&Q_G [J] = 1\\ b&{} \ {文本否则} \ {端阵列} \右。} \{对齐}$ $
(4)

在哪里\ \ (T_g [i])\(Q_g[j]\)分别为四位Gray码编码的目标序列和查询序列。为了更有效地实施,SSW库中的替换矩阵[26]修改以执行SNP感知的局部对齐。

其他实际问题

配对结束映射

考虑到击中第一个读数和J次命中了二读,SALT计算它们的距离\ (d_ {i, j} \)

如果两个命中有正确的方向和\ (d_ {i, j} \)正在休息\([最小\ _distance最大\ _distance] \),则SALT报告成对对齐;否则,它将报告一个未配对的对齐。

价值观\(最低\ _distance \)\(最大\\u距离\)读取两端之间的最小距离和最大距离,通常设置为\(u-3\sigma\)σ\ (u + 3 \ \),分别。如果对读未映射,SALT将执行Smith-Waterman对齐[26]在中场休息时为队友准备\([最小\ _distance最大\ _distance] \)

精炼比对

SALT输出映射到snp增强引用的读的对齐。SALT对初级等位基因和备选等位基因考虑相同的惩罚。

然而,一些下游分析基于线性基因组,这需要重新调整所有命中到主要参考。我们提出了一种改进计划(波兰语)来重建所有命中,并使用标准史密斯 - 水曼算法计算最佳对准。重新调整结果以SAM格式存储。

可用性数据和材料

参考基因组GRCh38可在ftp://ftp.ensembl.org/pub/release-84/fasta/homo_sapiens/dna..SNPs可在http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/151Common.txt. Mason2可在https://github.com/seqan/seqan/tree/master/apps/mason2. ERR037900和SRR1766443可从以下网址获得:https://www.ncbi.nlm.nih.gov/sra.

缩写

门店:

新一代测序

SNP:

单核苷酸多态性

arg:

论点

森:

灵敏度

Acc:

精度

Uniq:

独特的

参考文献

  1. 1.

    测序技术——下一代。[j] .自然科学进展,2010;11(1):31。

    中科院文章谷歌学术

  2. 2.

    新一代测序数据体细胞单核苷酸变异调用算法综述。计算机结构生物技术J. 2018; 16:15-24。

    中科院文章谷歌学术

  3. 3.

    Wang T, Peng J, Peng Q, Wang Y, Chen J. FSM:快速可扩展的网络主题发现。方法。2020;173:83 - 93。

    中科院文章谷歌学术

  4. 4.

    王涛,彭Q,刘斌,刘X,刘Y,彭Ĵ,王Y. eqtlmapt:高效置换测试方法快速,准确的eqtl调解的分析。前群体。2019; 10:1309。

    文章谷歌学术

  5. 5.

    基于遗传算法的图基因组排序。基因组医学杂志。2018;19(1):220。

    文章谷歌学术

  6. 6.

    基于burrowwheeler变换的快速、准确的短读对齐。生物信息学,2009,25(14):1754 - 60。

    中科院文章谷歌学术

  7. 7。

    李海峰,李海峰,李海峰,等。生物信息学在生物信息学分类中的应用。arXiv预印本arXiv: 1303.3997

  8. 8。

    李锐,余灿,李勇,林天伟,姚思敏,Kristiansen K,王杰。Soap2:一种用于短读对齐的改进超快工具。生物信息学,2009,25(15):1966 - 7。

    中科院文章谷歌学术

  9. 9。

    Langmead B,Trapnell C,Pop M,Salzberg SL.短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;10(3):25.

    文章谷歌学术

  10. 10.

    Langmead B,Salzberg SL。与Bowtie 2. NAT方法的快速喷射读取对齐。2012; 9(4):357。

    中科院文章谷歌学术

  11. 11.

    布伦斯M,惠勒DJ。块排序无损数据压缩算法;1994

  12. 12.

    费拉吉娜P,曼奇尼G。具有应用程序的机会主义数据结构。摘自:第41届计算机科学基础年会论文集。2000; IEEE,p。390–8.

  13. 13.

    在狭小的空间KärkkäinenJ.快速BWT通过逐块后缀排序。理论值COMPUT科学。2007; 387(3):249-57。

    文章谷歌学术

  14. 14.

    文强议员,林德华,王忠根,宋文强,姚少敏。一种空间和时间有效的构造压缩后缀阵列的算法。Algorithmica。2007;(1):48 23-36。

    文章谷歌学术

  15. 15.

    黄丽娟,黄丽娟,黄丽娟,等。生物信息学)。2013;29(13):361 - 70。

    文章谷歌学术

  16. 16.

    Garrison E, Sirén J, Novak AM, Hickey G, Eizenga JM, Dawson ET, Jones W, Garg S, Markello C, Lin MF,等。变异图工具包通过在参考文献中表示遗传变异改进了阅读图谱。生物科技Nat》。2018;36:875-9。

    中科院文章谷歌学术

  17. 17.

    Sirén J.索引变异图。见:2017第19届算法工程与实验研讨会论文集(ALENEX)。2017;暹罗,13-27页。

  18. 18。

    Sirén J, Välimäki N, Mäkinen V.在基因组研究中的应用路径查询索引图。中国生物医学工程学报。2014;11(2):375-88。

    文章谷歌学术

  19. 19。

    李H,Handsaker B,Wysoker A,芬内尔T,阮Ĵ,荷马N,马斯G,Abecasis欧宝直播官网app G,德宾R.序列比对/地图格式和samtools。生物信息学。2009; 25(16):2078-9。

    文章谷歌学术

  20. 20.

    Holtgrewe M. Mason:用于第二代测序数据的读取模拟器;2010.

  21. 21.

    Rakocevic G, Semenyuk V, Lee W-P, Spencer J, Browning J, Johnson IJ, Arsenijevic V, Nadj J, Ghose K, Suciu MC, et al.;使用基因组图进行快速和准确的基因组分析。51 Nat麝猫。2019;(2):354 - 62。

    中科院文章谷歌学术

  22. 22.

    Landau Gm,Vishkin U.快速并行和串行近似串匹配。j算法。1989; 10(2):157-69。

    文章谷歌学术

  23. 23.

    Leap:带有自定义间隙惩罚的Landau-Vishkin算法的推广。BioRxiv。2017年,133157年。

  24. 24.

    Smith TF,Waterman MS,等。常见分子亚序列的鉴定。摩尔生物学杂志。1981;147(1):195–7.

    中科院文章谷歌学术

  25. 25.

    一种改进的生物序列匹配算法。中华医学会昆虫学分会。

    中科院文章谷歌学术

  26. 26.

    赵M,李W-P,加里森EP,马特GT。Ssw库:用于基因组应用的simd smith-waterman c/c++库。公共科学图书馆一号。2013;8(12):e82138。

    文章谷歌学术

下载参考

确认

我们感谢我们团体成员进行洞察力讨论。

关于这个补充剂

本文已作为《BMC生物信息学》第22卷《2021年补编9:2019年生物本体论和知识库欧宝娱乐合法吗研讨会精选文章:第二部分》的一部分出版。补编的全部内容可在以下网址查阅://www.christinemj.com/articles/supplements/volume-22-supplement-9

资金

基金资助:国家重点研发计划项目(no . 2017YFC1201201, no . 2018YFC0910504, no . 2017YFC0907503);资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有发挥任何作用。

作者信息

从属关系

作者

贡献

WQ设计了索引、种子和扩展的算法,编写了代码,做了所有的实验,分析了结果,并撰写了论文。BL提出了RFM索引的基本思想,并共同设计了索引和种子算法。YW监督研究,提供资金支持并修改论文。所有作者都已阅读并批准了最终手稿。

相应的作者

对应到Yadong王

道德声明

道德认可和参与同意

不适用。

同意出版

不适用。

竞争利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在公布的地图和机构附属机构的管辖权主张方面保持中立。

权限

开放获取本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

全伟、刘博和王,Y。与SALT进行快速和SNP感知的短读比对。欧宝娱乐合法吗22日,172(2021)。https://doi.org/10.1186/s12859-021-04088-6

下载引用

关键词

  • 总会在
  • 结盟
  • SNP-AWEAR