跳到主要内容

脚本注释工具(Transat):用于检索特定于转录物的遗传变异的注释的R包

摘要

背景

一个人的基因发挥RNA转录如何从DNA,因此在将其翻译成蛋白质生成的作用。患者的转录和翻译谱提供了特定标记存在的信息;但是,它不能提供证据该标记是否与响应于治疗剂相关。遗传变异体,例如单核苷酸多态性(SNP),在患病的和一般人群的频率的比较分析可以识别个体患者致病变种。这部分是因为当它们出现在编码区和调控序列的SNP对蛋白质功能和基因表达相当大的影响,分别。因此,一个工具,可以帮助用户获得相应的成绩单等位基因频率是一天的需要。一些注释工具,如SNPnexus和多样化是公开的;然而,没有人可以使用副本ID作为输入,并提供变体的相应的基因组位置。

结果

在这项研究中,我们开发了一个R包,称为转录注释工具(TransAT),它提供(i)用户提供的患者转录ID的SNP ID和基因组位置,以及(ii)全球公众可获得的SNPs的等位基因频率。所有数据元素都被提取、收集并以易于下载的格式显示在两个简单的命令行中。TransAT可在Windows/Linux/MacOS上使用,适用于R版本4.0.4或更高版本。可在以下网址找到https://github.com/ShihChingYu/TransAT可以在R执行页面通过devtools::install_github("ShihChingYu/TransAT", force=T)下载和安装。此后,所有函数都可以通过使用库(TransAT)将包加载到R中来执行。

结论

TransAT是一种新型工具,可为查询的转录本无缝提供遗传注释。这些容易获得的信息将对医生非常有利,帮助他们对特定的药物治疗做出个性化的决定。此外,来自用户选择的全球种族人群的等位基因频率将突出种族的重要性及其对患者致病性的影响。

背景

在疾病症状变得明显之前,转录组分析可以潜在地揭示不同种族样本中疾病的分子前体。基因表达谱和代谢物谱是两种常用的方法,用于揭示构成心血管、代谢、神经退行性疾病流行率和结果基础的分子过程和候选基因[1]和癌症[23.].信使RNA (mRNA)转录本是由DNA产生的,然后被翻译成蛋白质[4.].遗传变异,如单核苷酸多态性(SNPs),已根据其共显性、重现性、位点特异性和全基因组随机分布特征进行了表征[5.],对snp进行详细分析,可以在个别患者中识别致病性snp。这部分是因为SNPs在编码序列中发生时对蛋白质功能有相当大的影响,在调控区域中发生时对基因表达有相当大的影响[6.].因此,SNPs是遗传学研究的理想候选基因,可用于相关性状的功能表征和鉴定。

来自不同种族和疾病人群的SNPs的准确注释,包括基因序列、氨基酸变化、代谢影响、相关疾病和人群频率,可以更好地进行生物学解释。这进一步有助于通过疾病关联研究和差异突变分析发现新的假定遗传因素,以揭示潜在的疾病机制[7.].此外,所述变体等位基因频率提供的疾病相关的变体的分布的理解在参考群体[8.].目前已经有一些SNP注释工具可供公众使用。SNPnexus是一个流行的工具,可以提供编码和非编码变体的详细注释,可以识别潜在的治疗靶点;然而,它需要基因组位置和染色体或contigs作为输入,以描述转录组和蛋白质组的结果。它将变异映射到公开可用的人类变异目录,并获得基因型数据和相应的等位基因频率[9.].类似地,变化的,由我们的研究小组开发的注释工具,作品被接受的基因组位置和等位基因信息作为输入,由此提供用户提供的注释,相应的查询SNP的功能和临床后果[10].到目前为止,还没有工具可以接受转录本id作为输入,并提供变体的相应基因组位置。获得SNPs在转录组中的基因组位置是可能的,但它涉及一系列使用现有在线数据库的数据挖掘步骤,如果手工完成,是一个劳动密集型过程。步骤包括预处理(纠正搜索格式),根据RefSeq ID / UCSC ID搜索相关信息,并将转录本的位置映射到基因组。这些步骤可以以定制的方式串在一起,但一种能够在单一环境中执行所有步骤的工具,将使更广泛的科学家和临床医生可以进行这样的分析。R编程语言能够对复杂数据进行强大的分析和可视化,并被生物医学研究社区广泛使用。尽管存在一些R包可以执行整个管道的某些步骤,但很少有R包可以以全面和可重复的方式执行整个管道。因此,R内的转录本注释包将有利于生物信息学非专业人士,特别是医生。

因此,在本研究中,为了方便获取个人遗传信息,我们开发了一个R包,称为转录注释工具(TransAT),它提供(i)用户提供的患者转录ID的SNP ID和基因组位置,以及(ii)全球公众可获得的SNPs的等位基因频率。所有的输出都以易于下载的格式显示。用户需要使用两个简单的命令行自动进行预处理、数据转换、数据提取和数据可视化,为用户提供所需的所有信息。

患者的转录和翻译谱提供了特定标记存在的信息;然而,它未能提供证据表明该标记物是否与对治疗药物的反应相关[11].一般人群中变种的等位基因频率是进行疾病研究的重要参考点。它提供了证据,是否在疾病人群中,SNP可能潜在致病,基于其与参考人群的偏差程度[1213].因此,一种能够帮助用户获取相应转录本的等位基因频率的工具是当今的需要。TransAT可以很容易地为查询的转录本提供基因注释和等位基因频率,从而为临床医生提供可能帮助他们作出治疗决定的信息。此外,来自不同人群的等位基因频率将突出种族(如果有的话)对患者致病性的影响[14].

实现

TransAT工作流概述

TransAT是在R编程语言中开发的一个包,用于转换RefSeq ID / UCSC ID [1516] ensembl抄本[17],绘制基因组位置,然后分配变异注释。TransAT的概述如图所示。1.其目的是提供一种简化的方式来执行一系列转换和查询变体注释,通过标准化的工作流实现,以简化格式提供可重复的、易于解释的输出。TransAT可用于Windows、Linux和macOS操作系统,可以在r -交互式版本中使用,也可以在后台使用。该包对于R版本4.0.4或更高版本是有效的。所有源代码可在GitHub免费获得(https://github.com/ShihChingYu/TransAT),所有相关资料均载于附加档案1

图1
图1

转录注释工具(TransAT)的工作流程概述。(中间)工作流:依次显示TransAT的每个工作步骤。(左)函数:提供用于后端编程的函数列表,用于执行工作流的每一步。(右)描述:提供简单的描述来解释工作流的每个步骤。cd:编码序列

包内容

TransAT主要包含来自人类的转录组信息(尽管最近增加了对斑马鱼和小鼠基因组的访问;(见下文),并提供氨基酸变化、基因名称、相应的基因组(变体)位置和人类基因组的注释。它从公开的1000个基因组中获取全球不同人群的等位基因频率[18,基因组聚合数据库(gnomAD) [1920.]及台湾生物样本库[21)数据库。1000个基因组第三阶段的数据是由东亚人、美国人、非洲人、欧洲人和南亚人组成的。GnomAD包含来自不同种族人群的123,136个外显子和15,496个基因组的变异,如拉丁美洲人、非洲人、德系犹太人、欧洲人、南亚人和东亚人。TWB由21,695位台湾个体的SNP序列数据和1,517位台湾个体的下一代测序SNP数据组成。

包的构造和功能

TransAT的工作流程(图。1)以RefSeq或UCSC成绩单列表作为输入开始,然后是biomaRt R包中的getBM功能[22].这一步成功地报道了相应的Ensembl转录本ID的基因组位置。然后利用基因组位置检索rsID和群体等位基因频率进行进一步分析。“convert_transcriptID”和“pop_freq”两个函数执行所有步骤,并根据用户需求分别输出中间基因组信息和最终等位基因注释。

函数convert_transcript_id.

convert_transcriptID函数的输入由a.csv表(table .csv)组成1a),其中列包括NCBI RefSeq ID [15单核苷酸在DNA中变化,以及相应的编码序列(CDS)位置。每一行都描绘了每个人的转录信息。Transat也接受.bed格式为输入(附加文件2:表S1)。预处理步骤从用户提供的数据中提取相关信息,并将其适当地提供给后续的每个中间步骤。来自ensemble数据库的人类参考基因数据库(hsapiens_gene_ensembl) [17], NCBI RefSeq数据库的转录本ID与来自Ensembl的转录本ID进行匹配,通过一个名为IRanges的函数(定义用于存储、转换和聚合大量分组数据的类),根据核苷酸位置和Ensembl转录本获得cds。如果需要,用户可以从3,061个选项列表中提取任何注释特性(附加文件3.:表S2),通过在R函数中指定。默认输出参数包括染色体、ensembl -转录-id、HGNC-symbol、基因组位置(开始、结束)、链、外显子id、外显子rank、转录-位置(开始、结束)和refsnp_id (Table)2a).然后利用EnsDb.Hsapiens将CDS位置映射到转录本坐标。v75包,它通过将转录本的第一个核苷酸与基因组配对而连接到Ensembl人类基因组参考(hg37)。这一步报告从人类SNP参考数据库(hsapiens_snp)中获得的每个用户查询的转录本的变异(SNPs)的基因组位置和相应的rsid。命令1显示将转录本ID转换为变体ID(生成基因组位置和等位基因信息)所需的命令行。

表1 Transat包的Input.csv文件
表2 TransAT包的输出表

命令1

convert_transcriptID(userdat,db,biomart_ens = "ensembl",dataset_ens = "hsapiens_gene_ensembl", getBM_attributes_ens = c("refseq_mrna", " ensembl_转录id", "hgnc_symbol"))。

TransAT可进一步提供模式生物(如斑马鱼(Danio Rerio.)及鼠标(亩肌肉).为了从模型生物获得不同的信息,用户需要另外指定@param dat_ens=“drerio_gene_ensembl”对于斑马鱼或@param dat_ens=“mmusculus_gene_ensembl”鼠标,默认为“hsapiens_gene_ensembl”。

函数pop_freq

为了进一步对查询的变异进行优先排序并描述其功能结果,可以使用TransAT的第二个函数“pop_freq”检索变异注释和基于基因的注释,以及来自全球不同正常群体的等位基因频率。这种注释通过识别感兴趣的重叠区域来帮助阐明变量。这个函数可以直接使用(不需要经过转换步骤),这取决于用户的偏好。对于后者,即为获得预先选择的变体列表的注释,用户需要导入一个.csv文件,包括基因组位置、参考和替代等位基因的信息(表1b)。用户可以选择1000个基因组[18),材质(21,和/或gnomAD [1920.使用简单的规格,如“db_1000Genomes_5pop_freq”、“db_TWB_GWG_freq”(全基因组阵列)、“db_TWB_NGS_freq”(全基因组NGS)、“db_gnomAD_exome_freq”(全基因组)或“db_gnomAD_genome_freq”(全基因组),默认为db_gnomAD_exome_freq。一旦命令行被执行,用户将被提供参考等位基因和从他们感兴趣的种群中每个变体的候补等位基因频率(表2b),以及所有亚种群的MAFs分布图,用于查询的变体(附加文件)4.:图S1)。Transat从MySQL连接和检索人口数据(https://dev.mysql.com/doc/refman/8.0/en/creating-database.html),通过dbConnect和dbGetQuery函数。TransAT还提供详细的功能基因注释,从ANNOVAR导入。命令2显示了使用pop_freq函数获取所需注释所需的命令行。

命令2

pop_freq(userdata,pop =“db_gnomad_exome_freq”)。

结果

程序安装

TransAT是R系统中的一个开源软件包,是专门为转录本转换和注释而设计的。该软件包可从R档案综合网络公开获得,网址为http://CRAN.R-project.org/.TransAT可以通过在R执行页面上的devtools::install_github("ShihChingYu/TransAT", force=T)自动下载和安装。此后,所有函数都可以通过使用库(TransAT)将包加载到R中来执行。

例:胰腺导管腺癌患者

为了说明TransAT是如何工作的,我们将其用于先前研究中报道的来自胰腺导管腺癌(PDAC)患者的转录本id示例集[2324].PDAC总是致命的,5年生存率很低。一线化疗和免疫治疗对大多数患者无效。靶向治疗可以作为一种替代治疗策略,以提高临床应答率。PDAC可以是散发的,也可以是遗传的[25].散发型是体细胞基因组,遗传和表观遗传改变的综合作用,具有环境因素的遗传型,构成所有PDAC患者的约5%-10%,是由种系基因突变引起的[26].因此,深入研究潜在的遗传学将有助于识别PDAC的危险因素。一旦从患者样本中获得候选转录本,进行分析的一种潜在方法是(i)通过将转录本映射到基因组,验证与各自参考序列相关的内含子变异,(ii)获取变异的等位基因频率及相应的基因突变信息进行下游分析,如关联检验或生存分析。TransAT为用户提供了方便,工作流可以根据用户的要求在两个独立的部分(转录本转换和映射,以及变体注释)中执行。

将转录本转换为变体

An input (.csv) file with two columns, column 1 with the RefSeq ID (e.g., NM_005359) or UCSC ID (e.g., uc010xdp.2) and column 2 with nucleotide changes along with the CDS position (e.g., A947G, where A->G is the nucleotide change and 947 is the CDS position), is imported. Each row of the input.csv/.BED file should depict each patient transcript (Table1a,b)。然后,函数“convert_transcriptId”需要用默认选项或用户选择选项在R(命令1)中执行。为了说明转基因分子中的转录物的映射,我们从3名PDAC患者中选择了转录物(表1A,B),例如,表格2A显示输出文件,向用户提供文本的详细信息和相应的变体信息,以及它的基因组位置和基因名。变体细节是必要的,因为它们允许用户获得进一步的注释信息和识别致病变体。结果显示,来自3名PDAC患者的转录本被映射到一种变体SMAD4(转录物:NM_005359)23和。的两个变体BRCA2(转录物:NM_000059)[24].转录本NM_000059在两例患者中均发现,均属于基因BRCA2;然而,由于拼接,它们被映射到不同的基因组位置,从而导致两种不同的变体。累计的遗传改变在PDAC的肿瘤内发挥着重要作用,以及几种体细胞突变SMAD4BRCA2已被发现在PDAC的肿瘤发生中发挥重要作用[2427].此外,研究已经注意到,可选剪接的失调从单一转录本产生功能多样的蛋白质异构体,是癌症的基础,也是新的治疗靶点的来源[2829].总的来说,将转录本定位到属于候选基因的变异对临床结果的下游分析是必要的。

全球群体的等位基因频率

一旦获得了基因组位置,用户可以使用命令2从全球不同人群中选择获得各自变异的等位基因频率。表格2B显示3个变异的等位基因频率(一个来自SMAD4和两个从BRCA2)从gnomAD亚群(从整个外显子群),如美国人(AMR)、非洲人(AFR)和德系犹太人(ASJ)民族人口。每一行显示一个变体的信息。人群中等位基因的频率是一个基本数量,是种族特异性医学遗传学研究的基础[30.31].额外的文件4.图S1显示了3个变异的MAFs在gnomAD外显子组数据库中所有亚群的分布。等位基因频率的群体差异揭示了snp与疾病致病性的相关性,而群体特异性病例-对照关联研究可以量化受影响(病例)和未受影响个体(对照)之间等位基因频率的差异。识别PDAC患者的人群特异性变异可能最终有助于靶向治疗的发展。

此外,基于基因的注释(从ANNOVAR导入)[32]提供给用户,以获取相关的功能信息。表格2b显示所有三个变异都是外显子(funcc . knowngene),具有相应的基因名称(gene . knowngene)和外显子功能(exonicfuncc . knowngene)。变体rs377119288从SMAD4和来自的变体rs80358694BRCA2都是非同义的;变体rs80358557从BRCA2被示为具有外显子stopgain功能。最后一列显示的氨基酸变化(AAChange.knownGene),其可以由该突变引起的。对于没有前期报道的临床意义的遗传变异的解释,需要基因变异的致病性确凿的证据[1033].因此,基因注释信息答案与基因功能相关的问题及其相应的功能后果(“功能基因组学”)。这些信息可以导致有效的遗传筛查,从而提供医生,其中包括可以进行功能测试的想法。

讨论

基因组外显子组测序研究的主要障碍是遗传变异的鉴定目前的速度超过我们的解释其功能后果的能力。其中的测序研究的几个目标是确定的变种,在接受治疗的患者中,已经已知与感兴趣的疾病相关。这提供了有针对性的治疗指导。对于其它情况,诊断是不确定的任一或基于计算致病预测[34].因此,要获取和利用关于添加因子如突变,氨基酸的变化,和预测的致病性的需求的类型的知识[13].现有的R包,GenomicFeatures [35],允许用户通过其功能“mapToTranscripts”将转录组坐标转换为基因组坐标;但未提供任何注释信息(外显子ID或变体ID)、等位基因频率或基因注释。此外,“mapToTranscripts”函数的输入数据需要用户使用irange函数进行预处理,然后才能执行转换。而TransAT则不需要任何预处理,非常方便,用户只需解压安装的库并执行其功能即可获得所有相关的注释信息。

遗传变异解释的标准和指南,由美国医学遗传学和基因组学学院和分子病理学协会提出[13,列出了几个基准,表明了未被发现的遗传变异的致病性。它们是:(1)患病个体的变异频率明显高于健康对照组,(2)患者的氨基酸变化,其位置与现有假定的变异一致,(3)在一个与已假定的功能丧失一致的基因中识别出非功能性变异,(4)一种已被确认为父系和母系的从头变异;(5)已被流行的功能分析和研究确定的有害影响[13].TransAT可以方便地为新变体建立上述标准,并为用户提供广泛的灵活性,以根据他们的需求选择注释类型。

结论

R包TransAT是这种类型的第一个。它允许用户提供个人的转录本id,并使用两个简单的功能,为用户提供相应的变体id、基因组位置、来自全球不同人群的等位基因频率和基因注释。由于使用非常方便,它具有促进致病性解释的长期潜力,通过提供从患者中识别的氨基酸变化的注释,从而揭示具有不同遗传背景的人群的遗传差异,这将有利于生物信息学家和临床医生。我们认为,这是一个重要的工具,可以对生物医学研究领域作出重大贡献。

数据和材料的可用性

本研究未使用任何原始数据。本研究过程中产生或分析的所有数据均包含在本发表的文章及其补充信息文件中。

缩写

Transat的:

记录注释工具

SNP:

单核苷酸多态性

RefSeq:

参考序列数据库

PDAC:

胰腺导管腺癌

AMR:

美国

误判率:

非洲

ASJ:

ashkenazi犹太人

材质:

台湾Biobank.

gnomAD:

基因组聚合数据库

参考文献

  1. 1.

    SW Cole, MJ Shanahan, L Gaydosh, KM Harris。Add Health的基于人群的RNA分析发现,炎症和抗病毒基因调控的社会差异在年轻的成年期出现。中国科学院院刊。2020;117(9):4601-8。

    中科院文章谷歌学术搜索

  2. 2.

    Budhu A, Roessler S, Zhao X, Yu Z, Forgues M, Ji J, Karoly E, Qin LX, Ye QH, Jia HL:综合代谢产物和基因表达谱鉴定与肝细胞癌进展和患者预后相关的脂质生物标志物。胃肠病学2013,144(5):1066 - 1075。e1061。

  3. 3.

    Ortmayr K, Dubuis S, Zampieri M.癌症细胞的代谢谱揭示了转录调控因子和代谢之间的全基因组交叉。Nat Commun。2019;10(1):1-13。

    中科院文章谷歌学术搜索

  4. 4.

    扩展“中心教条”:非蛋白编码基因的调节作用和对精神分裂症遗传倾向的暗示。摩尔精神病学。2005;10(1):69 - 78。

    中科院文章谷歌学术搜索

  5. 5。

    张捷,杨洁,张L,罗Ĵ,赵H,张健,闻C.一个新的SNP基因分型技术目标SNP-SEQ及其在黄瓜品种的遗传分析中的应用。SCI代表2020; 10(1):1-11。

    中科院文章谷歌学术搜索

  6. 6。

    王赵Y, k .王何华麟阴t t,董W-q,徐C-j:高通量SNP RNA-seq发现策略数据。BMC基因组学,2019;20(1):1 - 10。

    文章谷歌学术搜索

  7. 7。

    高德明,温兹拉夫,兰德斯,阿莫斯CI。15q25 snp间关联的种族差异。1、吸烟行为与非小细胞肺癌的风险。acta optica sinica . 2009;4(10): 1195-201。

    文章谷歌学术搜索

  8. 8.

    从8万份人类样本中整合4亿种变异,并添加大量注释:建立一个分析疾病队列的知识库。欧宝娱乐合法吗BMC生物信息学。2016;17(1):1-13。

    文章谷歌学术搜索

  9. 9.

    Oscanoa J, Sivapalan L, Gadaleta E, Dayem Ullah AZ, Lemoine NR, Chelala C. SNPnexus:用于人类基因组序列变异功能注释的网络服务器(2020年更新)。核酸Res. 2020;48(W1): W185-92。

    中科院文章谷歌学术搜索

  10. 10.

    李C-Y,Chattopadhyay A,蒋L-M,壮J-MJ,赖L-C,蔡M-H,路T-P,闯EY:多样:的基因注释和表达谱针对与人类疾病变体的第一个集成数据库。数据库2019,2019。

  11. 11.

    癌症药物的预测和预后分子标记物。医学杂志。2010;2(2):125-48。

    中科院文章谷歌学术搜索

  12. 12.

    小林洋,杨淑君,尼坎普K .,加西亚J,林肯SE, Topper SE。ExAC数据库中的致病变异负担:评估人群数据用于临床变异解释的经验方法。基因组医学。2017;9(1):1 - 14。

    文章谷歌学术搜索

  13. 13.

    理查兹,阿齐兹N,贝尔,比克D, Das, Gastier-Foster J,格罗迪WW,对冲基金,里昂E,斯佩克特E序列变异的解释标准和指导方针:联合一致推荐的美国大学医学遗传学和基因组学和分子病理学协会。麝猫医学。2015;17(5):405 - 23所示。

    文章谷歌学术搜索

  14. 14.

    鲍威NR:种族和民族差异的发病机制:实现卫生公平的目标。临床J Am Soc Nephrol. 2021。

  15. 15.

    Pruitt KD, Tatusova T, Maglott DR. NCBI reference sequences (RefSeq):一个非冗余序列数据库的基因组,转录本和蛋白质。核酸Res. 2007;35(sup1): D61-5。

    中科院文章谷歌学术搜索

  16. 16。

    Hsu F, Kent WJ, Clawson H, Kuhn RM, Diekhans M, Haussler D. UCSC已知基因。生物信息学,2006,22(9):1036 - 46所示。

    中科院文章谷歌学术搜索

  17. 17。

    Yates AD,Achuthan P,Akanni W,Allen J,Allen J,Alvarez-Jarreta J,Amode Mr,Armean Im,Azov Ag,Bennett R.Seanembl 2020. nucl酸res。2020; 48(D1):D682-8。

    中科院PubMed.谷歌学术搜索

  18. 18。

    财团的全科医生。人类遗传变异的全球参考。大自然。2015;526(7571):68。

    文章谷歌学术搜索

  19. 19.

    利用gnomAD探索人类基因组多样性。中国科学(d辑:地球科学)2020;

    中科院文章谷歌学术搜索

  20. 20.

    Karczewski, Francioli L:基因组聚合数据库(gnomAD)。麦克阿瑟实验室;2017.

  21. 21.

    陈春华,杨建辉,蒋春华,熊振宁,吴培娥,张立春,朱宏伟,张杰,宋义伟,杨少林。基于台湾生物样本库项目10,000名参与者的现代台湾人口中汉族人的人口结构。acta photonica sinica, 2016;25(24): 5321-31。

    中科院PubMed.公共医学中心谷歌学术搜索

  22. 22.

    Durinck S,Spellman Pt,Birney E,Huber W.映射与R / Biocuctor Package Biomart集成基因组数据集的标识符。NAT PROTOC。2009; 4(8):1184。

    中科院文章谷歌学术搜索

  23. 23.

    王Z,李Y,詹S,张立,张S,汤问,李男,谭Z,刘S,兴X. SMAD4 Y353C促进PDAC的进展。BMC癌症。2019; 19(1):1-12。

    文章谷歌学术搜索

  24. 24.

    格兰特RC,塞兰德I,康纳AA,Selvarajah S,Borgida A,Briollais L,彼得森GM,雷纳-埃利斯Ĵ,动态心电S,在癌症易感性基因的种系突变的患者胰腺癌的Gallinger S.患病率。胃肠病学。2015; 148(3):556-64。

    中科院文章谷歌学术搜索

  25. 25.

    Rustgi ak。家族胰腺癌:遗传进展。基因开发。2014; 28(1):1-7。

    中科院文章谷歌学术搜索

  26. 26.

    Permuth-Wey J, Egan KM。家族史是胰腺癌的一个重要危险因素:来自系统综述和荟萃分析的结果。Fam癌症。2009;8(2):109 - 17所示。

    文章谷歌学术搜索

  27. 27。

    胰腺癌:分子特性、克隆进化和肿瘤干细胞。共同参与。2017;5(4):65。

    文章谷歌学术搜索

  28. 28。

    Dery KJ,古斯蒂V,野牛S,Shively的JE,颜Y,野牛RK:选择性剪接作为用于人类疾病的治疗靶标。在:RNA干扰的治疗应用斯普林克;2009年第127-144。

  29. 29。

    癌症中的选择性剪接缺陷:剪接调控因子及其下游靶点,指导新的癌症治疗方法。威利跨界Rev RNA。2018; 9 (4): e1476。

    文章谷歌学术搜索

  30. 30.

    十字DS,Ivacic LC,斯特凡斯基EL,麦卡蒂CA.基于人口的个性化医学研究项目疾病相关多态性的频率。BMC Genet。2010; 11(1):1-15。

    文章谷歌学术搜索

  31. 31.

    自身免疫疾病相关snp等位基因频率的民族差异。acta photonica sinica, 2005;50(5): 264-6。

    文章谷歌学术搜索

  32. 32.

    杨华,王凯。基于ANNOVAR和wANNOVAR的基因组变异标注与排序。Nat Protoc。2015;10(10):1556 - 66。

    中科院文章谷歌学术搜索

  33. 33.

    MacArthur D, Manolio T, Dimmock D, Rehm H, Shendure J, Abecasis G, Adams D, Altman R, Antonarakis S, Ashley E.人类疾病中序列变异因果关系调查指南。自然。2014;508(7497):469 - 76。

    中科院文章谷歌学术搜索

  34. 34.

    Rodenburg RJ。功能基因组学实验室:遗传变异的功能验证。j继承元标签。2018; 41(3):297-307。

    中科院文章谷歌学术搜索

  35. 35.

    Lawrence M, Huber W, Pages H, Aboyoun P, Carlson M, Gentleman R, Morgan MT, Carey VJ。计算和注释基因组范围的软件。计算机科学与技术。2013;9(8):e1003118。

    中科院文章谷歌学术搜索

下载参考

致谢

我们感谢Melissa Stauffer博士编辑我们的手稿。

资金

这项工作部分由基因组的国立台湾大学台大中心和精密医学,台湾(106R8400)和生物技术中心,台湾(GTZ300),科学与技术的台湾省(批准号:获支持MOST-109-2314-B-002 -151 -MY3和MOST-106-2314-B-002-134-MY2)。该资助者在设计和研究的行为没有任何作用;收集,管理,分析和解释数据;稿件的准备,审查或批准;并决定提交稿件出版物。

作者信息

从属关系

贡献

CYS开发软件,AC编写并修改手稿,CHW和YWT进行数据整理,TPL对研究进行概念化并修改手稿。所有作者阅读并批准了手稿。

相应的作者

对应到Tzu-Pin陆

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

可用性和需求

项目名称:大型甲板躺椅。项目主页:欧宝直播官网apphttps://github.com/ShihChingYu/TransAT.操作系统:平台独立。编程语言:R.其他要求:R版本4.0.4或更高版本。许可证:GPL-2。非学术界使用的任何限制:无。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1:

大型甲板躺椅:源代码。

附加文件2:表S1

.BED格式的例子。TransAT包的BED输入格式为:(a)函数:convert_transcriptID(),它将转录本转换为变异并将它们映射到基因组位置;(b)函数:pop_freq(),它提供来自全球人口和基于基因的注释的等位基因频率。

附加文件3:表S2

.用于获取变体注释的用户可供选择的选项的完整列表。

附加文件4:图S1

.来自gnomAD外显子组数据库的小等位基因频率(MAF)分布,用于与用户查询的转录本id对应的变异。(a)转录本ID柱状图:NM_005359,对应的突变体,基因组位置18:48586278A>G。(b)转录本ID: NM_000059及其基因组位置为13:32911601C>T的变体条形图。(c)转录本ID: NM_000059,其基因组位置为13:32913091A>的条形图。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

施振华,吴昌华。et al。转录作曲注释工具(Transat):用于检索特异性遗传变异的注释的R包。欧宝娱乐合法吗22,350(2021)。https://doi.org/10.1186/s12859-021-04243-z

下载引用

关键字

  • 转录者注释
  • 变异注释
  • R包
  • 大型甲板躺椅
  • 等位基因频率