跳过主要内容gydF4y2Ba

基于RNA-seq和自动化质量控制程序的eQTL分析的管道gydF4y2Ba

抽象的gydF4y2Ba

背景gydF4y2Ba

表达数量性状位点(eQTL)研究的进展为疾病和性状相关遗传变异的机制提供了有价值的见解。然而,对于计算背景有限的研究人员来说,评估和控制多源异构eQTL原始数据的质量仍然是一个挑战。现在迫切需要开发一种功能强大、用户友好的工具来自动处理各种格式的原始数据集,然后执行eQTL映射。gydF4y2Ba

结果gydF4y2Ba

在这项工作中,我们提出了一种用于EQTL分析的管道,称为EQTLQC,以用于基因型数据和基因表达数据的自动数据预处理。我们的管道提供了一套质量控制和归一化方法,并利用自动化技术来减少手动干预。我们通过使用具有RNA-SEQ数据和全基因组测序(WGS)基因型数据的多个独立的现实数据集进行EQTL案例研究来展示该管道的实用性和鲁棒性。gydF4y2Ba

结论gydF4y2Ba

eQTLQC为eQTL分析提供了可靠的计算工作流。它为多种格式的eQTL原始数据提供标准质量控制和标准化以及eQTL映射程序。源代码、演示数据和说明可在gydF4y2Bahttps://github.com/stormlovetao/eQTLQCgydF4y2Ba.gydF4y2Ba

介绍gydF4y2Ba

随着全基因组遗传变异分析的发展,全基因组关联研究(GWAS)检测到了大量复杂性状相关变异[gydF4y2Ba1gydF4y2Ba].然而,GWAS信号的功能在很大程度上仍然是难以捉摸的,因为大多数GWAS衍生的变体在非编码区,即基因间隔或内含子区,这意味着它们不直接改变蛋白质序列定位[gydF4y2Ba2gydF4y2Ba]. 了解与疾病和其他特征相关的变异的功能一直是后GWAS时代领域的重点之一,这可能有助于发现新的机制和药物靶点[gydF4y2Ba3.gydF4y2Ba那gydF4y2Ba4.gydF4y2Ba那gydF4y2Ba5.gydF4y2Ba].新的证据表明,变异可以通过调节局部或远处基因的表达水平来发挥其作用,这被称为表达数量性状位点(expression quantitative trait loci, eQTL)。eQTL分析的目的是将遗传变异与基因表达水平的变化联系起来。eQTL摘要已被广泛应用于解释GWAS和孟德尔随机化研究[gydF4y2Ba6.gydF4y2Ba那gydF4y2Ba7.gydF4y2Ba].gydF4y2Ba

随着下一代测序(NGS)成本的降低,RNA-seq技术已被广泛应用于eQTL研究中衡量转录组的存在和数量[gydF4y2Ba8.gydF4y2Ba].RNA-seq技术在多个方面促进了微阵列技术的发展。首先,RNA-seq对低丰度转录本具有较高的敏感性和准确性。其次,RNA-seq理论上可以涵盖所有转录本,包括编码和非编码rna,而微阵列只能测量具有一定丰度的注释转录本[gydF4y2Ba9.gydF4y2Ba].例如,在我们最近的工作中,我们对黑质多巴胺神经元进行了全RNA测序(测序RNA是否有Ploy-A尾巴),这使我们能够检测到eQTLs调节增强RNA [gydF4y2Ba2gydF4y2Ba].此外,RNA-seq可以检测pre-mRNA的剪接事件,从而为剪接QTL(sQTL)的研究提供了可能。为了进行eQTL分析,需要将RNA-seq数据处理成表达矩阵。从RNA-seq读取到表达矩阵,需要多个质量控制(QC)和标准化步骤,以消除来自样本、技术或人工因素的偏差。除RNA-seq数据外,同样样本的基因型也需要进行eQTL分析。为实现高质量的eQTL分析,还需要严格的原始基因分型数据质量控制程序。gydF4y2Ba

工具和数据库的快速发展有助于研究人员了解复杂的疾病[gydF4y2Ba10gydF4y2Ba那gydF4y2Ba11gydF4y2Ba那gydF4y2Ba12gydF4y2Ba那gydF4y2Ba13gydF4y2Ba那gydF4y2Ba14gydF4y2Ba那gydF4y2Ba15gydF4y2Ba].近年来,开发了多种先进的eQTL分析工具,如MatrixEQTL [gydF4y2Ba16gydF4y2Ba], FastQTL [gydF4y2Ba17gydF4y2Ba]和qtltools [gydF4y2Ba18gydF4y2Ba,各有不同的突出特点。MatrixEQTL利用大量矩阵运算实现快速计算效率[gydF4y2Ba16gydF4y2Ba].FastQTL有效控制多重排列测试问题[gydF4y2Ba17gydF4y2Ba].QTLTools集成多个工具进行分子QTL发现和下游功能注释分析[gydF4y2Ba18gydF4y2Ba].然而,很少有工具能够自动对基因型数据和基因表达数据进行预处理,而这是eQTL分析所必需的。虽然已发表的协议分别用于处理RNA-seq数据和基因型数据[gydF4y2Ba9.gydF4y2Ba那gydF4y2Ba19gydF4y2Ba那gydF4y2Ba20.gydF4y2Ba],目前没有计算工作流,可以与多源异构EQTL原始数据兼容。对于具有有限的计算背景来处理巨大预处理细节的用户来说,它仍然是一个很大的挑战。因此,迫切需要开发一个自动EQTL分析工具,涉及用于EQTL研究的标准和严格质量控制程序。为实现这个目的,需要解决几个挑战。首先,EQTL原始数据中存在各种数据格式和数据类型。例如,取决于RNA-SEQ分析的阶段,基因表达数据可以是FASTQ,BAM或读数格式。其次,在RNA-SEQ和基因型数据中通常存在偏差,并且需要综合质量控制和规范化程序。此外,在当前的预处理协议中,需要大量的努力来手动运行每个步骤,这也可能引起偏差。因此,可以自动处理计算详细信息的工具来减少手动干预。gydF4y2Ba

在本研究中,我们提出了一个自动化的eQTL分析管道,称为eQTLQC,具有一套严格的基因型和基因表达数据预处理方法。在我们最近的工作中,eQTLQC的主要设计已用于数据预处理和eQTLs识别[gydF4y2Ba2gydF4y2Ba那gydF4y2Ba21gydF4y2Ba].为了帮助自动进程,EQTLQC为用户提供灵活地设置参数和处理逻辑的用户。我们的EQTL分析框架支持RNA-SEQ和基因型数据的各种输入格式。基于机器学习和经验技术在工作流程中使用以减少手动干预。在以下情况下,我们通过使用ROSMAP研究生成的实际数据集进行EQTLQC执行EQTLQC的实用性和可行性[gydF4y2Ba22gydF4y2Ba那gydF4y2Ba23gydF4y2Ba].gydF4y2Ba

结果gydF4y2Ba

如图所示。gydF4y2Ba1gydF4y2Ba,我们提出了数据预处理和eQTL分析计算框架。严格的质量控制和归一化程序被应用到基因表达数据和基因型数据,其次是标准eQTL映射。在下面的章节中,我们利用来自ROSMAP研究这个框架来处理数据[gydF4y2Ba22gydF4y2Ba那gydF4y2Ba23gydF4y2Ba]而且还有三个用于稳健性分析的其他数据集,包括Mayornaseq(Mayo)[gydF4y2Ba24gydF4y2Ba],MSBB[gydF4y2Ba25gydF4y2Ba]平庸[gydF4y2Ba26gydF4y2Ba].gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

工作流。eQTLQC框架。缩写:样本(S);基因(G);变异(V);哈迪温伯格平衡(HWE);各州相同(IBS);同源的(IBD);次要等位基因频率(MAF);死后间隔(PMI); RNA integrity number (RIN); relative log expression (RLE); hierarchical clustering (H-clustering)

基因表达数据的预处理gydF4y2Ba

多源异构eQTL原始数据的统一gydF4y2Ba

基于RNA-seq的基因表达数据通常在以下四个RNA-seq处理阶段产生,并以不同的数据格式生成:原始读阶段(FASTA/FASTQ格式)、读对齐阶段(SAM/BAM格式)、特征计数阶段(读计数格式)或标准化阶段(RPKM/FPKM/TPM格式)。eQTL的原始数据可能处于这四个阶段中的任何一个。这些数据格式是异构的,在进行eQTL映射分析之前需要不同的处理步骤。gydF4y2Ba

EQTLQC集成了多个标准工具和内部脚本,以将前三个阶段中的数据格式转换为标准化阶段的格式(即TPM)。对于FastA / FASTQ格式中的表达数据,EQTLQC提供了Bowtie [gydF4y2Ba27gydF4y2Ba], Bowtie2 [gydF4y2Ba28gydF4y2Ba]及星号[gydF4y2Ba29gydF4y2Ba用于读取对准,并且生成BAM文件。在SAM / BAM格式表达的数据,利用eQTLQC在RSEM的RSEM-计算表达式函数[gydF4y2Ba30.gydF4y2Ba来产生基因读计数。对于读计数格式的表达式数据,我们使用内部脚本将其转换为TPM格式。对于标准化阶段的数据,equtlqc将执行严格的质量控制和标准化步骤,下文将对此进行描述。gydF4y2Ba

为了说明以下步骤,我们将从ROSMAP研究的基因读计数表开始进行eQTL案例研究[gydF4y2Ba22gydF4y2Ba那gydF4y2Ba23gydF4y2Ba,代表60554个基因和370个神经病理健康样本,具有临床共识诊断评分gydF4y2Ba\ (le 3 \ \)gydF4y2Ba(无/轻度认知障碍)。eQTLQC主要实现三个功能模块,包括:(1)基本质量控制模块,包括将read计数转化为TPM值,剔除低表达基因,剔除性别不匹配的样本;(2)检测和去除有问题的基因表达谱样本异常值;(3)基因表达谱分位数归一化和协变量调整。gydF4y2Ba

基因读计数的基本质量控制gydF4y2Ba

我们首先使用TPM转换,通过样本中的基因长度和测序库深度来标准化读取计数。一个基因的TPM值通过测量每百万个RNA分子中有多少RNA分子来自该基因,反映了该基因在样本中的相对转录丰度。TPM转化已广泛应用于eQTL研究,如GTEx研究[gydF4y2Ba8.gydF4y2Ba].要注意的是,我们建议用户在执行TPM转换时使用外显子的长度作为基因长度。TPM转化后,我们鉴定和排除具有低表达水平的基因。用户可以用TPM排除基因gydF4y2Ba\ \ (<)gydF4y2Ba在gydF4y2Ba\(通用电气\ b \ % \)gydF4y2Ba样本或基因少于gydF4y2BacgydF4y2Ba读入gydF4y2Ba\(\ ge d \%\)gydF4y2Ba样本。另外,用户只能保存样品gydF4y2Ba\(> e \)gydF4y2Ba百万地图读取和与gydF4y2Baf \ % \ \ (>)gydF4y2Ba可贴花。这些参数可以使用JSON格式的配置文件个性化,以及以下上下文中的其他参数。通过设置gydF4y2Ba(a = 0, b = 0, c = 0, e = 0, f = 0)gydF4y2Ba,在去除低表达基因或低对齐样本后,在ROSMAP中有367个样本和26662个基因。gydF4y2Ba

接下来,我们识别出性别不匹配的样本,这可能是由于样本交换或混淆造成的。为了达到这一目的,我们首先通过测量两个性别特异性基因RPS4Y1和XIST的表达谱来预测样本供者的性别,这两个基因分别在男性和女性中特异表达。然后,我们比较预测的性别和用户给定的性别,以识别不匹配的样本。通常,性别不匹配的样本是根据散点图手工识别的。为了避免人工偏差,我们使用支持向量机分类器自动识别异常样本。在只有少数样本存在错误性别标签的假设下,我们首先使用RPS4Y1和XIST的表达谱作为特征和给定的性别标签训练SVM模型。然后,根据训练的模型对样本标签进行预测。如果预测的标签与用户给出的标签不同,则将排除样本。在ROSMAP数据集中,我们没有检测到性别不匹配的样本,如图所示。gydF4y2Ba2gydF4y2Ba一个。gydF4y2Ba

图2gydF4y2Ba
图2.gydF4y2Ba

Expr_QC。基于RNA-seq的基因表达数据的外样本鉴定和归一化。gydF4y2Ba一个gydF4y2Ba两个性别特异性基因RPS4Y1和XIST的基因表达水平。gydF4y2BabgydF4y2Ba数据预处理前的RLE图。按IQR的递增顺序排列的箱形图表示样本基因表达的残差。gydF4y2BacgydF4y2Ba数据预处理前样本的层次聚类。颜色表示批处理库的准备。gydF4y2BadgydF4y2Ba数据预处理前的D统计分布。gydF4y2BaegydF4y2Ba调整批处理后的分层聚类树木图。gydF4y2BafgydF4y2Ba数据预处理后的RLE绘图。gydF4y2BaggydF4y2Ba数据预处理后分层聚类树状图gydF4y2Ba

排除有问题基因表达谱的样本异常值gydF4y2Ba

具有问题基因表达谱的样品可能是由样品污染或图书馆制备或RNA测序等的样品污染或失败等引起的。在我们的管道中,我们使用三种方法来测量样本之间的距离并识别样本异常值,包括相对日志表达式(RLE)分析,包括相对日志表达式(RLE)分析,基于配对的相关性的分层聚类,以及D算法分析[gydF4y2Ba9.gydF4y2Ba].通过随机排列现有样本的平均基因表达值,手工添加带有问题基因表达谱的插入样本。gydF4y2Ba

RLE分析的假设是,在一个样本中只有少数基因有极端的表达水平,而大多数基因在整个样本中有相似的表达水平。给出一个基因表达矩阵gydF4y2BaGgydF4y2Ba在列中,基因列中,RLE分析首先从每行所有样本的原始表达值中减去每个基因的中位表达量。对于每个样本,在上述假设下,所有基因的残差表达值应以零为中心。然后,RLE分析根据残差基因表达值绘制所有样本的箱线图,并按照四分位区间IQR (interquartile range, IQR)从左到右递增排序,如图所示。gydF4y2Ba2gydF4y2Bab.如果最右边的样本的IQR明显大于其他样本,则可能是异常值。如图所示。gydF4y2Ba2gydF4y2Bab,在RLE分析中,spike-in样本的IQR最大。在eQTLQC中,用户可以设置最右边的值gydF4y2Ba\(x\%\)gydF4y2Ba样本作为候选异常值。gydF4y2Ba

分层聚类也是一种广泛使用的排除样本异常值的方法。每对样本之间的相似性首先通过皮尔逊相关系数或斯皮尔曼相关系数等指标来衡量。距离矩阵由1减去相似度得分得到,用于执行层次聚类。通常,在聚类树状图中,具有问题表达谱的样本将远离正常样本。如图所示。gydF4y2Ba2gydF4y2BaC,我们可以看到树木图中孤立的尖峰样本。传统上,样品异常值将手动挑选并排除在外。要使此过程自动,我们使用基于Mahalanobis距离的方法来识别异常值,这些方法已应用于GTEX项目[gydF4y2Ba8.gydF4y2Ba].mahalanobis距离测量点之间的距离gydF4y2BaP.gydF4y2Ba和一个分布gydF4y2BaD.gydF4y2Ba在多维空间。在我们的语境中,我们测量每个样本,所有样本的分布之间的马氏距离。卡方gydF4y2BapgydF4y2Ba值为每个集群中的每个样本计算。集群gydF4y2Ba\(\文件Y \%\)gydF4y2Ba用Bonferroni纠正的样品gydF4y2BapgydF4y2Ba值gydF4y2Ba\(\乐0.05 \)gydF4y2Ba将被标记为离群聚类,所包含的所有样本将被标记为候选离群。在ROSMAP数据集中,插入样本被聚为一个单独的簇,并实现最显著的调整gydF4y2BapgydF4y2Ba价值 (gydF4y2Ba\(3.4 * 10 ^ { - 25} \)gydF4y2Ba),应予以排除。基于聚类分析,其他聚类没有被标记为离群值。gydF4y2Ba

识别离群值的第三个方法是基于d-统计量的分布。各样品的d统计量被定义为与其它样品中值Spearman相关系数。无花果。gydF4y2Ba2gydF4y2Bad表示ROSMAP数据集中所有样本d统计量的分布,位于分布最左侧尾部的样本很可能是离群点。我们可以看到,插入的样本远离分布的峰值。在eQTLQC中,用户可以设置最左端gydF4y2Ba\ (z \ % \)gydF4y2Ba样本作为候选异常值。gydF4y2Ba

结合上述分析,我们的管道考虑了三种方法报告的候选人异常值作为最终样本异常值。在ROSMAP数据集中,通过设置gydF4y2Ba\(x=z=5, y = 40\)gydF4y2Ba,只有插入样本被标记为离群值并被排除。gydF4y2Ba

归一化和协变量调整gydF4y2Ba

为了消除RNA-seq实验中存在的技术噪声,我们首先进行样本内逆正态变换,将TPM值转换为秩归一化值[gydF4y2Ba2gydF4y2Ba那gydF4y2Ba8.gydF4y2Ba].简而言之,TPM值首先经过log10转换(添加的伪计数gydF4y2Ba\ (10 ^ {4} \)gydF4y2Ba)。然后,将每个基因的测量变换成通常分布在保持相对排名(定量标准化)和原始测量的平均值和标准偏差时。gydF4y2Ba

我们还执行跨样本归一化来调整已知和潜在的协变量,这可能会使eQTL分析产生偏差。常见的协变量包括技术伪变量,如批效应、死后时间间隔(PMI)和RNA完整性数(RIN);以及与样本相关的特征,如年龄、性别和教育年限。潜在的协变量如环境因素和人口分层通常很难获得。在eQTLQC中,我们使用SVA来调整已知和隐藏的协变量。要指定,我们使用gydF4y2Ba战斗gydF4y2Ba特殊用途的功能[gydF4y2Ba31gydF4y2Ba]来调整批处理效果,并使用gydF4y2BaFSVA.gydF4y2Ba用于调整其他已知协变量和潜在协变量的函数。在ROSMAP数据集中,我们调整了年龄、性别、批次、PMI、RIN和SVA检测到的22个替代变量。gydF4y2Ba

数字gydF4y2Ba2gydF4y2Bac显示了在执行标准化和协变量调整之前样本的聚类树状图,其中节点颜色表示批次信息。我们可以看到明显的批效应,即同一批中的样本往往位于同一簇中。在标准化和协变量调整后,样品不倾向于按批次分组,如图所示。gydF4y2Ba2gydF4y2Bae。数字gydF4y2Ba2gydF4y2Baf和g分别为经过整个数据预处理后的RLE图和聚类树状图。与图相比,我们可以看到数据质量的提高。gydF4y2Ba2gydF4y2Bab和c,它们是预先的数据预处理。gydF4y2Ba

基因型数据的质量控制gydF4y2Ba

严格的基因型数据质量控制也是eQTL分析的关键。eQTLQC接受VCF或PLINK格式的基因型数据,这两种格式是应用最广泛的。为了提高数据质量,我们在SNP水平和样本水平上都采用了10个严格的QC步骤,如图所示。gydF4y2Ba1gydF4y2Ba.该QC程序是基于公布的方案,并已广泛用于GWAS [gydF4y2Ba32gydF4y2Ba那gydF4y2Ba33gydF4y2Ba]和eQTL研究[gydF4y2Ba8.gydF4y2Ba],包括我们最近的工作[gydF4y2Ba2gydF4y2Ba].默认情况下,参数是根据发布的协议经验设置的,用户可以在配置文件中进行调整。叮铃声(gydF4y2Ba34gydF4y2Ba]将用于执行QC程序,VCF文件提供后将转换为PLINK格式。ROSMAP研究的基因型数据来源于WGS,由7346,574个标记(SNPs和小Indels)组成。343名受试者的RNA-seq数据也可用,其基因型将用于以下QC程序。gydF4y2Ba

第一步:去除过多缺失基因型的标记。gydF4y2Ba基因型缺失率反映了数据质量。与系统缺失基因型值中的变体向下游分析没有任何帮助,并可能导致假阳性信号[gydF4y2Ba19gydF4y2Ba]. 在eQTLQC中,默认情况下,基因型缺失率大于或等于5%的变异将被排除。在ROSMAP基因型数据集中,本步骤排除了147989个变异。gydF4y2Ba

第二步:排除基因型缺失过多的受试者。gydF4y2Ba类似于gydF4y2Ba步骤1gydF4y2Ba,还应检查学科水平的基因型缺失率。基因型缺失率高的受试者可能是由于DNA样本质量差或文库制备不良所致。在基因型数据是由不同的测序平台或微阵列芯片生成和合并的情况下,缺失的基因型在样本中也很常见。在eQTLQC中,基因型缺失率较高的受试者gydF4y2Ba\ (< 5 \ % \)gydF4y2Ba将留下进一步分析。从ROSMAP基因型数据集中不包括过多缺失基因型的受试者。gydF4y2Ba

第3步:确定性别错配的对象。gydF4y2Ba受试者的性别可以从X染色体上的SNP基因型推断出来。具体而言,对于男性样本,X染色体上SNP的纯合率预计为1,因为男性只有一个X染色体拷贝。然而,女性样本的纯合率要低得多。比较临床记录中的性别信息,应排除性别不一致的样本,这可能是由于样本污染或电镀错误造成的[gydF4y2Ba20.gydF4y2Ba].在eQTLQC中,X染色体的纯合率是根据除伪常染色体区域外的所有标记计算的。如果样本的纯合子率为雌性,则标记为雌性gydF4y2Ba\(<0.2 \)gydF4y2Ba,并标记为男性如果纯合子率gydF4y2Ba\ \ (> 0.8)gydF4y2Ba,经验。此外,eQTLQC默认至少需要100个标记才能开启该功能。值得注意的是,在某些基因型调用算法中,杂合子单倍体基因型可能被自动设置为缺失。在这种情况下,eQTLQC不能基于纯合子率检测性别不匹配的样本。在ROSMAP基因型数据中,所有样本均通过了性别检查。gydF4y2Ba

第四步:将杂合单倍体基因型设为缺失。gydF4y2BaX染色体上的X染色体的变体应具有不包括伪血型区域的单倍体基因型。杂合的单倍体基因型可能存在于性别匹配的样品中,例如标记为雄性的雌性样品。在排除性别不匹配的样本后,描述gydF4y2Ba步骤3gydF4y2Ba,杂合单倍体基因型可能是由测序或基因型调用错误引起的,应予以清除。在这一步中,我们将所有样本的杂合子单倍体基因型设为缺失。gydF4y2Ba

第五步:去除违反哈迪-温伯格平衡(HWE)原则的标记。gydF4y2Ba具有基因分型错误的SNPs可能主要来自HWE,应予以排除。以单核苷酸多态性等位基因A和B为例,在一个队列中,AA、AB和BB基因型的期望频率可以在HWE假设下估计出来。如果观察到的SNP的基因型频率与期望的基因型频率相差较大,可以通过卡方检验进行评估,则我们对违反HWE原则的SNP进行过滤。在eQTLQC中,标记用HWE检验gydF4y2BapgydF4y2Ba价值gydF4y2Ba\(<10 ^ { - 6} \)gydF4y2Ba将被识别并移除。在ROSMAP数据集中,此步骤删除了337812个变体。gydF4y2Ba

第6步:删除具有信息性缺失的标记。gydF4y2Ba基因型呼叫的失败可能取决于基因型,这可能导致“信息缺失”。例如,罕见纯合基因型的成功呼出率可能平均低于杂合基因型[gydF4y2Ba19gydF4y2Ba].偏压将估计等位基因频率与非随机缺失基因型的SNP [当被引入gydF4y2Ba35gydF4y2Ba].在eQTLQC中,我们使用了PLINK中引入的mishap测试[gydF4y2Ba34gydF4y2Ba]来检测SNP的基因型缺失状态是否可以被相邻SNP预测。的mishap-testgydF4y2BapgydF4y2Ba设置阈值为gydF4y2Ba\(10 ^ { - 9} \)gydF4y2Ba默认情况下,在我们的管道中,67个变异被删除在ROSMAP基因型数据集。gydF4y2Ba

第七步:去除低次要等位基因频率(MAF)的标记。gydF4y2Ba由于样本可用性和成本等因素,eQTL研究通常有几十到几千个样本。在有限样本量的研究中,具有较小MAF的变体可能不会产生稳健的关联信号。通常,大多数eQTL研究应用MAFgydF4y2Ba\通用电气(\ \)gydF4y2Ba1-10%取决于他们的样本量。对于样本量较小的研究,MAF临界值应该设置得更高。例如,加gydF4y2Ba\(\ ge 0.1 \)gydF4y2Ba和0.2应用于最近的单细胞eQTL研究,样本量分别为45和23 [gydF4y2Ba36gydF4y2Ba那gydF4y2Ba37gydF4y2Ba].在equtlqc中,默认的MAF下限设置为5%。在ROSMAP数据集中,有123,992个变异具有MAFgydF4y2Ba\(\乐0.05 \)gydF4y2Ba在此步骤中被排除。gydF4y2Ba

第八步:排除离群杂合率的受试者。gydF4y2Ba杂合度是指一个个体杂合子基因型所占的比例,它可以反映DNA样本的质量。杂合率过高的样品可能是样品污染所致,杂合率降低的样品可能是样品近亲繁殖所致[gydF4y2Ba19gydF4y2Ba].在一个队列中,平均杂合度的分布可以用来识别具有外围杂合度的受试者。在eQTLQC中,我们以观察到的杂合度率的均值±4标准差作为正常区间,将杂合度率在正常区域之外的受试者排除在外。只有独立的SNPs被用来计算杂合度率。在ROSMAP数据集中,这一步将删除两个离群样本。gydF4y2Ba

第九步:识别相关和重复的受试者。gydF4y2Ba相关和重复的样本违反了通常使用线性回归模型的eQTL映射分析的先决条件。相关或重复受试者的识别基于两个指标:状态身份(IBS)和血统身份(IBD)。对于每一对受试者,在给定的标记点上,通过计算共有等位基因的数量,可以观察到IBS得分为0、1和2。换句话说,IBS0代表两个不同的等位基因,IBS1和IBS2分别代表1和2个共同等位基因。共享的等位基因可能遗传自最近的共同祖先,在这种情况下,这些共享的等位基因被称为IBD。IBD可以通过全基因组IBS评分来估计[gydF4y2Ba38gydF4y2Ba].重复或同卵双胞胎、一级亲属、二级亲属、三级亲属的IBD预期分别为1、0.5、0.25、0.125。由于群体结构、基因分型错误和复杂的LDs在实践中存在变异,IBD的截断值略有不同。对于IBD的个人配对gydF4y2Ba\ \ (> 0.1875)gydF4y2Ba(二级亲属或近亲属),随机移除一名受试者;对于IBD的个人配对gydF4y2Ba\ \ (> 0.98)gydF4y2Ba(重复样本或同卵双胞胎),将排除两名受试者。在ROSMAP数据集中,这一步将排除6个样本。gydF4y2Ba

第十步:确定并排除不同祖先的受试者。gydF4y2Ba人口分层可以将EQTL分析偏置为主要混淆器,需要通过混淆调整方法进行调整。来自不同人群的外围科目将扩大人口分层的效果,应当被移除。识别人口外面的样本,SmartPCA [gydF4y2Ba39gydF4y2Ba在eQTLQC中使用。为了说明ROSMAP样本的群体祖先,我们首先整合了来自四个主要群体的ROSMAP基因型和HapMap基因型:来自尼日利亚伊巴丹的约鲁巴人(YRI),犹他的北欧和西欧血统的居民(CEU),来自日本东京的不相关的日本人(JPT)和来自中国北京的汉人(CHB)。使用LD-pruned SNP集从综合样本中计算出前两个主成分(PCs),如图所示。gydF4y2Ba3.gydF4y2Ba,其中节点颜色表示总体。我们可以看到,ROSMAP中的所有样本都属于CEU组。使用SmartPCA没有识别出人群异常值。此外,用户还可以选择输出由基因型谱导出的顶级主成分。gydF4y2Ba

图3gydF4y2Ba
图3.gydF4y2Ba

PCA。ROSMAP队列的人口结构和HAPMAP队列gydF4y2Ba

基因型污名。gydF4y2Ba即通过了严格的质量控制基因型型材可以用于eQTL分析。然而,前述给eQTL分析之前,基因型插补推荐用于基于微阵列的基因型数据,其通常具有标记物的数量有限。优秀的隐马尔可夫模型(HMM)为基础的基因型估算工具已经开发出来,如minimac3 [gydF4y2Ba40gydF4y2Ba], minimac2 [gydF4y2Ba41gydF4y2Ba],小猎犬[gydF4y2Ba42gydF4y2Ba]和IMPUTE2 [gydF4y2Ba43gydF4y2Ba].由于基因型输入需要大量的计算资源来存储基因组参考面板和执行输入工作,我们没有将该功能模块实现到我们的自动流水线中。相反,我们提供了基于在线基因型imputation服务器的独立脚本,即密歇根imputation服务器(MIS) [gydF4y2Ba40gydF4y2Ba].MIS提供了一个用户友好的web界面,在此基础上高性能计算集群是免费可用的。平台上还托管了几个最先进的人类基因组参考面板,如由单倍型参考联盟发布的HRC(由64,976个单倍型组成)[gydF4y2Ba44gydF4y2Ba].gydF4y2Ba

EQTL映射gydF4y2Ba

334受试者在预处理基因表达数据和基因型数据的预处理中通过了质量控制。37.7%的受试者是男性,平均年龄为85.8,平均rin为7.2,平均PMI为7.5小时。26,663个基因和6,736,714种与MAF的变种gydF4y2Ba\(通用电气\ 0.05 \)gydF4y2Ba用于预处理后的eQTL关联映射(表gydF4y2Ba1gydF4y2Ba)。gydF4y2Ba

表1 eQTL作图结果总结。富兰克林·罗斯福估计采用本杰明-霍克伯格程序gydF4y2Ba

最终的eQTL映射分析使用R Package MatrixEQTL [gydF4y2Ba16gydF4y2Ba].默认情况下,将应用可加性线性模型。而在cis-eQTL分析中,如果snp位点与基因的TSS在1Mb以内,则包含snp。而trans-eQTL分析包括snp基因关联,如果它们的距离超出这个窗口。采用MatrixEQTL报告的FDR,采用Benjamini-Hochberg程序测量关联显著性。此外,在此步骤中还可以对协变量进行调整,如基因型数据中的top pc、用户给定的混杂因子等。在ROSMAP数据集中,我们调整了来自基因型谱的前三名pc,因为SVA已经调整了与基因表达谱相关的已知和潜在协变量。共检测顺式关联12487,625例,反式关联179,489,391,043例gydF4y2BapgydF4y2Ba数值分布如图所示。gydF4y2Ba4.gydF4y2Ba.FDR共检测到1515,726个顺式和78,894个trans- eqtlgydF4y2Ba\(\乐0.05 \)gydF4y2Ba与21173个本地egenes和3079个遥远egenes,分别相关联。gydF4y2Ba

图4gydF4y2Ba
图4.gydF4y2Ba

QQplot。在ROSMAP,梅奥,MSBB和CommonMind研究本地和远端eQTLs的Q-Q图。理论值(x轴)gydF4y2BapgydF4y2Ba-values与MatrixEQTL计算gydF4y2BapgydF4y2Ba-中的值(y轴)gydF4y2Ba\( - \ log 10 \)gydF4y2Ba为每个数据集绘制转换。红点代表CIS-EQTL,蓝点代表Trans-EQTL。灰线表示空线gydF4y2Ba

鲁棒性分析gydF4y2Ba

为了评估我们的管道的稳健性,我们对其他三个独立的数据集进行了类似的数据预处理和eQTL映射:MayoRNAseq (Mayo) [gydF4y2Ba24gydF4y2Ba],MSBB[gydF4y2Ba25gydF4y2Ba]平庸[gydF4y2Ba26gydF4y2Ba].这些数据集也是来自脑组织,仅使用神经病理健康受试者进行分析,结果在每个数据集中分别有103、65和200个有效样本,包括基因表达和基因型数据。cis/trans-eQTL分析总结见表gydF4y2Ba1gydF4y2Ba.和顺式的Q-Q曲线/四个数据集的反式eQTL结果示于图gydF4y2Ba4.gydF4y2Ba.gydF4y2Ba

为了进一步评估独立的数据集之间的一致性,我们比较的影响大小(gydF4y2Ba\(\ beta \)gydF4y2Ba这些数据集中变异基因对的值)。图的下侧。gydF4y2Ba5.gydF4y2Ba显示了gydF4y2Ba\(\ beta \)gydF4y2Ba的数据集之间所有共享变异基因对的值gydF4y2BapgydF4y2Ba值小于0.05。上边表示下散点图的Pearson相关性,红星符号表示相关性的显著性。我们可以看到大多数Pearson的r值大于0.9,表示强一致性。这些结果表明,我们的流水线可以在不同的数据集中生成健壮的eQTL信号。gydF4y2Ba

图5gydF4y2Ba
图5.gydF4y2Ba

Betapairs。尺度效应(gydF4y2Ba\(\ beta \)gydF4y2Ba的变异基因对在等qtl结果的ROSMAP, Mayo, MSBB和CommonMind研究gydF4y2Ba

结论和讨论gydF4y2Ba

工具和数据库的发展加快了对复杂疾病的研究[gydF4y2Ba45gydF4y2Ba那gydF4y2Ba46gydF4y2Ba那gydF4y2Ba47gydF4y2Ba].eQTL分析在关联功能元件(如编码或非编码转录本)与疾病易感性变异方面起着关键作用。在这项工作中,我们提出了eQTLQC,一个自动化预处理基因型数据和基因表达数据特别是RNA-seq的eQTL分析管道。我们的方法旨在将复杂的质量控制、标准化和eQTL分析所需的eQTL映射过程打包到一个“黑盒子”中,并为用户提供一个灵活的界面来设置参数和控制处理逻辑。对于基于RNA-seq的基因表达数据,eQTLQC接受多种数据类型和格式,如Fastq、BAM、基因读计数和标准化度量(如TPM/FPKM/RPKM)。根据输入数据类型,需要遵循几个主要功能模块,将输入数据类型转换为TPM指标(如果用户提供的话,也可以使用FPKM/RPKM)。采用严格的质量控制步骤,排除性别不匹配、比对不良等问题样本。数据归一化和协变量平差也被用于降低数据噪声。对于基因型数据,eQTLQC支持广泛使用的VCF和PLINK格式。10个严格的质量控制程序,以排除样本异常值和变异异常值。 In our recent work [2gydF4y2Ba],我们应用了eQTLQC的核心方法来发现基因对编码和非编码转录本的调控作用。在本工作中,我们利用ROSMAP数据集论证了它的特点和可行性。此外,通过对多个独立数据集的实例研究,我们证明了eQTLQC对eQTL映射的鲁棒性。gydF4y2Ba

我们的工作也受到一些限制。首先,此管道仅在处理批量RNA-seq数据集时进行了测试。对于基于单细胞RNA-seq的数据,其数据质量控制和归一化方法与bulk RNA-seq不同,需要进一步考虑。其次,实证地确定了一些预处理步骤的顺序。例如,“步骤4:设置杂合单倍体基因型为缺失”应该在“步骤3:识别和排除性别不匹配的受试者”的下游,如方法中所述。但是,“step5: HWE-test”和“step6: Mishap-test”的顺序可以切换。最佳的预处理顺序仍然是一个有待讨论的问题。虽然目前的研究将复杂的处理细节打包到一个黑盒中,但用户只能使用内置的方法。随着生物信息学方法和工具的快速革命,如何保持工具的最新也具有挑战性。gydF4y2Ba

未来,我们计划集成特定的数据处理技术,用于基于单细胞RNA-seq的eQTL分析,并通过设计图形用户界面(GUI)来改善用户体验。gydF4y2Ba

方法gydF4y2Ba

EQTLQC框架概述gydF4y2Ba

eqtlqc框架中包括两个主要阶段:数据预处理相位和eqtl映射阶段,如图2所示。gydF4y2Ba1gydF4y2Ba.数据预处理对eQTL分析的准确性和可靠性有很大影响,其中包括对eQTL分析所需要的两个主要数据类别,即基因表达数据和基因型数据进行严格的预处理。由于基因表达数据具有多种数据类型和数据格式,eQTLQC可以处理原始读的FASTQ格式、映射读的BAM格式、比对摘要的读计数数据类型,也可以处理RPKM、FPKM、TPM等标准化指标。根据输入的基因表达数据格式执行读取对齐模块、特征计数模块和归一化模块(图2)。gydF4y2Ba1gydF4y2Ba),导致标准化的基因表达基质。接下来,将严格的质量控制步骤应用于归一化基因表达基质以排除外围基因和样品。然后,将量化的归一化和协变量调节(包括已知和隐藏的协变量)将应用于基因表达基质以归一化基因表达谱,并分别调节由协变量引起的基因表达偏差。gydF4y2Ba

在预处理基因分型数据中,EQTLQC接受广泛使用的VCF和PLINK格式。随访10个严格的质量控制步骤以消除外围变体和样品,包括:(1)除去具有过量缺失的基因型的标记;(2)排除过量缺失的基因型的受试者;(3)用性别不匹配排除受试者;(4)除去杂合单倍体基因型的标记物;(5)删除违反Hardy-Weinberg均衡(HWE)的标记;(6)删除具有信息性失踪的标记;(7)除去低次次等位基因频率(MAF)的标记;(8)排除异常杂合子率的受试者;(9)排除相关科目; and (10) identify and exclude individuals with divergent ancestry. After these rigorous quality control steps, clean genotyping data together with clean gene expression data will be reformatted to fit the requirement of MatrixEQTL, used in the eQTL mapping phase. In the following context, we will introduce the details of each step in the preprocessing of gene expression data and genotype data, and also the eQTL mapping phase based on real-world datasets generated by ROSMAP studies.

实验数据集gydF4y2Ba

宗教订单研究(ROS)[gydF4y2Ba22gydF4y2Ba]及记忆及老化计划(MAP) [gydF4y2Ba23gydF4y2Ba]是两个纵向队列研究,旨在学习老化和阿尔茨海默病(AD)。入学两种研究的参与者在开始时没有痴呆症,并同意纵向临床记录和器官捐赠[gydF4y2Ba48gydF4y2Ba那gydF4y2Ba49gydF4y2Ba]. CommonMind数据来自CommonMind Consortium,该协会提供大规模、精心策划的大脑样本和相关的多组学数据集[gydF4y2Ba26gydF4y2Ba].Mayornaseq数据由Mayo Clinic Alzheimer的疾病遗传学研究(MCADGS)研究诸如广告,进步性激素麻痹(PSP)和病理老化(PA)等疾病[gydF4y2Ba24gydF4y2Ba].从通过西奈山VA医疗中心脑库[收集死后脑组织中产生MSBB研究旨在研究AD和数据gydF4y2Ba25gydF4y2Ba].所有参与者死后都进行了死后神经病理学评估。从Synapse平台下载来自ROSMAP研究以及MayoRNAseq、MSBB和CommonMind的RNA-seq数据、基因型数据和临床数据(gydF4y2Bawww.synapse.orggydF4y2Ba)。gydF4y2Ba

数据和材料的可用性gydF4y2Ba

当前研究中分析的数据集可在Synapse平台(gydF4y2Bahttps://adknowledgeportal.synapse.org/gydF4y2Ba)。gydF4y2Ba

缩写gydF4y2Ba

广告::gydF4y2Ba

阿尔茨海默病gydF4y2Ba

eQTL::gydF4y2Ba

表达量化特质基因座gydF4y2Ba

FPKM ::gydF4y2Ba

碎片每千碱基百万gydF4y2Ba

GWAS::gydF4y2Ba

基因组协会研究gydF4y2Ba

H-集群::gydF4y2Ba

分层群集gydF4y2Ba

唔::gydF4y2Ba

隐马尔可夫模型gydF4y2Ba

HWE::gydF4y2Ba

Hardy-Weinberg均衡gydF4y2Ba

炎症性肠病::gydF4y2Ba

相同的血统gydF4y2Ba

肠易激综合症::gydF4y2Ba

相同的国家gydF4y2Ba

插入缺失::gydF4y2Ba

插入和删除gydF4y2Ba

IQR::gydF4y2Ba

四分位区间gydF4y2Ba

加::gydF4y2Ba

轻微的等位基因频率gydF4y2Ba

地图::gydF4y2Ba

记忆和老化项目gydF4y2Ba

管理信息系统:gydF4y2Ba

密歇根归责服务器gydF4y2Ba

门店:gydF4y2Ba

新一代测序gydF4y2Ba

PA::gydF4y2Ba

病理衰老gydF4y2Ba

采购经理人指数::gydF4y2Ba

验尸间隔gydF4y2Ba

PSP::gydF4y2Ba

进行性核上的麻痹gydF4y2Ba

QC ::gydF4y2Ba

质量控制gydF4y2Ba

RIN::gydF4y2Ba

RNA数量完整gydF4y2Ba

rle ::gydF4y2Ba

相对日志表达gydF4y2Ba

ROS::gydF4y2Ba

宗教研究的订单gydF4y2Ba

RPKM::gydF4y2Ba

读取每千碱基百万gydF4y2Ba

SNP::gydF4y2Ba

单核苷酸多态性gydF4y2Ba

支持向量机:gydF4y2Ba

支持矢量机器gydF4y2Ba

TPM::gydF4y2Ba

每千碱基百万的转录本gydF4y2Ba

WGS::gydF4y2Ba

全基因组测序gydF4y2Ba

参考文献gydF4y2Ba

  1. 1.gydF4y2Ba

    Visscher PM, Wray NR, Zhang Q, Sklar P, McCarthy MI, Brown MA, Yang J. 10年GWAS的发现:生物学、功能和翻译。acta Human gene . 2017;101(1): 5-22。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  2. 2.gydF4y2Ba

    董晓东,廖志东,Gritsch D, Hadzhiev Y, Bai Y, Locascio JJ, Guennewig B,刘刚,Blauwendraat C,王涛,等。活跃在多巴胺神经元中的增强子是遗传变异和神经精神疾病之间的主要联系。Nat > 2018; 21(10): 1482。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  3. 3.gydF4y2Ba

    Gallagher医学博士,Chen-Plotkin AS后gwas时代:从关联到功能。人类基因。2018;102(5):717-30。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  4. 4.gydF4y2Ba

    关键词:DincRNA,疾病相关性,ncRNA功能,生物信息学34生物信息学。2018;(11):1953 - 6。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  5. 5.gydF4y2Ba

    程L,赵立,王P,周W,罗米,李T,韩贤,刘氏,江Q.鉴定类似疾病的计算方法。摩尔核酸。2019; 18:590-604。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  6. 6.gydF4y2Ba

    郑立,庄H,杨氏,江汉,王某,张建国揭露了C反应蛋白对2型糖尿病风险的因果作用:孟德利安随机化研究。前群体。2018; 9:657。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  7. 7.gydF4y2Ba

    王涛,彭Q,刘斌,刘X,刘Y,彭Ĵ,王Y. eQTLMAPT:快速,准确,高效的置换测试eQTL调解分析途径。前群体。2019; 10:1309。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  8. 8.gydF4y2Ba

    GTEx联盟:人类组织中基因表达的遗传效应。大自然。2017;550(7675):204。gydF4y2Ba

  9. 9.gydF4y2Ba

    AC’t Hoen, P., Friedländer, M.R., Almlöf, J., Sammeth, M., Pulyakhina, I., Anvar, S.Y., Laros, J.F., Buermans, H.P., Karlberg, O., Brännvall, M., , et al. Reproducibility of high-throughput MRNA and small RNA sequencing across laboratories. Nat Biotechnol. 2013;31(11):1015.

  10. 10.gydF4y2Ba

    彭建军,关建军,惠伟,尚晓东。一种新的基于子网络的疾病关系识别方法。方法。2020。gydF4y2Ba

  11. 11.gydF4y2Ba

    程磊。基因治疗的计算和生物学方法。基因工程学报。2019;19(4):210。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  12. 12.gydF4y2Ba

    彭建军,薛辉,魏震,尚晓霞。基于深度神经网络的多网络拓扑结构基因功能预测。短暂的Bioinform。2020。gydF4y2Ba

  13. 13.gydF4y2Ba

    王婷,彭杰,彭Q,王毅,陈杰。FSM:用于探索高阶网络组织的快速且可扩展的网络主题发现。方法。2020;173:83–93.gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  14. 14.gydF4y2Ba

    王婷婷,彭强,刘波,刘永强,王玉英。基于遗传遗传算法的复杂网络表征学习和人机交互的疾病模块识别。前沿生物技术。2020;8:418。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  15. 15.gydF4y2Ba

    Peng J,Wang Y,Guan J,Li J,Han R,Hao J,Wei Z,Shang X.一种基于端到端的异构图形表示的药物目标交互预测框架。简短生物形式。2021。gydF4y2Ba

  16. 16.gydF4y2Ba

    Shabalin AA。矩阵eQTL:超快速的eQTL分析,通过大量的矩阵运算。生物信息学。2012;28(10):1353 - 8。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  17. 17.gydF4y2Ba

    Ongen H,Buil A,Brown AA,Dermitzakis ET,Delaneau O。用于数千种分子表型的快速高效QTL作图器。生物信息学。2015;32(10):1479–85.gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  18. 18.gydF4y2Ba

    Delaneau O, Ongen H, Brown AA, Fort A, Panousis NI, Dermitzakis ET.分子QTL发现和分析的完整工具集。Nat Commun。2017;8:15452。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  19. 19.gydF4y2Ba

    安德森CA,卡尔 - 佩特森FH,克拉克GM,卡登LR,莫里斯AP,Zondervan KT。数据质量控制遗传病例对照关联研究。NAT PROTOC。2010; 5(9):1564。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  20. 20。gydF4y2Ba

    Winkler TW, Day FR, Croteau-Chonka DC, Wood AR, Locke AE, Mägi R, Ferreira T, Fall T, Graff M, Justice AE,等。全基因组关联荟萃分析的质量控制和实施。Nat Protoc。2014;9(5):1192。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  21. 21.gydF4y2Ba

    王T,Ruan J,Yin Q,Dong X,Wang Y.具有RNA-SEQ数据的EQTL分析的自动化质量控制管道。:2019年IEEE关于生物信息学和生物医学(BIBM)的国际会议,2019年;p。1780-1786。IEEE.gydF4y2Ba

  22. 22.gydF4y2Ba

    宗教秩序研究综述与发现。中国老年痴呆症杂志2012;9(6):628-45。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  23. 23.gydF4y2Ba

    贝内特AD,施耐德AJ,布奇曼SA,巴恩斯LL,博伊尔AP,威尔逊SR。概述,并从繁忙的内存和老化项目的调查结果。Curr Alzheimer Res。2012; 9(6):646-63。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  24. 24.gydF4y2Ba

    Allen M, Carrasquillo MM, Funk C, Heavner BD, Zou F, Younkin CS, Burgess JD, Chai H-S, Crook J, Eddy JA,等。阿尔茨海默病和其他神经退行性疾病的人类全基因组基因型和转录组数据科学数据。2016;3:160089。gydF4y2Ba

  25. 25.gydF4y2Ba

    Wang M, Beckmann ND, Roussos P, Wang E, Zhou X, Wang Q, Ming C, Neff R, Ma W, fulard JF, et al., 2014 . (sci)西奈山老年痴呆症的大规模基因组、转录组和蛋白质组数据。科学数据。2018;5:180185。gydF4y2Ba

  26. 26.gydF4y2Ba

    Hoffman GE, Bendl J, Voloudakis G, Montgomery KS, Sloofman L, Wang Y-C, Shah HR, Hauberg ME, Johnson JS, Girdhar K,等。Commonmind联盟提供了精神分裂症和双相情感障碍的转录组和表观基因组数据。科学数据。2019;6(1):1 - 14。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  27. 27.gydF4y2Ba

    Langmead B.将短测序读数与领结对齐。生物医学进展。2010;32(1):11-7。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  28. 28.gydF4y2Ba

    Langmead B,Salzberg SL。快速跳空阅读与领结2.纳特方法一致。2012; 9(4):357。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  29. 29.gydF4y2Ba

    Dobin A,Davis Ca,Schlesinger F,Drenkow J,Zaleski C,JH​​A S,Batut P,Chaisson M,Gingeras TR。星:超快通用RNA-SEQ对齐器。生物信息学。2013; 29(1):15-21。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  30. 30.gydF4y2Ba

    李斌,杜威出版社。RSEM:从有或没有参考基因组的RNA-seq数据中准确的转录本定量。BMC Bioinform。2011;12(1):323。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  31. 31。gydF4y2Ba

    Leek JT, Johnson WE, Parker HS, Jaffe AE, Storey JD。用于去除高通量实验中的批效应和其他不需要的变化的SVA包。生物信息学,2012,28(6):882 - 3。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  32. 32。gydF4y2Ba

    Nalls Ma,Pankratz N,Lill Cm,Do CB,Hernandez DG,Saad M,Destefano Al,Kara E,Bras J,Sharma M,等。基因组关联数据的大规模荟萃分析识别帕金森病的六个新风险基因座。NAT Genet。2014; 46(9):989。gydF4y2Ba

  33. 33.gydF4y2Ba

    常d,Nalls MA,HallgrímsdóttirIB,汉凯皮勒Ĵ,范德华吊桥男,柴楼Kerchner GA,阿亚隆G,宾格尔乙,盛M等人。全基因组关联分析识别的荟萃分析,17个新的帕金森氏症风险基因座。NAT Genet。2017; 49(10):1511。gydF4y2Ba

  34. 34.gydF4y2Ba

    Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MA, Bender D, Maller J, Sklar P, De Bakker PI, Daly MJ,等。Plink:全基因组关联和基于群体的连锁分析的工具集。中国生物医学工程学报。2007;41(3):559-75。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  35. 35.gydF4y2Ba

    鲁宾dB。推理和缺少数据。Biometrika。1976; 63(3):581-92。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  36. 36.gydF4y2Ba

    van der Wijst MG、Brugge H、de Vries DH、Deelen P、Swertz MA、Franke L。单细胞RNA测序鉴定细胞类型特异性顺式EQTL和共表达QTL。纳特·吉内特。2018;50(4):493.gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  37. 37.gydF4y2Ba

    Kang HM, Subramaniam M, Targ S, Nguyen M, Maliskova L, McCarthy E, Wan E, Wong S, Byrnes L, Lanata CM,等。利用自然遗传变异的多液滴单细胞rna测序。生物科技Nat》。2018;36(1):89。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  38. 38.gydF4y2Ba

    史蒂文斯EL,Heckenberg G,罗伯逊ED,Baugher JD,Downey的TJ,使用身份逐下降和身份逐状态在人口数据关系的佩夫斯纳J.推理。PLOS遗传学。2011; 7(9)。gydF4y2Ba

  39. 39.gydF4y2Ba

    王志强,王志强。种群结构与特征分析。公共科学图书馆麝猫。2006;2(12):190。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  40. 40。gydF4y2Ba

    达斯S,Forer L,圣豪S,Sidore C,洛克AE,广A,Vrieze SI,咀嚼EY,利维S,McGue M等人。下一代基因型归集服务和方法。NAT Genet。2016; 48(10):1284-7。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  41. 41。gydF4y2Ba

    Fuchsberger C, Abecasis GR, Hinds DA。Minimac2:更快的基因型输入。生物信息学,2015,31(5):782 - 4。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  42. 42。gydF4y2Ba

    布朗宁BL,褐变SR。基因型归责用数百万参考样品。am j人类遗传。2016; 98(1):116-26。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  43. 43。gydF4y2Ba

    豪伊B,富克斯贝格尔C,斯蒂芬男,MarchiniĴ,Abecasis GR。通过预先相位快速准确的基因型归责于全基因组关联分析。NAT Genet。2012; 44(8):955-9。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  44. 44。gydF4y2Ba

    McCarthy S, Das S, Kretzschmar W, Delaneau O, Wood AR, Teumer A, Kang HM, Fuchsberger C, Danecek P, Sharp K,等。64,976个单倍型的基因型参考面板。Nat麝猫。2016;48(10):1279 - 83。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  45. 45.gydF4y2Ba

    程磊,杨华,赵华,裴旭,史华,孙军,张勇,王智,周明。人工筛选的疾病代谢特征资源。短暂的Bioinform。2019;20(1):203 - 9。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  46. 46.gydF4y2Ba

    程磊,齐春,庄华,付涛,张晓霞。肠道疾病与肠道菌群失调的综合数据库研究。核酸Res. 2020;48(D1): 554-60。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  47. 47.gydF4y2Ba

    彭俊,惠万,李琦,陈B,郝琦,江Q,王X,Wei Z.使用神经网络的MiRNA-Disule Association识别基于学习的框架。生物信息学。2019; 35(21):4364-71。gydF4y2Ba

    文章gydF4y2Ba谷歌学术搜索gydF4y2Ba

  48. 48.gydF4y2Ba

    Bennett DA, Buchman AS, Boyle PA, Barnes LL, Wilson RS, Schneider JA。宗教修道会研究和加速记忆和衰老项目。中国老年痴呆症杂志。2018;64(1):161-89。gydF4y2Ba

  49. 49.gydF4y2Ba

    Mostafavi S,Gaiteri C,Sullivan Se,White Cc,Tasaki S,Xu J,Taga M,Klein H-U,Patrick E,Komashko V等人。老化人类大脑的分子网络为阿尔茨海默病的病理和认知衰退提供了见解。Nat Neurosci。2018; 21(6):811。gydF4y2Ba

下载参考gydF4y2Ba

确认gydF4y2Ba

我们感谢审稿暗示的意见。我们感谢贡献者ROSMAP研究。这里公布的结果是部分地基于从AMP-AD知识门户所获得的数据(gydF4y2Bahttps://doi.org/10.7303/syn2580853gydF4y2Ba)。ROSMAP研究数据由Rush Alzheimer的疾病中心提供,芝加哥Rush大学医疗中心提供。通过NIA Grants P30AG10161,R01AG15819,R01AG17917,R01AG30146,R01AG36836,U01AG32984和U01AG46152提供数据收集;伊利诺伊州公共卫生部;和翻译基因组学研究所。我们感谢贡献者对Commonmind学习。Compermind数据是由Takeda Pharmaceuticals Compual Limited资助的Commonmind联盟的一部分,F. Hoffman-La Roche Ltd和NIHRR01MH085542,R01MH093725,P50MH066392,P50MH080405,R01MH097276,RO1-MH-075916,P50M096891,P50MH084053S1,R37MH057881,R37MH057881,AG02219,AG05138,MH06692,R01MH110921,R01MH109677,R01MH109897,U01MH103392,并通过IRP NiMH收缩HHSN271201300031C。Brain tissue for the study was obtained from the following brain bank collections: the Mount Sinai NIH Brain and Tissue Repository, the University of Pennsylvania Alzheimer’s Disease Core Center, the University of Pittsburgh NeuroBioBank and Brain and Tissue Repositories, and the NIMH Human Brain Collection Core. CMC Leadership: Panos Roussos, Joseph Buxbaum, Andrew Chess, Schahram Akbarian, Vahram Haroutunian (Icahn School of Medicine at Mount Sinai), Bernie Devlin, David Lewis (University of Pittsburgh), Raquel Gur, Chang-Gyu Hahn (University of Pennsylvania), Enrico Domenici (University of Trento), Mette A. Peters, Solveig Sieberts (Sage Bionetworks), Thomas Lehner, Stefano Marenco, Barbara K. Lipska (NIMH). We thank the contributors to MayoRNAseq study. The results published here are in whole or in part based on data obtained from the AD Knowledge Portal (https://adknowledgeportal.orggydF4y2Ba)。Mayornaseq数据由以下来源提供:梅奥诊所阿尔茨海默氏症疾病遗传学研究,由努利弗拉纳博士和斯图涅G. Younkin,Mayo Clinic博士,杰克逊博士,佛罗里达州的梅奥诊所研究,梅奥诊所的研究阿尔茨海默氏病病研究中心,和梅奥诊所脑堤。通过NIA GRANTS P50 AG016574,R01 AG032990,U01 AG046139,R01 AG018023,U01 AG01396,R01 AG025711,R01 AG01211,R01 AG017216,R01 AG017216,NINDS Grant R01 NS080820,Curepsp基础以及从Mayo Foundation的支持。研究数据包括通过亚利桑那州太阳城的太阳健康研究所脑和身体捐赠计划收集的样本。亚利桑那州国家衰老研究所(P30 Ag19610亚利桑那州阿里主义者疾病疾病核心核心疾病核心疾病核心中心)支持大脑和尸体捐赠方案(U24 NS072026国家脑和组织资源)支持D.ep一个rtment of Health Services (contract 211002, Arizona Alzheimers Research Center), the Arizona Biomedical Research Commission (contracts 4001, 0011, 05-901 and 1001 to the Arizona Parkinson’s Disease Consortium) and the Michael J. Fox Foundation for Parkinsons Research. We thank the contributors to MSBB study. MSBB data were generated from postmortem brain tissue collected through the Mount Sinai VA Medical Center Brain Bank and were provided by Dr. Eric Schadt from Mount Sinai School of Medicine.

关于这个补充剂gydF4y2Ba

本文已作为《BMC Bioinformatics Volume 22 Suppleme欧宝娱乐合法吗nt 9, 2021: the Biological ontology and Knowledge bases workshop 2019: part 2》的一部分发表。该补充的全部内容可在网上找到gydF4y2Ba//www.christinemj.com/articles/supplements/volume-22-supplement-9gydF4y2Ba

资金gydF4y2Ba

该研究工作主要由中国国家自然科学基金(授予No.6207071829)和中国的国家重点研发方案(授予NoS:2017YFC0903和2017YFC1201201)。补助金支持对本手稿的数据和写作和出版的分析和解释。gydF4y2Ba

作者信息gydF4y2Ba

隶属关系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

TW设计了研究,实现了框架,分析了数据并撰写了论文。YL和JR共同实施框架,共同分析数据。XD、YW和JP监督研究,提供资金支持,并对论文进行了修改。所有作者阅读并批准了最终的手稿。gydF4y2Ba

相应的作者gydF4y2Ba

对应到gydF4y2Ba咸君洞gydF4y2Ba或gydF4y2BaYadong王gydF4y2Ba或gydF4y2Ba佳洁彭gydF4y2Ba.gydF4y2Ba

道德声明gydF4y2Ba

伦理批准和同意参与gydF4y2Ba

不适用。gydF4y2Ba

利益争夺gydF4y2Ba

两位作者宣称他们没有相互竞争的利益。gydF4y2Ba

附加信息gydF4y2Ba

出版商的注意gydF4y2Ba

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。gydF4y2Ba

权利和权限gydF4y2Ba

开放获取gydF4y2Ba本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba.创作共用及公共领域专用豁免书(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文提供的数据,除非在数据的信贷额度中另有说明。gydF4y2Ba

重印和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过CrossMark验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

王,T.,刘,Y.,阮经天,J.gydF4y2Ba等gydF4y2Ba基于RNA-SEQ的eqtl分析的管道,具有自动化质量控制程序。gydF4y2Ba欧宝娱乐合法吗22,gydF4y2Ba403 (2021). https://doi.org/10.1186/s12859-021-04307-0gydF4y2Ba

下载引用gydF4y2Ba