跳到主要内容

SVExpress:识别在邻近结构变异断点的表达中反复改变的基因特征

抽象的

背景

癌症的全基因组测序(WGS)和RNA测序的结合,为识别由于基因组重排而改变表达的基因提供了机会。体细胞结构变异(SVs),如WGS鉴定,可以涉及改变的基因CIS.- 重组,基因融合,拷贝数改变或基因破坏。没有计算工具来简化整合分析步骤可以代表识别因基因组重排常规改变的基因的屏障。

结果

在这里,我们介绍SVExpress,一套进行SV和基因表达数据综合分析的工具。SVExpress能够系统地对基因进行分类,这些基因一致地表现出表达增加或减少,同时伴随附近SV断点的存在。SVExpress可以评估靠近基因的断点,以发现潜在的增强子易位事件或拓扑相关域的破坏,这两种机制可以使svv解除对基因的调控。任何常用的SV调用算法的输出都可以很容易地用于SVExpress。SVExpress可以很容易地分析涉及数百个癌症样本的基因组数据集。在这里,我们使用SVExpress分析了327个癌细胞系的SV和表达数据,并结合了癌细胞系百科全书(cancer cell Line Encyclopedia, CCLE)中的SV和表达数据。在CCLE数据集中,数百个基因显示与附近SV断点相关的基因表达改变。改变的基因涉及TAD破坏、增强子劫持和基因融合。当比较组顶部SV-altered基因与顶部SV-altered癌症细胞系基因之前报道人类肿瘤癌症基因组图谱和Pan-Cancer整个基因组数据集的分析,大量的基因重叠在同一个方向细胞系和肿瘤,有些基因对细胞系有意义,但对人类肿瘤没有意义,反之亦然。

结论

我们的SVExPress工具允许计算生物学家具有R的工作知识,将基因表达与SV断点数据集成,以识别复发改变的基因。SVExpress可免费用于学术或商业用途,网址为https://github.com/chadcreighton/svexpress..Svexpress作为一组Excel宏和R代码实现。可以使用所有源代码(R和Visual Basic for Applications)。

背景

在癌症中,体细胞结构变异(SV)是癌症基因组内的大型DNA段的重排。SVS可能以几种方式影响附近的基因表达,包括形成融合转录物或破坏或重新定位在基因附近的顺式调节元件。我们最近的研究[123.4已经证明了一种分析方法,以将SV与基因表达数据整合,鉴定改变的表达与附近的SV断点之间的基因级关联在邻近基因。与SVS结合的基因可递归致力于SVS,可能涉及拓扑相关的结构域(TAD)破坏或增强剂劫持。SV涉及两个断点,代表两个相应的基因组坐标的融合。我们的SV表达综合分析方法中涉及的一些单独的步骤包括构建基因对样本点模式矩阵,线性回归建模,以将改变的表达与附近断点相关联,并识别推定的增强器劫持和TAD中断事件。这些步骤将用于使用R,Excel或Bedtools等标准工具从头开始的大多数分析师进行劳动密集型[5].缺少的计算工具来简化这些步骤可能代表一个障碍别人来实现我们的做法在其他数据集的能力。

用于与表达数据集成SV其它公布的方法包括顺式 - X [6,它分析来自单一癌症样本的数据。顺- x首先发现异常的顺式激活基因,这些基因表现出等位基因特异性表达,并伴有较高的异常表达,然后搜索包括sv相关增强子劫持在内的因果非编码变异。相比之下,我们的数据整合方法利用大样本队列,而不是单一样本,以识别在多个样本中经常受到sv影响的基因。另一个软件包SV-HotSpot [7[识别由一组癌症样本表示的SV断点的热点,然后可以评估涉及附近基因的表达关联的热点。相比之下,我们的方法不能专门关注热点模式,因为我们发现有助于解除管制表达的SV可能涉及围绕给定基因的大区域的断点,而不限于热点也不限于单个机制[123.4].我们的方法在许多方面类似于CIS表达式结构改变映射(CESAM)方法[89[还依赖于线性回归建模,以将表达式与SV断点图案集成在大量样品上。然而,对于基因对样本断点矩阵,CESAM将SV断点分配给垃圾箱,如果它们落入相同的预注释的TAD。相比之下,我们的方法不会限制为破坏SV或潜在的增强者劫持事件的TAD。没有使用CESAM方法的公共软件工具似乎可用。虽然我们的方法或CESAM涉及的线性建模步骤对于生物信息学用户来说应该相对简单地进行使用R,但是没有用户友好的软件可用于将SV数据编译成具有表达数据的线性建模的形式。

如在此提出的那样,我们的“SVEXPRESS”套件的计算工具允许允许识别用于SV和基因转录的一组癌症样本的SV断点到表达关联。SVEXPRESS作为输入表SOMIC SV断点,基因对样本表达矩阵和基因对样本拷贝数改变(CNA)基质。使用Excel Visual Basic for Applications(VBA),然后,SVExpress构造基因对样本断点矩阵,然后使用提供的R代码通过线性回归建模与表达式矩阵集成。此外,使用SVEXPRESS,可以根据增强剂劫持(例如,在接近其他断点附近的基因的一个断点所代表的增强剂的定位)或在其他断点的中断方面来检查鉴定的TOP SV-基因缔合。可以使用我们的工具容易地分析涉及数百个癌症样品曲线的基因组数据集。SVEXPRESS旨在适用于那些不一定具有编程或计算技能的人以及生物信息管理员。作为Svexpress的示范,在这里,我们还在癌细胞系(CCL)中的327个癌细胞系中分析了SV和表达数据[10].

执行

生成基因 - 样本SV断点矩阵

数字1提供了SVExpress套件的计算工具的工作流程图。在Excel中,使用者组装与体SV断点(使用来自任何常用的SV调用算法标准输出)和所有基因的坐标的另一表中的一个表的工作簿。一个Excel宏然后生成一个基因到样品SV断点矩阵,基于相对于每个基因的感兴趣的用户指定的区域。例如,给定的基因中发生的断点可能涉及肿瘤抑制基因的基因融合或破坏[3.],断点位于基因周围较大区域(例如~ 1 Mb)内,可能涉及增强子劫持事件[23.].使用每个基因周围的1 MB区域,用户可以指定“相对距离度量”选项[2[所以发生接近该基因的断点将在识别SV表达关联时具有更多的数值,而在1 MB之内进一步远离的断点可以产生一些影响。当不使用1 MB距离度量选项时,如果在给定样本中给定基因的指定区域中发生断点,则基因对样本矩阵条目为1,如果否则,则为0。生成的断点矩阵用于涉及SVEXPRESS R码的线性建模步骤(见下文)。宏还可以生成与用于构造矩阵的基因到SV关联的集合集合的标识符(如果多个断点位于给定区域中,则使用最接近基因的SV断点)。然后可以检查这些基因对SV关联的劫持增强剂劫持事件或TAD中断(见下文)。

图。1
图1

对于SVExpress一套计算工具工作流程图。SVExpress识别SV断点到表达关联跨一组轮廓两者的SV和基因转录癌症样品。最初,SVExpress作为输入SV断点的一个表和一组基因的坐标(其可以使用任何标准SV调用算法来生成)。SVExpress然后构造使用Excel宏(“Generate_Gene_to_Sample_SV_Table”)的基因到样品的断点矩阵。然后,用户可以借此断点基质,并将其与通过线性回归用于基因表达和基因水平拷贝数改变(CNA)相应矩阵使用条件是R代码建模集成。此代码生成p每个基因的值和T统计,将SV断点模式与表达相关,有或不校正CNA。Furthermore, using SVExpress Excel macros, a set of SV-gene associations identified can be examined in terms of enhancer hijacking (e.g., an enhancer represented by one breakpoint positioned in proximity to a gene nearby the other breakpoint) or in terms of disruption of TADs. SVExpress carries out the above using the "Generate_SV_to_Enhancer_Associations" and "Generate_SV_to_TAD_Associations" macros, respectively. SV, Structural Variant; CNA, copy number alteration; TAD, topologically associated domain

产生基因对断点表达式相关性

用户为表达、CNA和SV断点模式组装基因-样本数据矩阵(后一个矩阵使用上面的SVExpress Excel宏组装)。然后,作为SVExpress的一部分提供的R代码进行线性建模,以评估每个基因的表达与附近SV断点的存在之间的相关性。可以考虑每个基因的多个线性模型,包括校正基因水平CNA的模型。因为基因组重排通常与广泛的CNA模式相关[123.4], sv -表达关联在纳入CNA的模型中仍然重要,这可能是主要的兴趣。对于考虑的每个模型(有或没有CNA作为协变量),结果提供t统计量和p每个基因表达的价值与断点相关性。鉴于意义p可使用Storey和Tibshirani等标准方法[11].如果表达或CNA数据中存在任何技术批处理效果,则应在线性建模步骤(例如,使用战斗[12])。

将增强子与基因到sv的映射相关联

Svexpress可以搜索给定的一组基因到断点关联(使用第一个SV断点定义)用于由第二SV断点表示的潜在增强器易位事件。使用提供的Excel宏和SV断点的输入表,SVExpress可以生成涉及每个样本的一组基因到SV关联。对于每个关联,Svexpress从其他SV断点检查区域1 MB,以便在邻近基因附近重新定位的任何增强剂。SVEXPRESS还识别位于未妨碍基因上游的1 MB内的任何增强子。然后,用户可以希望比较为涉及基因过表达的基因对样本到SV关联子集的增强器劫持事件的数量,其中包含为整个基因对的增强剂劫持事件的数量 -样本到SV关联。以前,我们观察到涉及与基因过度表达相关的SVS组涉及的推定增强剂劫持事件的显着富集123.4].对于上面,用户组装增强器坐标的表,该表可能来自多个数据源,包括编码项目[13.].

将TAD与SVS相关联

SVExpress Macro搜索给定的一组SV断点,并注意每个SV是否是“TAD保留”或“TAD中断”。对于保留SVS的TAD,SV断点都位于同一TAD中。对于破坏SVS的TAD,SV断点跨越不同TAD的边界。对于与基因过度表达相关的SV,我们以前观察到TAD破坏SVS的显着富集[23.].用户组装上述TAD边界表,这可能来自其他研究[14.].

结果

上的基因表达模式在癌细胞系SV的全球影响

作为SVExpress的演示,我们使用它来评估癌症细胞系百科全书(CCLE)中327个癌细胞系的表达与附近体细胞SV断点之间的基因水平关联,并使用全基因组测序(WGS)数据。CCLE数据集来自2019年发布的[10],通过RNA测序(RNA-SEQ)的基因级RSEM表达式呼叫。先前通过SVABA算法在这些细胞系中进行了体细胞SV呼叫[10].对于每个有表达数据的基因,我们评估了每一组区域窗口内附近SV断点的模式:基因上游100 kb,基因下游100 kb,基因体内,以及基因上游或下游1 Mb。使用SVExpress Excel宏,我们收集了20153个独特命名基因和327个细胞株的断点模式数据矩阵。使用SVExpress R代码,我们通过校正癌症类型和基因水平CNA的线性模型评估每个基因的表达和SV断点模式之间的关联。

数百个基因显示有关附近的SV断点的基因表达改变,包括位于基因的下游或在基因体中发生的断裂点的断点(图。2a和附加文件1:数据文件S1).纳入对基因水平CNA的统计校正降低了重要基因的总体数量,反映了以前对SV断点与拷贝数增加的全球关联的观察[13.].许多更多的基因显示出与SV断点的正相关(即,当存在附近的SV断点时的表达趋于更高,而存在于存在的A型断点时)比负相关。当考虑每个基因的上游或下游的1 MB区域窗口(使用先前描述的“距离度量”模型[2[肿瘤类型和CNA的校正),725个基因显示出与SV断点的正相关,与CNA无关,31个基因显示出负相关(FDR <10%[11])。与SV断点呈正相关的基因包括许多已知的癌症,而基因呈负相关的基因包括许多已知的肿瘤抑制基因(图。2b)。基因内的SV断点可能会破坏肿瘤抑制剂[3.],这里观察到这种基因的TP53RB1,KEAP1

图2
图2.

在327个癌细胞系中与附近的SV断点相关的改变的基因。一个For each of the indicated genomic region windows examined, numbers of significant genes (FDR < 10%) showing a correlation between expression and associated SV event across 327 cancer cell lines with WGS and expression data [10].y轴零点以上和以下的数字分别表示正相关和负相关的基因。当校正癌症类型(灰色)和癌症类型和基因水平的CNA(黑色)时,线性回归模型评估了显著的相关性。对于1 Mb区域窗口,模型加权断点的相对基因距离[2].b1249个基因在任何区域窗口(FDR < 10%,校正了癌症类型和CNA)显著性模式的热图。红色表示显著正相关;蓝色,显著负相关。列出的基因与癌症有关[23.].c癌细胞株中基因的意义,如图(y轴)与受附近SV断点(1mb内)影响的细胞株数量(表达> 0.4SD来自样本中值)的对比。dPCAWG-TCGA联合队列基因的意义(2334例患者,x轴)[2],与它们在癌症细胞系队列中的意义(327细胞系,y轴)相比[10].左上象限的基因仅达到327癌细胞系数据集。对于零部件C和D,显着的基因由1 MB区域窗口定义,校正肿瘤类型和CNA,并“癌症相关”是宇宙的[23.].SV,结构变体;FDR,虚假发现率;ccle,癌细胞系百科全书;PCAWG,全基因组的泛癌分析;TCGA,癌症基因组图集

我们之前分析了来自多个组织类型(2334例患者)的人类肿瘤联合PCAWG-TCGA队列的WGS和表达数据,以确定与SV断点相关的反复改变的基因集[2].当从人肿瘤的结果与CCL细胞系的结果进行比较时,大量基因在相同方向上重叠,而一些基因在一个数据集中是显着的,但不是另一个基因(图。2C,D)。专注于每个基因的1 MB区域(校正癌症类型和CNA),每个数据集的82个基因为FDR <10%,两个结果集之间重叠,一个非常重要的重叠(p< 1E−14,单边Fisher精确检验,图2d)。对于CCLE细胞系而言,癌症是显着的,但不包括PCAWG-TCGA人肿瘤MYCNNUTM1,ESR1..人类肿瘤的显着性,但不适用于细胞系包括癌症BCL2受潮湿腐烂尔格MDM2和肿瘤抑制基因PTENSTK11.,CDKN2A.然而,对于在检查的其他区域中的一个其他区域中,一些使用CCL DataSet中的1 MB区域没有显着的一些基因(附加文件1:数据文件S1).两组结果之间的差异可能部分源于各自数据集中所代表的不同癌症。

sv相关TAD在癌细胞系中的破坏和增强子劫持事件

使用SVEXPRESS宏观,我们可以评估似乎反映SV介导的TAD或增强剂劫持的阳性SV表达相关性的分数。从人体细胞中的TAD坐标上的输入数据[13.14.]中,SVExpress宏归类所有SV在由那些被TAD妨害对那些是非破坏CCLE数据集。涉及基因在SV断点结合过表达的SV的亚组显著富集TAD-破坏的SV(图3.一个p< 1E−45,卡方检验),与之前在人类肿瘤中的观察结果一致[3.].使用其他SVExpress宏,我们生成了在彼此1 MB内发生的所有SV断点到基因关联。然后,我们检查了每个基因的SV断点所代表的易位区域,用于任何涉及的增强剂[13.].与过表达基因相关的SV断点是显着富集的(p< 1E−8,卡方检验)的假定增强子易位事件,重排带来一个增强子在基因的500 kb内(图。3.b),涉及181个过表达的基因和145个细胞系(图。3.c和附加文件1:数据文件S1).

图3.
图3.

与癌细胞系中的TAD和易位增强剂相关联的SVS。一个sv相比,分数的sv涉及拓扑关联域(少量)破坏和改变基因表达(定义为罗斯福< 10%,使用1 Mb的基因区域窗口,为肿瘤类型和CNA修正,和表达> 0.4 sd或≤4 sd值的窝藏断点的情况)。基于WGS数据分析327个肿瘤细胞系的结果[10].pChi平方测试的值。b百分比的SV的易位断点协会涉及增强器在0.5 Mb的SV断点接近基因(小于1 Mb内任何增强剂的基因),作为整个组SV断点列表关联的断点的伴侣在远端基因,以及涉及改变基因表达的SV断点关联子集(定义见a部分)。PChi平方测试的值。c按基因和癌症类型,涉及增强子易位的SV断点关联的数量,每个基因至少涉及两个细胞系。结果涉及60个基因和159个细胞系

svv与癌症细胞系中预测的基因融合有关

基于RNA-SEQ融合预测,基于嵌合测序读数,可以与结合SVExpress利用体SV数据加以改进。出由RNA-seq的分析确定5277个候选人融合事件[10](STAR-融合算法)涉及与WGS数据,2307(44%)的327 CCLE细胞系对应于SV断点的一个或两个基因中发现(图4一个),以及这些的1636涉及通过SVExpress高表达关联。这组与载体最高级别1636个融合呼叫涉及1604个不同的基因融合体和226个细胞系(附加文件1:S1),以及涉及过表达的基因内的大多数基因内的SV断点事件(图。4b).在一个以上的细胞系中检测到25个融合(图。4c),其中许多已经在人类肿瘤中检测到,包括RPS6KB1-VMP1.15.],Wwox.-vat1l.16.],ASCC1-Micu1.17.],ESR1.-CCDC17018.],FHOD3-蒙皮19.],IMMP2L.-Dock4.19.],LRBA-SH3D1919.],PPFIBP1-SMCO219.],PVT1-CASC1120.],PVT1-Casc8.20.],PXN.-PLA2G1B.21.],TBC1D22A-克明4.19.),而TRMT11-NCOA719.].众所周知的前列腺癌TMPRSS2基因融合[22.]也分别在CCLE数据通过RNA-SEQ STAR-融合算法检测到,在VCAP和NCIH660细胞系,但这些细胞系不具有对应的WGS数据SV呼叫。

图4.
图4.

通过RNA-SEQ和WGs鉴定癌细胞系中基因融合事件。一个在5277个候选融合事件中,由RNA-SEQ分析(使用星形融合算法),涉及具有WGS数据的327个细胞系[10],来自Somatic SV分析的支持数量。如所示,对于2307候选融合事件,在一个或两种基因内发现SV断点,具有和不具有高表达协会。这里定义了高表达关联作为下列结果之一:(1)用于在一个或两个肿瘤中发生的融合事件,无论每个肿瘤是否每种肿瘤从中位数中的表达> 0.4SD;或(2)SV断点与表达增加之间的重要关联是否(p< 0.01,即结合肿瘤类型和CNA的线性模型)。b在与过表达基因相关的853个基因体SV断点事件(从样品中值定义为> 0.4SD,涉及图192的组192基因的事件。2对于FDR <10%,校正肿瘤类型和CNA),表明了与基因融合组合的RNA-SEQ和SV分析或高级基因扩增相关的事件的分数。c具有RNA-SEQ和SV载体的基因融合(即,检测到两个基因中的至少一种的断裂点),具有高表达关联(部分A)并涉及多于两种细胞系。癌症类型沿顶部和融合事件的着色表示

评估其他公共软件,将SV与表达数据集成

我们在另外两个公共软件工具的上下文中检查了来自CCL的SVExpress结果,用于将SV与表达数据集成:SV-HOTSPOT [7]和cis-x [6].上述每个工具利用不同的数据集成方法。SV-Hotspot作为第一步,识别复发性SV和它们的目标热点区域,然后测试与这些SV热点相关的基因显示表达式的相应变化。因此,SV-Hotspot显着的基因必须显示SV热点模式和SV相关改变的表达。另一方面,CIS-X首先识别表现出具有组合的等位基因特异性表达(ASE)和异常高表达的候选顺式激活基因。然后将这些候选顺式激活基因与任何附近的SV断点相关联。CIS-X软件单独评估样品,而SV-HOTSPOT和SVEXPRESS一起分析群组中的所有样本,以识别复发模式。与CIS-X或SV热点相比,SVEXPRESS分别不依赖于ASE或SV热点模式。SVEXPRESS不假设SV相关的解毒基因的放松管置的机制,并且例如,不涉及TAD破坏或增强剂劫持的SV断点可能仍然可以通过SVEXPRESS促进显着的基因模式。

我们使用SV-HOTSPOT分析了CCLS SV数据集。在使用SVEXPRESS的上述CCL DATASET中的20,153个基因中,SV-HOTSPOT鉴定了与SV热点相关的4451个基因,定义为具有分析327个细胞系中超过10%的基因组区域的基因组区域。在这些4451个基因中,344重叠,与Svexpress(FDR <10%有关的1249个基因重叠(使用1 MB基因组区域窗口并校正癌症类型和CNA),这种重叠在统计学上显着(p = 1.6E−6, one-sided Fisher’s exact test, Fig.5a).值得注意的是,在SVExpress中显著的大多数基因在SV-HotSpot中并不显著,因为这些基因可能涉及不到10%的细胞系,因此不会通过SV-HotSpot的热点过滤器。以2号染色体为例(图。5b),Svexpress涉及Hotspots的61个基因中的17个,包括宇宙[23.]基因LRP1B.erbb4.而且没有涉及包含热点的宇宙基因MYCN碱性.2号染色体上最高的热点峰值参与LRP1B.但是,尽管使用SV-Hotspot识别的其他高热点峰不涉及任何感兴趣的基因。

图5.
图5.

SVEXPRESS评估结果在SV-HOTSPOT和CIS-X SV分析工具的背景下。一个从使用CCL数据集的结果,Venn图表示与SVExpress(FDR <10%,使用1 MB区域窗口和癌症类型和CNA校正癌症类型和CNA)显着与SV断点显着相关的基因之间的重叠与附近的SV相关的基因SV-Hotspot的热点峰值[7].P值由单面费舍尔的确切测试。列出的基因,涉及SVEXPRESS和SV-HOTSPOT结果之间的重叠,也有宇宙的先前癌症协会[23.].b基因组位置对染色体2的SV热点峰值调查。SV-Hotspot使用10%的单元格线的默认阈值来调用SV Hotspot峰值。沿着图的顶部,表示由SVEXPRESS显着的基因的基因组位置。星号表示还与SV热点峰相关的重要的SVEXPRESS基因。c对于500 KB的内癌细胞系与SV断点MYCN具有增加的表达相关的特定等位基因的图案。P使用CIS-X的二项式测试的值[6

SV断点和改变的顺式调节之间的关联可能被ASE模式进一步证明,因此具有体细胞变异的等位基因可能是具有异常表达的等位基因。我们用顺x来表示MYCN,癌症相关的基因显着,由Svexpress而不是SV-Hotspot。使用CIS-X和17个细胞系的RNA-SEQ BAM文件,其中SV断点发生在500 kB内MYCN,我们可以观察到SV相关的上调MYCN出现等位基因特异性(图5C)。具有高的细胞系MYCN表达倾向于显示ASE为MYCNMYCN改变的细胞系包括肺、自主神经节、胃、骨和胰腺。最近,我们还使用cis-X验证了两个基因的ASE模式(MYB)用在儿科脑肿瘤的队列SV-相关改变的表达通过SVExpress [4].顺式- x ASE分析在某种程度上受到有关区域遗传标记可用性的限制。

SVExpress可以被认为是比SV-Hotspot或CIS-X更可访问的用户,并且Svexpress与Windows或MacOS兼容。SV-Hotspot和CIS-X都需要蚊帐,其中依赖于unix [5].RNA-SEQ BAM文件的CIS-X的要求(作为ASE分析步骤的一部分)使得该软件资源密集型,以及这里需要高性能计算环境。原始的顺式X研究精神分析了仅为13 T族急性淋巴细胞白血病[6,但是使用顺式x对327个癌细胞系进行类似的研究将是一项重大的努力。相比之下,SVExpress的潜在用户可能并不局限于能够轻松访问高性能计算的高技能计算生物学家。基本上,任何拥有Windows或macOS桌面的用户都可以使用SVExpress。正如这里演示的,SVExpress可以识别sv相关的感兴趣的基因,然后可以选择使用cis-X或SV-HotSpot进一步检查这些基因,因为每个软件都代表其具有相关优势的独特方法。

讨论

本文提供的SVExpress工具使普通用户能够对体细胞svv和癌症样本中的基因表达数据进行综合分析。全基因组泛癌分析(PCAWG)联盟和其他组织最近的研究表明[24.[组合的全基因组DNA和癌症的RNA测序正在成为癌症基因组学研究的标准组分。与泛癌分析的结果相比,个体癌症类型可以显示出不同一组基因,其表达改变与体细胞SV断点相关[2].因此,未来的研究可以使用SVEXPRESS来探索个体癌症类型,因为可以使用具有分析数据的患者样品的更多患者样本。

通过对细胞系数据的分析,我们在此发现,如前所述,各种类型的人类肿瘤中,体细胞SV介导的CIS调节改变的总体现象[123.4],也在细胞系中的工作,但是用稍微不同的改变基因。现在在细胞系和人肿瘤中观察到这种现象的方面包括以下内容:数百个基因常用地受到抗病毒的基因,涉及广泛的CNA模式的基因的SV断裂点,还有更多的基因增加与SV断点相关的表达减少,分别代表已知的癌肠和肿瘤抑制基因的过表达和表达的基因。如预期的,我们的分析方法不假设改变表达的特定机制,因为可能有多种给定基因涉及多个样品的多种机制。Svexpress可以揭示相关性,但不一定不一定展示对特定机制的因果关系或指向。尽管如此,SVExpress识别涉及一些改变的表达事件的易位增强剂的能力可以提供关于改变顺式调节的机制的线索。但是,这种增强子协会可能需要实验证实。

结论

我们的SVExpress工具允许具有R工作知识的计算生物学家识别SV事件,这些事件可能涉及基因融合(例如,给定基因中与过表达相关的断点)、基因中断(基因中与表达丢失相关的断点)、增强子劫持或TAD中断。SVExpress可免费用于学术或商业用途,网址为https://github.com/chadcreighton/svexpress..与SVExpress宏和R-代码提供由癌细胞系百科全书[示例数据10],以及使用说明。可以使用所有源代码(R和Visual Basic for Applications)。

可用性和要求

项目名称:SVEXPRESS。

项目主页:欧宝直播官网apphttps://github.com/chadcreighton/svexpress.

操作系统:Windows或macOS。

编程语言:R和Excel的Visual Basic应用程序(VBA)。

其他要求:没有。

许可:开源。

非学术界使用的任何限制:无。

可用性数据和材料

SVExpress可免费用于学术或商业用途,网址为https://github.com/chadcreighton/svexpress..CCL数据集可用https://portals.broadinstitute.org/ccle/data.

缩写

ccle:

癌症细胞系百科全书

SV:

结构变体

中央社:

拷贝数改变

WGS:

全基因组测序

TCGA:

癌症基因组图集

PCAWG:

全基因组的泛癌分析

参考

  1. 1.

    张Y,陈F,Fonseca N,He Y,Fujita M,Nakagawa H,Zhang Z,Brazma A,PCAWG_Transcriptome_Working_Group,PCAWG_Structural_varization_Working_Group等。1220癌症的高覆盖全基因组分析揭示了通过重排介导的顺式调节改变管制的数百个基因。NAT Communce。2020;11(1):736。

  2. 2。

    张y,杨l,kucherlapati m,hadjipanayis a,pantazi a,bristow c,lee e,mahadeshwar h,唐j,zhang j等。体细胞结构变异对人类癌症DNA甲基叶片的全局影响。基因组Biol。2019; 20:209。

    文章谷歌学术

  3. 3.

    张Y,杨L,Kucherlapati男,陈男,Hadjipanayis A,Pantazi A,布里斯托C,利E,Mahadeshwar H,唐J,等。通过体细胞基因组重排跨越多于1400案件失调的基因的泛癌汇编。细胞报道2018; 24(2):515-27。

    CAS.文章谷歌学术

  4. 4。

    张勇,陈峰,陈芳,张勇,陈芳。儿童脑肿瘤体细胞基因组重排的基因图谱。Nat Commun。2021;12(1):937。

    CAS.文章谷歌学术

  5. 5。

    昆兰A,大厅一BEDTools:公用事业比较基因组功能,灵活的套件。生物信息学。2010; 26(6):841-2。

    CAS.文章谷歌学术

  6. 6。

    刘y,李c,沉s,陈X,szlachta k,edmonson m,shao y,ma x,hyle j,wright s等人。用CIS-X发现单个癌症基因组中的调节性非沉积变体。NAT Genet。2020; 52(8):811-8。

    CAS.文章谷歌学术

  7. 7。

    冯峰,张海涛,赵胜,杨荣华,杨荣华,冯峰,党华,马贺。SV-HotSpot:基因表达相关结构变异的热点检测与可视化。Sci众议员2020;10(1):15890。

    CAS.文章谷歌学术

  8. 8。

    陈永强,陈永强,陈永强,等。体细胞拷贝数改变的泛癌分析表明IRS4和IGF2参与增强子劫持。Nat麝猫。2017;49(1):65 - 74。

    CAS.文章谷歌学术

  9. 9。

    诺斯科特P,Buchhalter I,Morrossy A,Hovestadt V,Weischenfeldt J,Ehrenberger T,Gröbners,Segura-Wang M,Zichner T,Rudneva v等。Medulloblastoma亚型的全基因组景观。自然。2017; 547(7663):311-7。

    CAS.文章谷歌学术

  10. 10.

    Ghandi M,Huang F,Jané-valbuena J,Kryukov G,Lo C,McDonald E,Barretina J,Gelfand E,Bielski C,Li H,等。癌细胞系百科全书的下一代表征。自然。2019; 569(7757):503-8。

    CAS.文章谷歌学术

  11. 11.

    斯托JD,对全基因组研究Tibshirani R.统计学意义。Proc Natl Acad Sci USA。2003; 100:9440-5。

    CAS.文章谷歌学术

  12. 12.

    Johnson W,Rabinovic A,Li C.使用经验贝叶斯方法调整微阵列表达数据中的批量效应。生物统计学。2007; 8(1):118-27。

    文章谷歌学术

  13. 13。

    Kumar S,Warrell J,Li S,McGillivray PD,Meyerson W,Salichos L,Harmanci A,Martinez-Fundichely A,Chan CWy,Nielsen MM等。超过2500例癌症基因组的乘客突变:总体分子功能影响和后果。细胞。2020;180(5):915-27。

  14. 14。

    Dixon J,Selvaraj S,Yue F,Kim A,Li Y,Shen Y,Hu M,Liu J,Ren B.通过分析染色质相互作用鉴定的哺乳动物基因组中的拓扑结构域。自然。2012; 485(7398):376-80。

    CAS.文章谷歌学术

  15. 15.

    Inaki K,Hillmer A,Ukil L,Yao F,Woo X,Vardy L,Zawack K,Lee C,Ariyaratne P,Chan Y等。基因组结构畸变在乳腺癌中的转录后果。Genome Res。2011; 21(5):676-87。

    CAS.文章谷歌学术

  16. 16。

    作者相关文章:Nik-Zainal S, Davies H, Staaf J, Ramakrishna M, Glodzik D, Zou X, Martincorena I, Alexandrov L, Martin S, Wedge D, et al.;560例乳腺癌全基因组序列的体细胞突变景观。大自然。2016;534(7605):47-54。

    CAS.文章谷歌学术

  17. 17。

    金R,月亮H,韩W,卢D.视角洞察乳腺癌未来的潜在融合基因生物标志物的候选人。int j mol sci。2018; 19(2):502。

    文章谷歌学术

  18. 18。

    Veeraraghavan J,Tan Y,Cao X,Kim J,Wang X,Chamness G,Maiti S,Cooper L,Edwards D,Contreras A等。经常性ESR1-CCDC170在雌激素受体阳性乳腺癌的激进子集中重排。NAT Communce。2014; 5(1):4577。

    CAS.文章谷歌学术

  19. 19。

    王强,王志强,王志强,王志强,王志强。肿瘤相关转录本融合的研究进展。致癌基因。2014;34(37):4845 - 54。

    文章谷歌学术

  20. 20.

    GHETTI M,Vannini I,Storlazzi C,Martinelli G,Simonetti G.在血液恶性恶性肿瘤和免疫反应中的线性和圆形PVT1:同一硬币的两个面。莫癌。2020; 19(1):69。

    CAS.文章谷歌学术

  21. 21.

    Zheng S, Cherniack A, Dewal N, Moffitt R, Danilova L, Murray B, Lerario A, Else T, Knijnenburg T, Ciriello G, et al.;肾上腺皮质癌的全基因组特征。癌细胞。2016;29(5):723 - 36。

    CAS.文章谷歌学术

  22. 22.

    Tomlins S, Rhodes D, Perner S, Dhanasekaran S, Mehra R, Sun X, Varambally S, Cao X, Tchinda J, Kuefer R,等。TMPRSS2和ETS转录因子基因在前列腺癌中的复发融合科学。2005;310(5748):644 - 8。

    CAS.文章谷歌学术

  23. 23.

    Forbes S, Beare D, Boutselakis H, Bamford S, Bindal N, Tate J, Cole C, Ward S, Dawson E, Ponting L,等。COSMIC:高分辨率的体细胞癌症遗传学。核酸Res. 2017;45(D1): D777-83。

    CAS.文章谷歌学术

  24. 24。

    the_icgc-tcga_pan-cancer_analysis_of_whole_genomes_network。全基因组的泛癌分析。自然。2020;578(7793):82-93。

下载参考

资金

这项工作得到了美国国立卫生研究院(NIH) P30CA125123基金的支持。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有发挥任何作用。

作者信息

从属关系

作者

贡献

概念化,c.j.c;方法,C.J.C.,Y.Z;调查,Y.Z.,F.C.和C.J.C;正式分析,Y.Z.,F.C.和C.J.C;数据策策,Y.Z.,F.C.和C.j.c ;;可视化,c.j.c ;;写作,c.j.c;稿件评论,Y.Z.和f.c;监督,C.J.C. All authors have read and approved the manuscript.

相应的作者

对应于乍得J. Creighton.

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者声明没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1。

数据文件S1: sv表达综合分析结果来自癌症细胞系百科全书(CCLE)。提供全套的能够表达之间的相关性和附近的体细胞SV断点与WGS 327 CCLE细胞系数据,根据地区检查(例如,0 - 100 kb的上游,下游0 - 100 kb,基因内的身体,或1 Mb上游或下游)和回归模型应用(有或没有CNA校正)。对于1 Mb区域窗口,模型中对断点的相对基因距离进行了加权。一个单独的标签提供FDR < 10%的任何区域的顶级基因(用Story和Tibshirani方法FDR校正CNA)。另一个标签提供了与增强子劫持和基因过表达相关的svv。另一个标签提供了RNA-seq基因融合预测的信息,也得到了327细胞系的WGS分析的支持。作为一个Excel文件提供。(XLSX 9301 KB)

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Zhang,Y.,Chen,F.&Crei​​ghton,C.J.Svexpress:鉴定基因特征在附近的结构变体断裂点表达式中常用改变。欧宝娱乐合法吗22,135(2021)。https://doi.org/10.1186/s12859-021-04072-0.

下载引用

关键词

  • 癌症
  • 结构变异
  • 基因组重排
  • 全基因组测序
  • CCLE
  • 数据集成
  • 多分析