跳过主要内容

GECO:用于模式非线性数据可视化的基因表达聚类优化应用

摘要

背景

由于测序技术的不断进步,通过“组学”透镜来理解生物系统的限制不再是数据的生成,而是分析数据的能力。重要的是,这些丰富的组学数据中有许多是公开的,有待进一步研究。尽管存在许多基于代码的管道,但缺少用户友好且可访问的应用程序来支持数据的快速分析或可视化。

结果

基因表达聚类优化;http://www.theGECOapp.com)是一个简约的GUI应用程序,利用非线性还原技术,快速可视化表达趋势在许多类型的生物数据矩阵(如bulk RNA-seq或蛋白质组学)。所需的输入是带有样本的数据矩阵和具有唯一ID的任何类型的基因/蛋白质/其他表达水平。输出是一个交互式t-SNE或UMAP分析,基于多个样本的表达模式对基因(或蛋白质/其他唯一id)进行聚类,从而可视化表达趋势。可定制的降维设置,数据规范化,以及可视化参数,包括着色和过滤器,确保对各种用户上传的数据的适应性。

结论

这个本地和云托管的web浏览器应用程序能够以快速和代码独立的方式调查任何-omic数据矩阵。随着可用的组学数据的持续增长,快速评估数据集(包括感兴趣的特定基因)的能力比以往任何时候都更加重要。GECO旨在补充传统的统计分析方法,当在许多样本(例如:多种细胞类型、时间过程、剂量反应)中可视化具有相似轨迹的基因簇时特别有用。用户将被授权用可视化和分析的新视角来研究-组学数据,这有可能发现感兴趣的基因,共调控基因程序的队列,以及以前未检测到的表达模式。

背景

下一代测序革命已经产生了大量的数据[12].虽然这些数据中的大部分可以在公共仓库或补充手稿材料中获得,但在更广泛的公众分析数据方面仍然存在瓶颈。因此,通过“组学”的视角来进一步理解世界的能力并不受数据产生的限制,甚至也不受其可访问性的限制,而是受我们分析数据的能力的限制。尽管其他人已经开发出了帮助重新分析公开可用数据的管道[3.],开发能够快速、易于访问和方便地使用已有数据矩阵的分析管道,以鼓励其广泛应用是很重要的。目前,有许多生物信息学管道来统计分析-omic数据,然而大多数依赖于能够运行代码,这是许多生物学家缺乏的专业知识。因此,对基于GUI(图形用户界面)的程序有很大的需求,它绕过了编程技能的先决条件[456].一个易于使用的数据分析工具,也有助于数据探索,可以导致新的见解。重要的是,由于许多出版物都附有已处理过的数据矩阵,分析这些数据矩阵的快速和用户友好的方法信息量大,可以扩大和深化对公开数据的分析。

许多经典的差异表达分析结果是带有统计数据的基因表、火山图或热图的输出,这些图显示了样本之间表达强烈差异的基因[789].尽管这些分析是有用的,但它们也使全球可视化数据和识别可能在不同样本中表现相似的基因队列变得困难。识别这些基因群可以导致对受影响的基因程序或本体论类别的调查,这可能会被忽视时,通过基因列表的重要性单独排序。此外,许多用于差异表达基因的散装RNA-seq管道通常在对照和实验样本之间进行配对分析。这可能使整个队列样本的比较,如剂量-反应曲线、多种基因型和/或时间过程非常具有挑战性。虽然已经有专门的管道来分析时间过程,但在许多情况下,这些管道的性能仍优于两两分析[1011].有必要对所有样本的基因模式和趋势同时进行可视化分析。

测序数据数量的增加和单细胞测序数据的增加依赖于更复杂的生物信息分析,这进一步鼓励了计算机科学和生物学领域的合并[21213].一些非监督方法已经从机器学习中借鉴,如主成分分析(PCA), t-SNE (t-distributed Stochastic Neighbor Embedding)和UMAP (Uniform Manifold Approximation and Projection)。PCA是一种数学方法,使用线性降维方法来调查数据相关性[1415].本质上,PCA将数据简化为特征向量,以显示数据点之间的关联。主要的两个主成分通常可以根据最大的方差来分离数据。虽然PCA可以快速减少复杂数据,但使用PCA可视化高维数据存在局限性[1415].使用概率方法(如t-SNE)进行非线性降维[16]及UMAP [17,可以更好地在低维空间中可视化复杂多维数据。尽管这些技术是由计算机科学家为机器学习应用而开发的,但它们在分析不断增长的单细胞组学数据方面已经找到了一个突出的家[欧宝直播官网app1819].这些非线性降维技术更好地保持了数据的复杂性,重要的是,数据点之间的紧密程度可以用来得出这些点之间的相关性的结论。以前的出版物显示了非线性降维比线性降维的价值和有用性,以及自定义和优化参数的能力[1920.21].

在这里,我们展示了GECO(基因表达聚类优化),这是一个简约的GUI应用程序,利用非线性还原技术可视化生物数据矩阵(如批量RNA-seq,单细胞RNA-seq,或蛋白质组学)的表达趋势。所需的输入是包含样本和任何类型的基因/蛋白质/其他唯一ID的表达水平的数据矩阵。输出是一个交互式t-SNE或UMAP图形表示,它基于跨样本的表达模式对基因(或蛋白质/唯一id)进行聚类,以实现趋势可视化。图上的每个数据点都是一个基因/蛋白质/其他唯一ID,所有样本的表达模式用于确定其位置和相对于其他数据点的位置。GECO的特点包括:

  • 用户友好的Streamlit运行应用程序通过云托管网站访问(无需代码,下载或安装)。(http://www.theGECOapp.com

  • 选择运行Streamlit本地用户的计算机与网络主机能力的临时共享。

  • 可定制的参数t-SNE和UMAP生成(可选的PCA初始减少)。

  • 可选GPU驱动的集群,用于t-SNA和UMAP生成。

  • 为t-SNE和UMAP保存功能,使重新打开保存的交互会话(重要的随机分析,如t-SNE和UMAP,每次运行将产生变化和不同的簇形状)。

  • 灵活的数据类型输入。

  • 可选的标准化技术,过滤和阈值截止。

  • 结合精心策划的标记基因,基因搜索和突出功能。

  • 自动生成条形图、相关聚类图(计算显著性)和所选基因的热图表达。

  • 基于聚类和过滤生成可下载的基因列表。

  • 大量的颜色选择,比例函数的倒置和对数,以及生成。png图,以方便用户根据需求/偏好的灵活性。

实现

体系结构

GECO的所有代码都是用Python 3.7编写的,并使用Streamlit (https://www.streamlit.io/)及Plotly (https://plotly.com/)用于GUI和交互式数据可视化。Streamlit是一个新的开源应用框架,之所以选择它,是因为它相对简单,可以实现python后端代码的图形界面。GECO的所有源代码、安装文件和安装说明都可以在github上找到(https://github.com/starstorms9/geco;和额外的文件1).GECO的使用不需要任何编程知识。云托管网站版本的GECO thruStreamlit团队(目前为测试版),可浏览http://www.theGECOapp.com.为了在本地运行GECO,可以在github上获得逐步安装说明。README文档在附加文件中提供2,包括数据分析和可选特性使用的一步一步的说明(也可在github上获得)。

用户界面

Streamlit界面利用了三个主要选项卡:(1)记录使用情况的着陆页(附加文件2(2)数据加载、处理和降维页面(图。1),以及(3)简化的数据可视化页面(图。2).在每个页面上,侧边栏提供对大多数可控参数的访问,主屏幕显示结果。在侧栏界面的顶部是一个分配的Session ID号,用户应该保存这个ID号,因为稍后上传这个ID号允许用户重新访问当前会话,包括上传的数据集和保存的图。共享Session ID号也是允许合作者探索共享数据集的一种简单方法。

图1
图1

GECO应用界面生成缩减日期。一旦在主窗口中上传了一个数据矩阵并确定了样本,这个侧栏将用于选择所需的缩减类型(t-SNE或UMAP)。规范化选项包括删除所有零的条目和行规范化的默认设置。规范化到选定类型是可选的。t-SNE的参数选项包括初始PCA约简、perplexity、学习率、早期夸大和迭代数。UMAP参数包括邻居数、最小距离和距离度量。标准默认设置会自动出现,但是提供了到t-SNE和UMAP参数指南的链接,以帮助探索和定制

图2
figure2

用于绘制和调查简化数据的GECO应用程序界面。该选项卡和界面允许调查以前保存的减少数据的plot。数据显示和颜色设置可以调整和过滤。可选的基因标记列表可以上传或输入基因ID框,在plot上高亮显示,或在条形图、集群图或热图中进一步研究。利用该坐标系统可以生成感兴趣区域的基因列表

在数据可视化选项卡中,可以使用各种自定义选项来研究降维数据。可视化选项是通过调查具有已知趋势和特征的各种数据集,并探索最清楚地突出这些特征的方法来开发的。这种策略有助于在新的和未探索的数据集中识别有趣的趋势。例如,规范化到特定的控件类型,并选择相对于控件具有高折叠变化的条目,将快速突出显示受给定条件影响最大的条目。可视化选项卡还允许用户选择感兴趣的条目,并生成条形图、相关集群图和热图,以便相互比较条目子集。

数据输入输出

为了方便地容纳来自不同来源的各种输入数据,GECO有一个自动数据清理系统,以确保装载到降维算法中的数据被正确格式化。需要注意的是,GECO不执行任何统计分析或过滤统计显著性。如果这对用户的分析很重要,建议在上传之前对数据集进行预处理和过滤。在测试期间,加载测试数据集遇到的任何问题都被用于开发自动解决方案。例如,发现许多数据集包含大量全为0的条目或带有一些非数字字符的条目,这些条目可能会扭曲处理算法的输出。GECO提供了简单的选项来删除这些令人困惑的条目。此外,由于样本和生物代表的命名约定是高度变化的,实现了一个系统来识别和分组相似命名的样本到一致的标记集。

将数据上传并通过降维算法进行处理后,将后处理后的数据保存并可视化。也可以手动输入或上传以逗号分隔的特别感兴趣的条目列表,然后将其标记在绘图上的显著位置。一旦确定了感兴趣的特定组,就可以下载它们以及相关的降维参数,以便进行进一步的外部分析。

算法

实现了三种核心降维算法:PCA、t-SNE和UMAP。这些算法的现有实现可以作为开源python模块使用。由于t-SNE算法通常处理时间较长,并且可能具有高度的并行度,因此一种基于CUDA的实现称为t-SNE-CUDA [22]用于GECO。这种t-SNE实现大约比标准的基于CPU的算法快50倍,并允许快速探索各种超参数(如perplexity和学习率)对最终输出的影响。然而,启用GPU的t-SNE实现目前仅在基于Linux的系统上可用,因此,当程序在其他系统上运行时,基于备份CPU的实现将自动使用。单靠主成分分析不足以将数据清晰地可视化,但在t-SNE算法运行之前,将主成分分析用作预处理器,以减少变量数量,使t-SNE的计算时间成立。UMAP是另一种流行的非线性简化技术,与主要关注局部结构的t-SNE相比,它更准确地捕捉全局相关性和结构。UMAP的性能速度也远远超过t-SNE(在没有t-SNE- cuda的情况下运行),推荐UMAP用于更快的降维时间。

在运行降维算法之前,可以对数据应用两个重要的归一化选项:(1)对每行进行归一化和/或(2)对类型进行归一化。为了规范化每行,每个条目都按该行的和进行缩放。这种策略确保算法只关注给定条目的相对模式,而不只是该条目的总体大小。当对基因表达数据不进行行规范化时,所得到的降维图通常只是简单地根据总体表达水平进行对齐,而忽略了以类似方式表达的基因共享的更有趣但微妙的表达模式(附加文件3.:图S1)。同样地,在减少数据之前将每个条目规范化到选定的类型(例如控件),可以确保减少算法关注相对于控件的变化模式,而不是查看全局模式。

结果与讨论

示例用法1:结肠隐窝细胞类型(bulk RNA-seq)

结肠内层包含隐窝结构中的上皮细胞,包括增殖的干细胞。这些干细胞产生不成熟的子细胞,子细胞进一步分化成成熟细胞。此前,对分类的上皮隐窝细胞群体进行了bulk RNA-seq,包括干细胞、直接子细胞(AbsPro, SecPDG)和更成熟的分化细胞(Tuft, Ent,和EEC)(附加文件)4) [23].从这个数据集用GECO生成的UMAP图,并根据指定的细胞类型着色,显示了干细胞相关基因向更分化的细胞类型相关基因的基因表达轨迹(图)。3.a).所有细胞类型都指定了强烈表达的基因(图。3.b).通过干细胞中的表达对数据点(基因)着色,显示出高表达的干细胞相关基因聚集在一个区域(图)。3.c).此外,通过茎浓缩着色显示出基因在茎中高表达的较小区域,而在其他细胞类型中表达较少(图)。3.d).通过去除那些表达低于最低水平(500个标准化计数)的基因来过滤图上显示的基因,进一步突出了在干细胞中富集的基因群(图)。3.e).放大一个感兴趣的区域,并添加一个过滤器,以达到茎浓缩的1.5倍截距,显示出茎相关基因的聚类(图。3.f).作为比较和验证分析,我们展示了以前使用传统统计差异表达方法(DESeq2)鉴定的干细胞标记基因(n = 27),并且它们也聚集在该区域[23].

图3
图3

用GECO检测肠干基因。UMAP生成了colon crypt cell类型的plot,其设置如下:行归一化、去零、邻居数= 35、最小距离= 0.5、距离度量= Manhattan。数据点(基因)被着色一个类型,b赋值类型的平均表达式,c干细胞表达,d干浓缩,e茎浓缩与500(标准化计数)最低表达水平与框显示放大区域显示ff放大的区域与茎富集着色和1.5倍截止。红色圆圈中突出显示的是27个基因,这些基因此前在该数据集中被确定为在统计学上表达差异和富集的干细胞[23].先前发表的结肠隐窝细胞类型的bulk RNA-seq [23]用于生成UMAP集群,该数据集(.csv文件)可在附加文件中获得4

在这个例子中,GECO能够可视化在结肠隐窝不同细胞类型中富集的基因。每个细胞类型的基因聚类遵循干细胞到子细胞到分化细胞的自然轨迹。先前鉴定的干细胞标记与干细胞中富集表达的过滤切断后存活的基因重叠良好。虽然图中的GECO图。3.F显示了许多潜在感兴趣的基因,额外的严格过滤也可以应用来减少数据点。然而,在这种情况下,GECO能够快速揭示这些细胞类型中基因表达变化的轨迹,并识别茎相关基因。

例用法2:感染时间程f . nucleatum(散装RNA-seq)

梭菌属nucleatumf . nucleatum)是一种经常导致牙周病的病原体。以前的工作调查了f . nucleatum使用大体积RNA-seq时间进程对人牙龈成纤维细胞的感染(附加文件5) [24].GECO生成的根据指定类型着色的UMAP图(图。4a)揭示了基因在注射期间(0,2,6,12,24和48小时)不同时间点的表达是紧密聚类的。当使用连续的颜色设置,从0小时(对照)到感染后48小时出现清晰的轨迹时,这一点更加明显(图)。4b).改变颜色设置为0 h和48 h的表达倍数富集(图。4C)突出显示在0小时(图的左上角)高表达的基因,而在48小时(图的右下角)高表达的基因。可以确定在特定时间点富集或随着感染持续时间逐渐增加或减少的基因队列。数字4d(和附加文件3.:图S2a)显示了使用GECO绘制的几个选定基因的例子,其中每个数据点都是上传数据集的生物复制。

图4
装具

感染过程中的基因表达模式。UMAP生成的图f . nucleatum0、2、6、12、24、48小时感染时间点,行归一化、去零、邻居数= 15,最小距离= 0.10,距离度量=余弦,最小表达式= 1。数据点(基因)被着色一个类型,b字体具有连续色调,且表达丰富c0 h和48 h。d使用GECO绘制感兴趣的选定基因图。e数据点(基因)在6小时内通过富集表达着色,最小表达= 150和1.5倍截止过滤器(见附加文件)3.:图S2a为umap的加法滤波步进变化)。用红点标记的4个基因过滤后的一小部分剩余基因(TWIST2ICAM1CXCL3,NINJ1),在感染6 h和2 h时间点富集。f的相关性f . nucleatum感染相关基因在GECO生成的聚类图中显示。带有星号的深色蓝绿色盒子在所有样本中的表达显著正相关(例如:ICAM1CXCL3),而带有星号的深棕色框则是所有样品的反相关(例如:COL1A1SOD2).先前发表的散装rna序列f . nucleatum感染时间过程[24]用于生成UMAP集群,该数据集(.csv文件)可在附加文件中获得5

以确定早期升高的一小群基因f . nucleatum感染后,在6小时的浓缩基础上对UMAP图着色,然后限制在至少1.5倍或更大的截止值(附加文件3.:图开通)。这突出了一小部分基因,与其他时间点相比,这些基因在感染的最初几小时内升高。进一步筛选,发现25个高表达基因(最小表达截止值为150)(图1)。4e).将该基因列表打印到屏幕上,在UMAP图上用红圈标记四个感兴趣的基因,并在geco生成的柱状图中显示。基因列表包括CXCL3ICAM1在感染开始后2小时迅速诱导,然后逐渐下降,TWIST2哪个在6小时达到峰值NINJ1在第2和6小时升高(图。4e和GECO在附加文件中生成的热图3.:图S2c)。展示这些基因,以及Fig。4d和附加文件3.图S2a,在GECO生成的相关聚类图中显示了该队列中4个基因之间的显著相关性(CXCL3、ICAM1 TWIST2,NINJ1)(无花果。4f)。COL1A1SOD2显示相反的趋势,正如预期的群集图显示它们是显著的反相关(图。4f).之前发表的使用标准差异表达分析的研究发现了22个基因在整个过程中显著上调f . nucleatum包括超氧化物酶2、CXCL3和ICAM1 [24].我们的分析证实了SOD2的表达升高(图2)。4d),但提示CXCL3和ICAM1尽管显著上调,但遵循不同的模式。而CXCL3和ICAM1则在2 h时突然表达,然后逐渐减少(图2)。4e).这种比较数据分析突出了GECO在揭示基因表达模式方面的作用,传统差异表达分析可能会忽略这些基因表达模式,但可能揭示重要的生物学特性。

GECO可用于可视化多个样本(如时间进程)的基因表达变化,并可用于定义与基因表达趋势匹配的基因队列。在这个数据集中有一个清晰的基因轨迹,在0 h对照样本或在每个时间点(例如:TNFAIP3),而其他基因则随着时间的推移逐渐改变,并在一个数据点达到峰值(例如:COL1A1SOD2).在后一种情况下,这些基因通常很难用传统的统计差异表达分析(特别是配对分析)发现,但当着眼于全球趋势,如GECO所支持的,这些基因可以与其他具有相似行为模式的基因一起被发现。

例用法3:胰腺癌转移(单细胞RNA-seq)

GECO也可以用于研究单细胞RNA-seq数据中的基因表达模式,但它的功能有一定的限制。例如,我们研究了公开可用的Fluidigm数据(数量有限的细胞),这些数据收集自原发性胰腺导管腺癌(PDAC)、肝转移和来自高度转移的患者来源的异种移植模型的循环肿瘤细胞[25].GECO将每个细胞作为起源组织(原发肿瘤、循环肿瘤细胞或肝转移)的生物复制样本,并基于这些组的表达聚类基因(附加文件)3.图S3a, c)。此外,单个细胞也可以根据已识别的簇进行分组(即使用Seurat [26),以调查聚类间整体表达趋势差异。在数据转换之后(翻转X和Y轴),GECO能够绘制有限数量的单个细胞,而不是基因,并可以进一步研究感兴趣的基因表达(附加文件3.图S3b, c)。虽然设计和优化了bulk RNA-seq,也分析一些单细胞数据集的能力突出了GECO的独创性和多用途功能。

结论

GECO是一个极简的流光GUI应用程序,利用非线性还原技术可视化生物数据矩阵的表达趋势。这个应用程序能够以快速和代码独立的方式调查任何-omic数据矩阵。随着可用的组学数据的持续增长,快速评估数据集(包括感兴趣的特定基因)的能力比以往任何时候都更加重要。GECO的目的是补充更多的传统统计分析方法,当在许多样本中可视化具有相似轨迹的基因簇时(例如:多种细胞类型、时间过程、剂量反应)特别有用。随着维数减少、标准化方法和可视化(着色)的各种选择,以及彻底的一步一步的说明,用户将被授权调查他们的-组学数据与一个新的镜头,潜在的发现感兴趣的基因和以前未见过的模式。

可用性和需求

  • 项目名称: GECO。

  • 项目主页欧宝直播官网apphttp://www.theGECOapp.comhttps://github.com/starstorms9/geco

  • 操作系统(年代): Linux, Windows, Mac。

  • 编程语言Python 3.7 +

  • 其他需求: Streamlit, Plotly, Scipy, Pandas, Seaborn, Umap-Learn, t- ne - cuda, numpy。

  • 许可证:麻省理工学院许可证。

  • 对非学者使用的任何限制:没有。

数据和材料的可用性

本研究使用/分析的数据集之前已发表[232425],也可在附加文件4和5中找到。

缩写

GECO:

基因表达聚类优化

GUI:

图形用户界面

主成分分析:

主成分分析

t-SNE:

t分布随机邻居嵌入

UMAP:

一致流形逼近与投影

RNA-seq:

RNA序列

参考文献

  1. 1.

    测序技术的世代:从第一代到下一代。生物医学杂志。2017;09:1-8。

    文章谷歌学术搜索

  2. 2.

    等。排序的真正成本是:扩大计算以跟上数据生成的步伐。基因组医学杂志。2016;17:53。

    文章谷歌学术搜索

  3. 3.

    Al-Mahi N, Najafabadi MF, Pilarczyk M, Kouril M, Medvedovic M. GREIN:一个重新分析GEO RNA-seq数据的交互式网络平台。Sci众议员2019;9:1-9。

    文章谷歌学术搜索

  4. 4.

    等。一个社区驱动的生物数据分析搜索引擎。arXiv Prepr。arXiv1707.03659(2017)。

  5. 5.

    Henry VJ, Bandrowski AE, Pepin A-S。OMICtools:用于多组数据分析的信息性目录。数据库。2014;1 - 5。

  6. 6.

    康瑞娜等。RNA-seq数据分析的最佳实践调查。基因组医学杂志。2016;17:1-19。

    文章谷歌学术搜索

  7. 7.

    利用DESeq2对RNA-seq数据的折叠变化和离散度进行调节估计。基因组医学杂志。2014;15:550。

    文章谷歌学术搜索

  8. 8.

    等。TopHat和Cufflinks的RNA-seq实验差异基因和转录本表达分析Nat Protoc。2012;7:562 - 78。

    中科院文章谷歌学术搜索

  9. 9.

    McCarthy DJ, Chen Y, Smyth GK多因子RNA-Seq实验在生物学变异方面的差异表达分析核酸学报2012;40:4288-97。

    中科院文章谷歌学术搜索

  10. 10.

    Spies D, Renz PF, Beyer TA, Ciaudo C.差异基因表达工具对RNA测序时间进程数据的比较分析。短暂的Bioinform。2019;20:28 8 - 98。

    文章谷歌学术搜索

  11. 11.

    Oh S, Song S, Grabowski G, Zhao H, Noonan JP。使用RNA-seq进行时间序列表达分析:一种统计方法。Biomed Res Int. 2013;2013:16。

    谷歌学术搜索

  12. 12.

    单细胞RNA测序技术和生物信息学管线。Exp Mol Med. 2018;50:96。

    文章谷歌学术搜索

  13. 13.

    陈志强,陈志强,陈志强。单细胞转录组学在生物信息学中的应用。麝猫。2016;7:163。

    文章谷歌学术搜索

  14. 14.

    主成分分析。Nat方法。2017;14:641-2。

    中科院文章谷歌学术搜索

  15. 15.

    主成分分析:综述与研究进展。Philos Trans R Soc A Math Phys Eng Sci. 2016;374:20150202。

    文章谷歌学术搜索

  16. 16.

    基于t-SNE的数据可视化。J Mach Learn Res. 2008; 9:2579-605。

    谷歌学术搜索

  17. 17.

    李志强,李志强。UMAP:均匀流形逼近与降维投影。arXiv Prepr。arXiv1802.03426(2018)。

  18. 18.

    使用t-SNE进行单细胞转录组学的艺术。Nat Commun。2019;10:1-14。

    中科院文章谷歌学术搜索

  19. 19.

    等。使用UMAP实现单单元数据可视化的降维。生物科技Nat》。2019;37:38-47。

    中科院文章谷歌学术搜索

  20. 20.

    李伟,Cerise JE,杨勇,韩华。t-SNE在人类遗传数据中的应用。J Bioinform Comput Biol. 2017;15:1750017。

    中科院文章谷歌学术搜索

  21. 21.

    Bushati N, Smith J, Briscoe J, Watkins C.转录组数据查询的直观图形可视化技术。核酸学报2011;39:7380-9。

    中科院文章谷歌学术搜索

  22. 22.

    陈德明,饶锐,黄飞,精明的JF。t-SNE- cuda: gpu加速t-SNE及其在现代数据中的应用arXiv: 1807.11824(2018)。

  23. 23.

    等。结肠隐窝干性和分化的转录组学和蛋白质组学特征。Commun杂志。2020;3:1-17。

    文章谷歌学术搜索

  24. 24.

    姜伟,等。药物重新定位的时间-过程转录组分析梭菌属nucleatum感染的人牙龈成纤维细胞Front Cell Dev Biol. 2019;7:204。

    文章谷歌学术搜索

  25. 25.

    引用本文:王志强,王志强,等。通过循环肿瘤细胞的单细胞转录组学分析发现胰腺癌转移控制新靶点。Mol Cancer Ther. 2020; 19:1751-60。

    中科院文章谷歌学术搜索

  26. 26.

    陈志强,陈志强,陈志强,等。单细胞基因表达数据的空间重构。生物科技Nat》。2015;33:495 - 502。

    中科院文章谷歌学术搜索

下载参考

确认

我们要感谢Harry Mangalam的鼓励、反馈和UCI U54癌症系统生物学中心社区(CaSB@UCI;U54 CA217378)。Insight人工智能研究员项目(旧金山)为Streamlit提供了培训和接触,帮助促进了该项目(https://insightfellows.com/).我们也要感谢Streamlit允许我们成为beta测试者Streamlit团队启用了GECO的云托管。

资金

ANH得到了国家科学基金会GRFP拨款DGE‐1321846和加州大学欧文分校癌症研究所NCI培训拨款(T32CA009054)的支持。MLW和这项工作得到了美国国立卫生研究院R01CA177651、P30CA062203和U54CA217378的资助。这项研究也得到了加州大学欧文赵家庭综合癌症中心抗癌挑战研究基金的支持。内容完全由作者负责,并不一定代表国家科学基金会、国家癌症研究所或国家卫生研究院的官方观点。

作者信息

从属关系

作者

贡献

ANH和TJH构思并启动了该项目,TJH在ANH的监督下开发了GECO应用程序。ANH与TJH共同撰写了手稿。MLW提供了应用程序和手稿编辑的关键评论。所有作者阅读并批准了最终的手稿。

相应的作者

对应到a . n . Habowski

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1:

GECO python源代码。

额外的文件2:

GECO README文档和步骤说明。

额外的文件3:

数字S1-S3。

额外的文件4:

用于生成GECO UMAP的冒号crypt bulk RNA-seq数据的CSV文件。

额外的文件5:

批量RNA-seq数据的CSV文件f . nucleatum用于生成GECO UMAP的感染时间过程。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

GECO:用于模式非线性数据可视化的基因表达聚类优化应用。欧宝娱乐合法吗22,29日(2021年)。https://doi.org/10.1186/s12859-020-03951-2

下载引用

关键字

  • RNA-seq
  • 基因表达
  • t-SNE
  • UMAP
  • 主成分分析
  • 聚类
  • 应用程序
  • 数据可视化