活动专享

单基因GSEA分析

利用GSEA分析探索与目标基因/蛋白表达相关的调控通路或分子功能
文章引用说明:如果您使用美吉生物云工具完成了数据分析,我们期望您在文章发表时,在方法学部分或致谢部分引用或提及美吉生物云工具以及我们发表的文章。
可参考示例:The data were analyzed on the online tool of Majorbio Cloud Platform (https://cloud.majorbio.com/page/tools/)
可参考文献:Han, Jichen. et al. 2024. Majorbio Cloud 2024: Update single-cell and multiomics workflows. iMeta, e217, doi:10.1002/imt2.217
  • 帮助文档
  • FAQ

1、工具概述

本工具是基于单一特征的(蛋白/基因等)的基因集富集分析。以单一特征的表达量作为表型,确定先验基因集与表型之间是否存在统计学上的差异。预先定义的基因S(基于先验知识的基因注释信息)和待测基因L(一般是表达矩阵);然后GSEA目的就是为了判断S基因集中的基因是随机分布于L(排序后的数据集),还是聚集分布在L的顶部或者底部(这也就是富集)。如果待测基因集中的某些基因显著富集在L的顶部或者底部,这说明这些基因的表达(因为其是根据表达谱数据)对定义的表型的差异有显著影响,从而找到我们关注的基因。

 

2、操作方法

①任务名,输入任务名称,便于您后续查询对应结果。

②表达量数据表:表达量数据表格式要求为制表符(Tab)分隔的txt文件。第一列id:可以为蛋白、转录、代谢物等的ID号或英文名称,不支持中文、拉丁文、/、()等特殊符号。第二列到第N列为样本的表达量数据。

③基因ID:必须为表达量数据表中第一列中出现的ID号或名称,基因ID仅可填写一个。

④排序算法:Pearson,Pearson相关系数,又称积差相关系数,是表达两变量线性相关程度及方向的统计指标。

⑤先验基因集:

1)MSigDBVersion6.2, http://software.broadinstitute.org/gsea/downloads.jsp),全称Molecular Signatures Database分子标记数据库,目前仅收录了人,小鼠和大鼠三个物种,且绝大部分为人。比如,对于人的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中包含了具有相近位置或类似功能的许多基因Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。并将所有的基因集划分为8大类别,具体如下:

图片3.png

您可选择关注的一、二、三级先验基因集进行GSEA分析。

(2)自定义先验基因集

要求文件后缀为gmx  gmt第一列为基因集名称,第二列为基因集描述,第三列到第N列为基因集中包含的基因,每列一个。列与列之间用制表符(Tab)分隔。

⑥先验基因集大小的范围设置:默认,15-500,您可根据需要进行调整,最大可到1000。在进行GSEA分析时,软件会考虑基因集的大小,对基因集的ES值进行标准化,使得不同基因集之间可通过NES进行比较,但这种标准化方法对于极大或极小的基因集的计算不是特别准确,因此建议您使用默认值。

⑦选择 |NES| 前N的基因集进行展示:

NES是用于检验蛋白集富集分析结果的重要统计值。在对富集得分进行标准化的过程中,GSEA考虑了蛋白集的大小和蛋白集与表达谱之间的相关性。因此,NES可用于比较表达谱数据集在不同功能蛋白集中的富集程度(一般随机组合次数为1,000),NES=某一功能蛋白集ES/数据集所有随机组合得到的ES平均值。公式如下:

图片4.png

 

3、结果解读

图片5.png

上方曲线表示累计ES值的变化趋势,最高点即为基因集的的ES值; 中间竖线表示先验基因集在排序后的基因列表中的位置,用黑色线条标记了先验基因集中每个基因出现在排序列表中的位置; 下方热图+灰色面积图表示排序基因列表中基因的分布,A)热图:红色部分对应的基因与表型的正相关关系,蓝色部分对应的蛋白对应的基因与表型的负相关关系;B)面积图代表的是随着排序列表的顺序,排序度量(Ranking Metric)值的变化。排序度量值用于表征基因与表型的相关性。随着在排序后的基因列表上的移动,排序度量值从正相关向负相关逐渐变化。对于时间序列或者是关注的单基因这样的连续型表型,正值表示基因与表型数据之间的正相关关系,而负值表示相反的关系。

 

4、参考文献

Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. doi: 10.1073/pnas.0506580102. Epub 2005 Sep 30. PMID: 16199517; PMCID: PMC1239896


Q1:文件如何上传和删除?

①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中,上传成功后可以直接选择目的文件进行分析。

图片1.png

②可以在项目中心——工具数据——我的云工具文档 文件夹中查看、上传和删除云工具文件。

图片2.png

图片3.png

Q2:运行成功的任务在哪里查看结果?

投递运行的任务可以在项目中心——我的工具任务 中查看运行状态和结果,点击“结果”可查看页面运行结果,点击“文件”可查看结果文件夹,如果运行失败可以点击“排查”查看报错原因。部分工具没有结果按钮只有文件按钮。

图片4.pngQ3:云工具任务如何删除?

运行失败或不需要的任务可以在项目中心——我的工具任务中勾选后删除,删除的文件会在回收站保存30天,期间可随时复原。

图片5.png

在线咨询