付费专享

转录因子分析(SCENIC)

SCENIC (single-cell regulatory network inference and clustering)是一个基于共表达和motif分析,计算单细胞转录组数据基因调控网络重建以及细胞状态鉴定的方法,可以利用其分析细胞或亚群的转录因子调控。
文章引用说明:如果您使用美吉生物云工具完成了数据分析,我们期望您在文章发表时,在方法学部分或致谢部分引用或提及美吉生物云工具以及我们发表的文章。
可参考示例:The data were analyzed on the online tool of Majorbio Cloud Platform (https://cloud.majorbio.com/page/tools/)
可参考文献:Han, Jichen. et al. 2024. Majorbio Cloud 2024: Update single-cell and multiomics workflows. iMeta, e217, doi:10.1002/imt2.217
  • 帮助文档
  • FAQ

1.工具概述

SCENIC single-cell regulatory network inference and clustering)是一个基于共表达和motif分析,计算单细胞转录组数据基因调控网络重建以及细胞状态鉴定的方法可以利用其分析细胞或亚群的转录因子调控。

2.操作方法:

任务名称:对本次小工具运行任务进行命名,方便后续任务查找及分析结果查看。

②Seurat RDS文件:此文件格式为RDSRDSR语言中利用二进制保存的源文件。此处需要上传的是单细胞数据中Seurat软件的RDS文件。此文件主要包括表达量矩阵文件、降维聚类之后每个细胞对应的cluster和样本(sample)结果。以上信息为必须,除此之外也可以加上每个细胞对应的组别(group)和细胞类型(celltype)信息。

示例文件:

图片1.png 

细胞类型注释文件此结果为选填项。此表共计两列,第一列为cluster,第二列为celltype只能以英文字符开头,允许字母、数字、下划线,不能出现“+”“-”等特殊符号,此表格为文本文件(制表符分隔)(*.txt)文件。

示例文件:

图片2.png 

分析逻辑:选择细胞通讯的分析逻辑此处“按单个样本分析”的逻辑为:每个样本单独去分析该样本内的转录因子;“按组别分析”的逻辑为:每个组别单独分析该组别内的转录因子。

样本筛选输入待分析的样本名称,允许多个同时检索,中间以英文状态逗号隔开。

分组信息表:分组方案,第一列为样本名,第二列为组名,制表符分隔。表头固定,必须以#开头。

示例文件:

图片3.png 

物种选择:选择需要分析的物种信息。默认仅能分析人、小鼠和果蝇。其他物种需要与人的基因做同源比对。

3.结果解读:

SCENICsingle-cell regulatory network inference and clustering)是一个基于共表达和motif分析,计算单细胞转录组数据基因调控网络重建以及细胞状态鉴定的方法可以利用其分析细胞或亚群的转录因子调控。

SCENIC软件的使用首先要输入单细胞基因表达量矩阵,之后会有三个步骤完成转录因子分析:第一步是构建共表达网络;第二步是构建TF-targets网络;第三步是计算Regulons活性,每一个步骤都由一个专门的软件包完成。其中,所谓Regulons,也就是调控子,为SCENIC中的关键概念,其意义为:是受同一个调控元件(转录因子)调控的一群基因的集合。每个调控子可以定义为一个转录因子及其靶基因的集合。

具体分析流程见下:

图片4.png 

3.1 Motif富集结果

根据转录因子与靶基因共表达模块,可以计算出显著富集的motif注释信息。motif富集结果表(MotifEnrichment.csv如下表所示:

图片5.png 

表注:1motifDB:数据库名称;2geneSet:基因集名称;3motifmotifID4NES:基因集中基序的标准化富集分数;5AUC:曲线下面积(用于计算NES);6TFinDB:指示突出显示的TF是包含在高置信度注释(两个星号)还是低置信度注释(一个星号)中;7TF_highConf:根据“ motifAnnot_highConfCat”注释的转录因子;8TF_lowConf:根据“ motifAnnot_lowConfCat”注释的转录因子;richedGenes:在给定基序上排名较高的基因;9nErnGenes:高度排名的基因数量;10rankAtMax:在最大富集时的排名,用于确定富集的基因数;11enrichedGenes:在给定motif上排名较高的基因。

3.2 Regulon活性结果

对于一个给定的Regulon,通过比较所有细胞间的AUCellarea under the recovery curve)打分值,我们可以识别哪些细胞具有更显著高的regulon活性。

输入为一个基因集,输出为基因集每个细胞的‘activity’。这些基因集即regulon,包含TFs和他们假定的target。基于recovery analysis将根据表达水平将所有基因进行排序。转录因子对应的调控基因结果表见下:转录因子基因调控结果表(regulonTargetsInfo.tsv

图片6.png 

表注:TF:转录因子名称;geneTF靶基因名称;nMotif:靶基因在数据库的motif数量;bestMotif:最显著富集的motif名称;NES:标准富集分数,分值越高越显著;motifDB:数据库;coexModule:转录因子-基因(Co-expression module)共表达网络结果;spearCorTF与靶基因的相关性。

AUC代表了与细胞内其他基因相比,特征基因中表达基因的比例及其相对表达值。AUCell使用AUC来计算输入基因集的关键子集是否在每个细胞的排名Top都得到了富集。软件会将每个细胞转为AUC值,每个细胞的AUC score进行可视化,随机提取500个细胞可视化结果见下:Regulon活性热图(RegulonActivity_heatmap

图片7.png 

注:行为Regulon,列为细胞,颜色为AUC score值,颜色由蓝到红表示调控子的活性由低到高。Bar分别代表样本、cluster以及celltype

软件也会基于每个细胞的AUC值,计算每个亚群/细胞类型中细胞的平均活化值,再对每个转录因子的亚群/细胞类型平均活化值进行Z-score归一化,得到每个cluster/celltypeZ-score矩阵。

根据以上Z-score矩阵,筛选出至Z-score>0 的转录因子作为对应细胞类群/类型潜在的调控因子,此RelativeActivity值即为Z-score值。按亚群/celltype计算AUC值(top_Regulon_CellType_activity)结果表如下所示:

图片8.png 

表注:Regulon:调控子,具体是指受同一个调控元件(转录因子)调控的一群基因的集合。每个调控子可以定义为一个转录因子及其靶基因的集合;celltype:细胞类型。有时候也指代clusterRelativeActivity:调控子的活性得分值。

top_Regulon_CellType_activity.csv进行可视化,结果见下:按亚群/celltype计算AUC值热图

图片9.png 

注:行为Regulon,列为cluster/Celltype,颜色为RelativeActivity调控子的活性得分值。

由于不同Regulons包含的基因不同,它们之间的AUC值不具有可比较性,因此基于AUC值在所有细胞中的双峰分布特征,增加了Regulons“on/off”的概念,认为双峰之间的低谷为判断Regulons活性开放的阈值,如果AUC值小于阈值,则判定为该Regulons在该细胞中未开放,即未发挥调控作用。最终获得每个Regulons在每个细胞中二进制的Regulon活性矩阵。

同样经过计算每个亚群中细胞的平均活化值,再对每个转录因子的亚群平均活化值进行zscore归一化,筛选Z-score>0 的转录因子作为对应细胞类群/类型潜在的调控因子,此RelativeActivity值即为Z-score值。按亚群/celltype计算AUC值(top_Regulon_CellType_binary_activity)的二分法结果表:

图片10.png 

注:Regulon:调控子,具体是指受同一个调控元件(转录因子)调控的一群基因的集合。每个调控子可以定义为一个转录因子及其靶基因的集合;celltype:细胞类型。有时候也指代clusterRelativeActivity:调控子的活性得分值。

top_Regulon_CellType_activity.csv进行可视化,结果见下:按亚群/celltype计算AUC值二分法热图(Regulon_activity_cluster_binary_heatmap

图片11.png 

注:行为Regulon,列为cluster/Celltype,颜色为RelativeActivity调控子的活性得分值。

RegulonAUC值、二进制的活性值表达量、和相关TF的表达量映射到t-SNE/UMAP坐标中,结果见下:

图片12.png 

注意:该模块图片默认展示Regulon活性热图。此图上方可以切换可视化方式。如需下载图片,点击下载按钮即可!表格默认展示转录因子基因调控结果表。上方可以切换可视化方式,其他表格请在文件管理处下载!  

3.3 Regulon特异性评分(RSS)结果

对某类细胞的调控子特异性评分(RSS)排序,可以发现最特异的调节因子。即当细胞类型过多时,可以用RSSRegulon Specificity Score)来识别细胞类型特异性regulonRegulon特异性评分(RSS)结果表(Regulon_RSS_CellType.csv

图片13.png 

表注:Regulon:调控子,具体是指受同一个调控元件(转录因子)调控的一群基因的集合。每个调控子可以定义为一个转录因子及其靶基因的集合;其余列代表的是cluster或者celltype

Regulon_RSS_CellType.csv进行可视化,结果见下:Regulon特异性评分气泡图

图片14.png 

注:行为Regulon,列为cluster/Celltype,颜色为Z-score值,圆圈大小为RSS,越大说明Regulon特异性越高。

Regulon_RSS_CellType.csv进行可视化,结果见下:Regulon特异性评分热图

图片15.png 

注:行为Regulon,列为cluster/Celltype,颜色为RSS,越红说明Regulon特异性越高。

每个celltype Regulon活性得分详情图结果见下:

图片16.png 

注:此图指代的是某一细胞类型中Regulon的特异性排序图。横坐标表示排名,纵坐标表示RSS特异性得分。排名前三位的Regulon以红色点表示。RSS越高的调控子可能与该细胞类型特异性相关

注意:该模块图片默认展示Regulon特异性评分气泡图。此图上方可以切换可视化方式。如需下载图片,点击下载按钮即可!

3.4 Regulon关联特异性指数(CSI)结果

通过RAS来计算不同regulon之间的相关性系数(PCC, Pearson Correlation Coefficient),基于PCC,计算了CSIConnection Specificity Index)来衡量regulon pairs之间的相关性,之后基于CSIregulon进行层次聚类,其结果见下:Regulon关联特异性指数(CSI)聚类图

图片17.png 

注:行列均为Regulon,颜色由浅到深表示CSI值由低到高CSI值较高的Regulon之间可能具有相似的细胞功能,共同调控下游基因。


Q1:文件如何上传和删除?

①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中,上传成功后可以直接选择目的文件进行分析。

图片1.png

②可以在项目中心——工具数据——我的云工具文档 文件夹中查看、上传和删除云工具文件。

图片2.png

图片3.png

Q2:运行成功的任务在哪里查看结果?

投递运行的任务可以在项目中心——我的工具任务 中查看运行状态和结果,点击“结果”可查看页面运行结果,点击“文件”可查看结果文件夹,如果运行失败可以点击“排查”查看报错原因。部分工具没有结果按钮只有文件按钮。

图片4.pngQ3:云工具任务如何删除?

运行失败或不需要的任务可以在项目中心——我的工具任务中勾选后删除,删除的文件会在回收站保存30天,期间可随时复原。

图片5.png

在线咨询