活动专享

时序分析-STEM

时序分析,又称时间序列表达分析。基于STEM进行时序分析,可以探讨该样品在一系列时间点的基因表达模式,继而对某个表达模式的基因进行功能类富集,从而挖掘其生物学功能。
文章引用说明:如果您使用美吉生物云工具完成了数据分析,我们期望您在文章发表时,在方法学部分或致谢部分引用或提及美吉生物云工具以及我们发表的文章。
可参考示例:The data were analyzed on the online tool of Majorbio Cloud Platform (https://www.majorbio.com/tools)
可参考文献:Han, Jichen. et al. 2024. Majorbio Cloud 2024: Update single-cell and multiomics workflows. iMeta, e217, doi:10.1002/imt2.217
  • 帮助文档
  • FAQ

1.工具概述

时序分析(时间序列表达分析)是对处于不同时间点的同一(或同类)样本进行基因表达测量,以观测各个时间点上基因表达的变化情况,并阐释基因间相互依赖关系的变化规律,通过趋势分析可以找到具有相同表达模式的基因。(注:仅适合于按照时间顺序取样的实验方案,比如对植物做某种胁迫处理,依此处理0 h2 h4 h8 h等不同时间后分别进行取样,且至少取3三个时间节点。)

应用场景:寻找及可视化基因在连续变化的样本或组中丰度的变化趋势,推荐用于3-8组研究。

2.分析软件

STEMVersion 1.3.11)由java语言编写而成,简捷且方便操作,主要是用于对短时间序列的基因表达数据(少于或等于8个时间点)进行聚类、比较和可视化。基于STEM进行时序表达趋势分析,可以探讨该样品在这个时间段内的多个时间点的基因表达模式,继而对某个表达模式的基因进行功能类富集,从而挖掘其生物学功能;同时可以预测基因间调控网络在时序上的变化趋势,挖掘不同时间基因调控网络中与时间或其他特定因素相关的模块。其包括两种聚类算法:

1STEM聚类算法:属于一种有监督的算法,即聚类归入人为设定的趋势里。其基本过程为软件先按照预设模拟出n种最具有代表性的可能趋势(一种趋势就是一种基因表达模式),然后计算出每一个基因与预设的这些趋势的相关系数,最后将每一个基因归类到与其最为相似的趋势中。

2K-means算法:硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。属于无监督算法,结果不可控。

3.操作方法

①任务名称:对本次小工具运行任务进行命名方便后续任务查找及分析结果查看

②表达量矩阵表:第一列为基因id,后面为基因在不同样品的表达量,趋势顺序按样品在表格中的顺序排列。输入的表格文件,必须为txt格式,可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt"

示例文件:gene_express.txt

图片1.png 

③数据预处理方式预处理有3种参数,分别是:

alog2标准化;

这个我们推荐的设置。就是以第一个时间点为对照,计算所有样本相对第一个时间点的表达量倍数。并对表达量倍数取log2值(log2处理的倍数值)。这样处理后,第一个样本的表达量为0,后续大于0的样本就是表达上调的样本,小于0的样本就是表达下调的样本。

b)标准化;

就是以第一个时间点为对照,计算所有样本相对第一个时间点的表达量的差值(直接使用差值)。这样处理后,第一个时间点的样本表达量依然为0,但后续的时间点样本的数值会波动很大。因为同样是表达差异倍数为2倍的基因,从10上调到20,其差值是10。而从1000上调到2000就是差值1000。而通常趋势分析更关注倍数的变化,更不是绝对值的差异。所以这个参数不推荐。

c)不做标准化/0

直接使用输入软件的原始值进行趋势分析。因为在某些情况下,你希望直接观察表达量绝对值的变化,而不希望使用变化倍数或差值。或者,你输入软件的是两组平行实验的log2 差异倍数值(A1vsB1,A2vsB2,A3vsB3),这种数据也不应该按照以上第一种和第二种策略预处理。因为趋势分析软件默认第一个时间点的表达量为0(在前两个模式中都是如此)。所以为了保证原有的软件模块可以正常运行,STEM软件在这种模式下,会在第一个样本前加一个表达量为0的虚拟样本(但其实不存在)。

④目标基因列表:该参数为选填项,如果不传该文件,则按照表达量矩阵表的所有基因进行分析。该文件内容为一列Gene_id表头信息,文件为txt格式

示例文件:gene_list.txt

图片2.png 

⑤时序样本信息表:“时序样本信息表”文件必须为txt格式,可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt"。文件包括样本名,组别名以及样本时序节点的顺序。第一列为Sample(样本名,注:样本名必须与本项目的样本名一致。若样本名已变更,必须上传变更前的样本名),第二列为Group(组名,即样本所有同一组则标记相同的组名),第三列为order(时序节点的顺序)。

示例文件:sample_infor.txt

图片1.png 

⑥时序聚类算法:STEM支持两种聚类方法:STEMK-means,默认采用STEM聚类算法,具体算法原理可参见“分析软件”部分。

⑦时序模式数目:就是预先设定的趋势的数量。建议设定为50。因为趋势预设过多后,会导致趋势过于零碎而后期难以整理。软件本身会挑选最有代表性趋势(本身是这个软件的核心算法)作为预设趋势,所以你不用担心由于预设的趋势数量不够多,导致某些表达模式的基因无法被涵盖。每个基因将会被分配给与其最相似的趋势,但也要求这个基因的表达模式和该趋势的相关系数>0.7默认值

⑧时序间隔最大值:两点间时序间隔的最大值,根据设置的最大间隔值,即能推断出后续可能出现的时间点变化的所有排列组合,默认1,建议1-5内的正整数。

⑨显著趋势P趋势分析就是将各个基因分配到预设的有代表性的趋势中。如果某类基因与我们的实验处理相关,那它们的表达模式理论上是相似的,会集中在特定的趋势中。那么就会导致这个趋势的基因的数量大于随机分布的期望值。这个原理和GOKEGG富集分析的原理相似。软件在完成富集分析后,会按照你设定的显著性阈值(例如:Padjust=5%,使用Bonferroni校正)判定显著富集的趋势。显著富集的趋势在最终输出的趋势总图中,将会有颜色标注。而不显著的趋势,则没有颜色。

但注意:有颜色的显著富集的趋势值得我们优先关注,但并不意味着不显著的趋势就没有生物学意义,不值得关注。因为统计显著性本身受很多因素的影响,这里的富集检验只是给大家一个数据挖掘的优先级。

4.结果解读

图片4.png 

Profile n:模块编号

趋势线:趋势线为每个模块内基因拟合的曲线,每一组为一个拐点

模块左下角数值:P值,代表富集的显著性

模块颜色:有颜色模块为p<0.05的模块的显著富集的模块。趋势类似,模块颜色相同,进行分析时可将模块内基因归为一类进行分析,如下图中的profile47,都为上升的趋势

5.参考文献

[1] J. Ernst, Z.Bar-Joseph. STEM: a tool for the analysis ofshort time series gene expression data. BMC Bioinformatics, 7:191, 2006.


Q1:文件如何上传和删除?

①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中,上传成功后可以直接选择目的文件进行分析。

图片1.png

②可以在项目中心——工具数据——我的云工具文档 文件夹中查看、上传和删除云工具文件。

图片2.png

图片3.png

Q2:运行成功的任务在哪里查看结果?

投递运行的任务可以在项目中心——我的工具任务 中查看运行状态和结果,点击“结果”可查看页面运行结果,点击“文件”可查看结果文件夹,如果运行失败可以点击“排查”查看报错原因。部分工具没有结果按钮只有文件按钮。

图片4.pngQ3:云工具任务如何删除?

运行失败或不需要的任务可以在项目中心——我的工具任务中勾选后删除,删除的文件会在回收站保存30天,期间可随时复原。

图片5.png

在线咨询