- 帮助文档
- FAQ
1.WGCNA基本概念:
WGCNA(Weighted gene co-expression network analysis,WGCNA),中文称为加权基因共表达网络分析,是构建基因共表达网络的常用方法。基因共表达网络:定义每个节点为一个基因,在不同样本中存在表达共性的基因处于同一个基因网络,而基因之间的共表达关系一般由它们之间的表达相关系数衡量。
WGCNA算法首先假定基因网络服从无尺度分布,并定义基因共表达相关矩阵、基因网络形成的邻接函数,然后计算不同节点的相异系数,并据此构建分层聚类树(hierarchical clustering tree),该聚类树的不同分支代表不同的基因模块(module),模块内基因共表达程度高,而分属不同模块的基因共表达程度低。最后,探索模块与特定表型或疾病的关联关系,最终达到鉴定基因网络的目的。
WGCNA分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。
WGCNA分析适用于复杂的数据模式,推荐5组(或者15个样品)以上的数据。一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。
2.WGCNA分析原理:
从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分,主要包括基因共表达网络构建、模块鉴定、模块信息提取、模块与性状关联、模块内基因的调控关系等步骤。
Step 1:基因共表达网络构建:计算任意两个基因之间的相关系数(Person Coefficient)。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。但是这样如果将阈值设为0.8,那么很难说明0.8和0.79两个是有显著差别的。因此,WGCNA分析时采用相关系数加权值,即对基因相关系数取N次幂,使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks),这种算法更具生物学意义。
Step 2:模块鉴定:通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。
Step 3:模块信息提取:分析模块的基因热图及关键基因,通过挑选模块内相关性系数前30的基因,根据表达情况做热图和表达柱形图,展示模块的特征。
Step 4:模块与性状关联:通过输入性状文件或者默认单个样品将模块与性状进行关联,研究模块与性状的相关性,挑选最最感兴趣的性状的模块进行分析。
Step 5:模块内基因的调控关系:通过Cytoscape或者其他的基因调控网络展示软件,展示模块内的基因相关关系。
下图为WGCNA分析流程示意图:
3.WGCNA基本术语:
l 权重(weghted):基因之间不仅仅是相关与否,还记录着它们的相关性数值,数值就是基因之间的联系的权重(相关性)。权重为基因与所有其他基因相关系数之和;非权重,设定一个阈值,大于阈值则为连通,否则没有联系,只有0和1的关系。比如我们设定阈值为0.8,我们就很难说明0.79与0.8具有显著性差异。
下图权重与非权重示意图:
l 模块(module):表达模式相似的基因分为一类,这样的一类基因成为模块。
l hub module(关键模块):指与表型数据高度相关或与研究密切相关的模块。
l Eigengene(模块特征基因):被定义为给定模块的第一个主成分,是该模块最具代表性的表达模式,可理解为近似代表一个模块所有基因的表达状态的指标,但并非真实存在的基因。
l Connectivity/degree(连接度):指某个基因与该网络中其他基因连接强度的总和。
l Module membership(MM,模块归属):也称基于特征基因的连接(kME,eigengene-based connectivity),即某个基因的表达模式与模块特征基因之间的相关性;该值越大,表示该基因归属该模块的可能越大。
l Gene signicance(GS,基因显著性参数):即基因重要性度量,基因表达模式与某样本特质之间的相关,一般相关值越大,表示该基因越重要,可以是p-value的log转换值,可以是基因与某个通路相关性指标,也可以是基因与某个表型特征的相关性。
l Adjacency Matrix(邻近矩阵):是图的一种存储形式,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个二维数组称为邻接矩阵。
l TOM(Topological overlap matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。
4.主要参数:
①任务名称:对本次小工具运行任务进行命名,方便后续任务查找及分析结果查看。
②表达量矩阵表:第一列为基因id,表头必须为seq_id/gene_id,后面为基因在不同样品的表达量,趋势顺序按样品在表格中的顺序排列。输入的表格文件,必须为txt格式,可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt)"。注:上传的文件中第一列的基因id以及样本名称不允许存在特殊字符,只能是字母数字和下划线,请注意核查上传文件格式,避免报错。
示例文件:gene_express.txt
③目标基因列表:该参数为选填项,如果不上传该文件,则按照表达量矩阵表的所有基因进行分析。该文件内容为一列Gene_id,无表头信息,文件为txt格式。
示例文件:gene_list.txt
④表型数据表:表型数据文件,该文件必须包含列名,第一列为样本名,其他列为表型数据,txt文件,制表符分隔。支持两种数据类型,非连续性(discrete)和连续性(continuous),非连续数据示例见trait_1,连续性示例见trait_2。
注:样本总数要≥15
示例文件:trait_1.txt
备注:仅有样本和样本所属组别信息,第一列为样本名称,第二列为组别名称,“表型数据类型”选择“非连续”。
示例文件:trait_2.txt
备注:样本具有相应的具体表型统计,第一列为样本名称,其他列为表型数据(比如weight,height等),也可包含非连续性数据(比如男、女;复发、不复发)需要转换成0,1,参考该示例填写即可,“表型数据类型”选择“连续”。
注意:无论连续性数据还是非连续性数据,列表名称不能包含特殊字符(例如空格、%、&、$等,且要保证样本数量和名称与表达量矩阵中的样本一致)。
⑤表型数据类型:区分连续和非连续两种类型,需要注意的是上传的表型数据表和选择的数据类型要保持一致,避免运行报错!
注意:其他高级参数解释可参照页面问号。
5.结果解读:
模块成员统计图:
注:横坐标为不同的模块(以模块颜色表示),纵坐标为属于各模块的成员数目(基因/转录本)。
模块相关性热图:
注:展示模块与模块间的相关性大小,图中每列或行代表一个模块(以模块颜色表示),图中的颜色表示模块间的相关性大小,默认指定红色代表模块间的相关性较大,蓝色代表模块间的相关性较小,具体请见右上方的图例。左侧或上方为模块聚类的树状图,两个模块分支离的越近,说明这两模块相关性越大。
模块与表型相关性热图:
注:展示模块与具体表型的相关性情况,左侧第一列代表不同模块,用不同的颜色表示,其余各列代表不同表型/样本/分组。图中左侧第一列中的数字表示该模块的基因/转录本数目,其余各列数据表示模块与表型的相关性系数及显著性P值(括号内)。默认指定红色代表模块与表型的相关性较大,蓝色代表模块与表型的相关性较小,具体请见右上方的图例。通常筛选相关性最高且P值越显著的模块作为该表型的特征模块。
6.参考文献:
7.FAQ:
问题1:样品数量是否有要求?
解答:建议对至少15个样本的数据集尝试WGCNA。高通量环境中,少于15个样本的相关性对于基因共表达网络存在较大的背景噪声,导致在生物学上没有意义。如果可能的话,至少应有20个样本;样本越多结果越可靠越精确。
问题2:是否需要对基因进行筛选?
解答:基因可以通过均值或方差进行过滤,因为低表达或无差异表达的基因通常代表噪声。用均值还是方差过滤哪一种方法更好尚有争议。两者都有优点和缺点,由于均值和方差通常是相关的,因此如需过滤建议滤掉表达量低,在样本间表达差异不大的基因。但是不建议使用差异基因进行分析,因为WGCNA是一种基于基因表达谱对基因进行聚类的无监督分析方法。差异基因本质将形成单个(或几个高度相关)的模块,从而无法获得软阀值,导致无尺度网络假设无效。
问题3:可以使用WGCNA分析RNA-Seq数据吗?
解答:可以。就WGCNA而言,处理归一化的RNA-seq数据与归一化的芯片数据本质上没有任何区别。建议在进行WGCNA分析前对表达矩阵进行转换,推荐使用Deseq2的varianceStabilizingTransformation或log2(x+1)对标准化后的数据做个转换。如果数据来自不同的批次,需要先移除批次效应。如果数据存在系统偏移,需要做quantile normalization后再进行分析。
Q1:文件如何上传?
①工具数据可上传至我的数据→工具数据→personal文件夹。
②点击右上方“上传文件”即可上传本地文件至平台,在personal文件夹下也可新建文件夹。
Q2:上传的文件如何删除?
勾选文件/文件夹,点击右上方的文件操作,选择删除文件,文件也可移动或复制。
Q3:运行工具时选择好上传的文件后,无法进入下一步?
由于显示器分辨率的不同,弹出框展示可能不全,正常展示如下图所示,选择文件后,弹出框右下角为【确定】按钮,您可以按住ctrl键向下滑动鼠标缩小页面至窗口显示完全。
Q4:云工具的运行结果怎么查找?
我的分析→工具总览可查看所有运行的工具任务。点击【结果】查看分析结果报告,点击【下载文件】可下载结果文件至本地保存。