活动专享

WGCNA分析

加权基因共表达网络分析,用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集,并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
文章引用说明:如果您使用美吉生物云工具完成了数据分析,我们期望您在文章发表时,在方法学部分或致谢部分引用或提及美吉生物云工具以及我们发表的文章。
可参考示例:The data were analyzed on the online tool of Majorbio Cloud Platform (https://cloud.majorbio.com/page/tools/)
可参考文献:Han, Jichen. et al. 2024. Majorbio Cloud 2024: Update single-cell and multiomics workflows. iMeta, e217, doi:10.1002/imt2.217
  • 帮助文档
  • FAQ

1.WGCNA基本概念

WGCNAWeighted gene co-expression network analysis,WGCNA),中文称为加权基因共表达网络分析,是构建基因共表达网络的常用方法。基因共表达网络:定义每个节点为一个基因,在不同样本中存在表达共性的基因处于同一个基因网络,而基因之间的共表达关系一般由它们之间的表达相关系数衡量。

WGCNA算法首先假定基因网络服从无尺度分布,并定义基因共表达相关矩阵、基因网络形成的邻接函数,然后计算不同节点的相异系数,并据此构建分层聚类树(hierarchical clustering tree),该聚类树的不同分支代表不同的基因模块(module),模块内基因共表达程度高,而分属不同模块的基因共表达程度低。最后,探索模块与特定表型或疾病的关联关系,最终达到鉴定基因网络的目的。

WGCNA分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。

WGCNA分析适用于复杂的数据模式,推荐5组(或者15个样品)以上的数据。一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。

2.WGCNA分析原理

从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分,主要包括基因共表达网络构建、模块鉴定、模块信息提取、模块与性状关联、模块内基因的调控关系等步骤。

Step 1:基因共表达网络构建:计算任意两个基因之间的相关系数(Person Coefficient)。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。但是这样如果将阈值设为0.8,那么很难说明0.80.79两个是有显著差别的。因此,WGCNA分析时采用相关系数加权值,即对基因相关系数取N次幂,使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks),这种算法更具生物学意义。

Step 2:模块鉴定:通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。

Step 3:模块信息提取:分析模块的基因热图及关键基因,通过挑选模块内相关性系数前30的基因,根据表达情况做热图和表达柱形图,展示模块的特征。

Step 4:模块与性状关联:通过输入性状文件或者默认单个样品将模块与性状进行关联,研究模块与性状的相关性,挑选最最感兴趣的性状的模块进行分析。

Step 5:模块内基因的调控关系:通过Cytoscape或者其他的基因调控网络展示软件,展示模块内的基因相关关系。

下图为WGCNA分析流程示意图:

图片1.png 

3.WGCNA基本术语

权重(weghted):基因之间不仅仅是相关与否,还记录着它们的相关性数值,数值就是基因之间的联系的权重(相关性)。权重为基因与所有其他基因相关系数之和;非权重,设定一个阈值,大于阈值则为连通,否则没有联系,只有01的关系。比如我们设定阈值为0.8,我们就很难说明0.790.8具有显著性差异。

下图权重与非权重示意图:

图片2.png 

模块(module):表达模式相似的基因分为一类,这样的一类基因成为模块。

hub module(关键模块):指与表型数据高度相关或与研究密切相关的模块。

Eigengene(模块特征基因):被定义为给定模块的第一个主成分,是该模块最具代表性的表达模式,可理解为近似代表一个模块所有基因的表达状态的指标,但并非真实存在的基因。

Connectivity/degree(连接度):指某个基因与该网络中其他基因连接强度的总和。

Module membershipMM模块归属):也称基于特征基因的连接(kMEeigengene-based connectivity),即某个基因的表达模式与模块特征基因之间的相关性;该值越大,表示该基因归属该模块的可能越大。

Gene signicanceGS基因显著性参数):即基因重要性度量,基因表达模式与某样本特质之间的相关,一般相关值越大,表示该基因越重要,可以是p-valuelog转换值,可以是基因与某个通路相关性指标,也可以是基因与某个表型特征的相关性。

Adjacency Matrix(邻近矩阵):是图的一种存储形式,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个二维数组称为邻接矩阵。

TOMTopological overlap matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。

4.主要参数

①任务名称:对本次小工具运行任务进行命名方便后续任务查找及分析结果查看

②表达量矩阵表:第一列为基因id,表头必须为seq_id/gene_id,后面为基因在不同样品的表达量,趋势顺序按样品在表格中的顺序排列。输入的表格文件,必须为txt格式,可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt"注:上传的文件中第一列的基因id以及样本名称不允许存在特殊字符,只能是字母数字和下划线,请注意核查上传文件格式,避免报错。

示例文件:gene_express.txt

图片3.png 

③目标基因列表该参数为选填项,如果不传该文件,则按照表达量矩阵表的所有基因进行分析。该文件内容为一列Gene_id表头信息,文件为txt格式

示例文件:gene_list.txt

图片4.png 

④表型数据表:表型数据文件,该文件必须包含列名,第一列为样本名,其他列为表型数据,txt文件,制表符分隔。支持两种数据类型,非连续性(discrete)和连续性(continuous),非连续数据示例见trait_1,连续性示例见trait_2

注:样本总数要≥15

示例文件:trait_1.txt

图片5.png 

备注:仅有样本和样本所属组别信息,第一列为样本名称,第二列为组别名称,“表型数据类型”选择“非连续”。

示例文件:trait_2.txt

图片6.png 

备注:样本具有相应的具体表型统计,第一列为样本名称,其他列为表型数据(比如weightheight等),也可包含非连续性数据(比如男、女;复发、不复发)需要转换成01,参考该示例填写即可,“表型数据类型”选择“连续”。

注意:无论连续性数据还是非连续性数据,列表名称不能包含特殊字符(例如空格、%&$等,且要保证样本数量和名称与表达量矩阵中的样本一致)。

⑤表型数据类型:区分连续和非连续两种类型,需要注意的是上传的表型数据表和选择的数据类型要保持一致,避免运行报错!

注意:其他高级参数解释可参照页面问号。

5.结果解读

模块成员统计图:

图片7.png 

注:横坐标为不同的模块(以模块颜色表示),纵坐标为属于各模块的成员数目(基因/转录本)。

模块相关性热图:

图片8.png 

注:展示模块与模块间的相关性大小,图中每列或行代表一个模块(以模块颜色表示),图中的颜色表示模块间的相关性大小,默认指定红色代表模块间的相关性较大,蓝色代表模块间的相关性较小,具体请见右上方的图例。左侧或上方为模块聚类的树状图,两个模块分支离的越近,说明这两模块相关性越大。

模块与表型相关性热图:

图片9.png 

注:展示模块与具体表型的相关性情况,左侧第一列代表不同模块,用不同的颜色表示,其余各列代表不同表型/样本/分组。图中左侧第一列中的数字表示该模块的基因/转录本数目,其余各列数据表示模块与表型的相关性系数及显著性P值(括号内)。默认指定红色代表模块与表型的相关性较大,蓝色代表模块与表型的相关性较小,具体请见右上方的图例。通常筛选相关性最高且P值越显著的模块作为该表型的特征模块。

6.参考文献

[1] Zhang B , Horvath S . A general framework for weighted gene co-expression network analysis.[J]. Statistical Applications in Genetics & Molecular Biology, 2005, 4(1):Article17.

[2] Langfelder P , Luo R , Oldham M C , et al. Is My Network Module Preserved and Reproducible?[J]. Plos Computational Biology, 2011, 7(1):87-93.

[3] Conesa A , Gotz S , Garcia-Gomez J M , et al. Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research[J]. Bioinformatics, 2005, 21(18):3674-3676.

[4] Peter, LangfelderSteve, Horvath. WGCNA: an R package for weighted correlation network analysis[J]. Bmc Bioinformatics, 2008.

7.FAQ

问题1:样品数量是否有要求?

解答:建议对至少15个样本的数据集尝试WGCNA。高通量环境中,少于15个样本的相关性对于基因共表达网络存在较大的背景噪声,导致在生物学上没有意义。如果可能的话,至少应有20个样本;样本越多结果越可靠越精确。

问题2:是否需要对基因进行筛选?

解答:基因可以通过均值或方差进行过滤,因为低表达或无差异表达的基因通常代表噪声。用均值还是方差过滤哪一种方法更好尚有争议。两者都有优点和缺点,由于均值和方差通常是相关的,因此如需过滤建议滤掉表达量低,在样本间表达差异不大的基因。但是不建议使用差异基因进行分析,因为WGCNA是一种基于基因表达谱对基因进行聚类的无监督分析方法。差异基因本质将形成单个(或几个高度相关)的模块,从而无法获得软阀值,导致无尺度网络假设无效。

问题3:可以使用WGCNA分析RNA-Seq数据吗?

解答:可以。就WGCNA而言,处理归一化的RNA-seq数据与归一化的芯片数据本质上没有任何区别。建议在进行WGCNA分析前对表达矩阵进行转换,推荐使用Deseq2varianceStabilizingTransformationlog2(x+1)对标准化后的数据做个转换。如果数据来自不同的批次,需要先移除批次效应。如果数据存在系统偏移,需要做quantile normalization后再进行分析。



Q1:文件如何上传?

工具数据可上传至我的数据工具数据→personal文件夹。 e8028fc0f3b21d6ac64ceca3150d7afc.png

点击右上方上传文件即可上传本地文件至平台,personal文件夹下也可新建文件夹

c7dfed40f9269647901338b514c096d3.png



Q2:上传的文件如何删除?

勾选文件/文件夹,点击右上方的文件操作,选择删除文件,文件也可移动或复制。

02dcbab5a49dd19a76a89c4a48c1898a.png



Q3:运行工具时选择好上传的文件后,无法进入下一步?

由于显示器分辨率的不同,弹出框展示可能不全,正常展示如下图所示,选择文件后,弹出框右下角为【确定】按钮,您可以按住ctrl键向下滑动鼠标缩小页面至窗口显示完全。49ecd5ebb5f52889a095f4a062816149.png



Q4:云工具的运行结果怎么查找?

我的分析→工具总览可查看所有运行的工具任务。点击【结果】查看分析结果报告,点击【下载文件】可下载结果文件至本地保存。

37851e291fb2d1443e04fa1a9d3f3180.png

0在线咨询