美吉生物结题报告

代谢组学云分析

客户: 台艳奇

20250318

目录

一、GC-MS项目背景

项目名称
代谢组学云分析
合同编号
MJ20250109229
项目样本信息
样本来源 小鼠
样本类型 粪便
备注
客户信息
单位名称 青海聚宜生物科技有限公司
单位地址
课题组 胥瑾 电话 13463918263
邮箱 1342621256@qq.com
项目联系人 台艳奇 电话 13463918263
邮箱 1342621256@qq.com
美吉联系人信息
销售员 贺玉鹏 电话 18894313283
邮箱 yupeng.he@majorbio.com
技术支持 胡齐慧 电话 021-20725029
邮箱 protein@majorbio.com
项目总监审批

签名:___________

_____年___月___日

二、工作流程

2.1 质谱实验流程

质谱流程图eddx.png

2.2 信息分析流程

代谢流程图.png

三、分析报告

3.1 项目背景

3.1.1 样本与软件信息

上移 下移 进入分析 删除

样本信息表

Sample Initial Name Sample Analysis Name Group Name Sample Description
C_FB_1 C_FB_1 N
C_FB_2 C_FB_2 N
C_FB_3 C_FB_3 N
C_FB_4 C_FB_4 N
C_FB_5 C_FB_5 N
C_FB_6 C_FB_6 N
C_FB_7 C_FB_7 N
C_FB_8 C_FB_8 N
L_FB_1 L_FB_1 H
L_FB_2 L_FB_2 H

注:展示本项目的样本基本信息,包括Sample initial/analysis name(样本初始/现用名称)、Group name(组名)以及Sample description(样品描述)。“样本描述”和“样本现用名称”可通过【在线编辑】进行再次编辑,修改后,页面展示修改后的样本名。

3.1.2 代谢集管理

上移 下移 进入分析 删除

test

集合名称 代谢物数 集合类型 分析记录 对比组 筛选条件
NHN_vs_N_3 50 差异代谢集 差异代谢物分析>两组比较和筛选 NHN_vs_N 分组名称:NHN_vs_N;Pvalue<0.05;VIP_pred_OPLS-DA>1;FC<1;FC>1;
NHN_vs_N_2 16 差异代谢集 差异代谢物分析>两组比较和筛选 NHN_vs_N 分组名称:NHN_vs_N;Pvalue<0.05;VIP_pred_OPLS-DA>1;FC<1;FC>1;
NHN_vs_N_1 59 差异代谢集 差异代谢物分析>两组比较和筛选 NHN_vs_N 分组名称:NHN_vs_N;Pvalue<0.05;VIP_pred_OPLS-DA>1;FC<1;FC>1;
DiffSet_mix 150 代谢集
NHN_vs_N 31 差异代谢集 差异代谢物分析>两组比较和筛选 NHN_vs_N 分组名称:NHN_vs_N;p_value<0.05;VIP_OPLS-DA>1.0;Up_FC<1.0;Up_FC>1.0;
HHN_vs_H 76 差异代谢集 差异代谢物分析>两组比较和筛选 HHN_vs_H 分组名称:HHN_vs_H;p_value<0.05;VIP_OPLS-DA>1.0;Up_FC<1.0;Up_FC>1.0;
H_vs_N 75 差异代谢集 差异代谢物分析>两组比较和筛选 H_vs_N 分组名称:H_vs_N;p_value<0.05;VIP_OPLS-DA>1.0;Up_FC<1.0;Up_FC>1.0;
Set_Origin 300 代谢集
Set_Raw 300 代谢集

注:(1)集合名称;(2)该集合中代谢物数目;(3)集合类型:① 差异代谢-通过两组比较、两样本比较筛选的差异代谢集合;② 自建代谢集-通过勾选代谢物创建出的关注代谢集;③ 代谢集:有3个分别是 Set_Origin、Set_Raw和DiffSet_mix。(Set_Origin和Set_Raw通过工作流默认将Origin数据表、Raw数据表中有名称的代谢物创建的集合;DiffSet_mix工作流默认创建的所有差异代谢集的并集);(4)分析记录:代谢集合是在哪个分析中获得的;(5)对比组:是哪个对比组;(6)筛选条件:如果是差异代谢集:是由哪些筛选条件创建的。

3.2 数据预处理

原始数据包含质控样本(quality control, QC)和检测样本,为了更好地分析数据,需要对原始数据进行一系列的预处理,主要包括对原始数据缺失值进行模拟(missing value recoding)和数据归一化(normalization)。经过数据的预处理,可以减小数据中与研究目的不相关的变异对数据分析的影响,利于潜在目标差异代谢物的筛选和分析。

缺失值过滤 

样本可能会由于某些原因(a. 信号很低检测不到;b. 检测错误,如离子抑制或者仪器性能不稳定;c. 提峰的算法限制,不能从背景中将低的 信号提取出来;d. 解卷积时不能将重叠的峰全部解析出来。),造成一个或多个值的缺失。在表格中缺失值通常是以空值的形式或者是NA (Not A Number)存在的。根据样本或分组内缺失值的比例,进行数据过滤是代谢组学分析中常用的方法。 


缺失值填充

对于未被过滤的缺失值,如果直接忽视,这样的数据矩阵可能会影响后续算法的计算,将会触发异常。因此需要进行模拟填充,主要方法有极 小值、中位数(适合偏态分布)、平均值(适合正态分布)、随机森林、最大期望值和补零。 


数据归一化 

数据归一化是将数据映射到特定范围之内再进行处理,有利于便捷快速的运算。数据归一化是数据预处理重要一步,可消除样本处理、浓度差异、仪器偏差等统误差。代谢组学常用数据归一化方法:中位数、平均数、总和、指定样本和内参。 


QC验证 

计算某个离子在QC样本中的RSD(标准差/均值),其值越小,说明偏差越小;代谢组学需要剔除RSD超过该阈值的变量,一般RSD > 30%的变量 在实验过程中波动较大,不参与做差异定量分析。


数据转换 

代谢组学分析一般要求数据为正态分布或者高斯分布,数据通常需要进行Log转化。Log转化可以矫正数据集的异方差性,减少或消除数据结构的不对称性,提高数据结构的正态分布性。从而满足常见的统计分析方法如student's test,线性回归和相关性分析等假设,达到减少分析误差的效果。

3.2.1 数据预处理

数据预处理是尽可能的将仪器分析产生的原始采样数据进行适当的处理,消除或减少实验和分析过程中带来的误差,使得数据结构标准化。数据预处理的过程包括:过滤低质量峰,缺失值填充,归一化,QC样本RSD评估,数据转换等。

上移 下移 进入分析 删除

QC样本评估图-pos

注:横坐标为RSD (%)值,即标准差/均值,纵坐标为离子峰所占的累积比例。对于整体数据而言,如RSD<30%,峰所占的累计比例>0.7,则整体数据合格(虚线表示预处理前,实线表示预处理后,Raw data 只有一条实线)。

3.3 样本比较分析

       根据代谢物在不同样本间的表达情况,对样本的进行相关性热图分析和PCA主成分分析,评价组内样本的相似性和组间样本的差异性。

样本相关性Heatmap图

       样本之间的相关性分析,一方面检验生物学重复之间的变异是否符合实验设计的预期,另一方面为差异代谢物分析提供基本参考。相关系数越接近于1,表明代谢物在样本间的表达量相似度越高,即样本间相关性越好。 样本间代谢物表达差异程度可通过统计学中的距离进行量化分析,使用统计算法计算两两样本间距离,获得距离矩阵和可视化统计分析。

PCA分析

       PCA分析(Principal Component Analysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。其优点是简单且无参数限制。实际项目中,我们可以通过PCA找出离群样品、判别相似性高的样品簇等。

        PCA分析本质上是一种无监督的多元统计分析方法,能从总体上反应各组样本之间的总体差异和组内样本之间的变异度大小。样本代谢物表达模式越相似,反映在PCA图中的距离越近。基本原理是利用数学的方法,将原来变量重新组合成新的互相无关的几个综合变量(即主成分),对所有因素按重要性排序,通常靠后的微小因素被忽略掉,通过降维,从而起到简化数据的作用。将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映样品间差异的两个特征值。

3.3.1 样本相关性热图

样本间代谢物组成和丰度的变异程度可通过样本间的相关性数据进行量化分析,相关性越接近于1,表明样本间的代谢物组成和丰度相似度越高。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

样本相关性数据表

CH_FB_2 CH_FB_4 CH_FB_5 CH_FB_6 CH_FB_7 CH_FB_8 CH_FB_3 C_FB_3 C_FB_2 C_FB_5
C_FB_4 0.63947 0.90791 0.90998 0.92941 0.94595 0.94664 0.96004 0.95959 0.96892 0.96388
CH_FB_4 0.6246 1 0.85715 0.85883 0.87866 0.90541 0.90112 0.88614 0.87065 0.87534
C_FB_5 0.62453 0.87534 0.91599 0.90604 0.93264 0.91932 0.9369 0.9361 0.97389 1
C_FB_3 0.65321 0.88614 0.89857 0.94901 0.93583 0.96406 0.96899 1 0.93659 0.9361
C_FB_1 0.66281 0.89745 0.91149 0.91748 0.9257 0.94382 0.96589 0.95749 0.95806 0.93953
CH_FB_5 0.58334 0.85715 1 0.92133 0.95168 0.89084 0.90736 0.89857 0.91165 0.91599
CH_FB_2 1 0.6246 0.58334 0.61716 0.62839 0.6655 0.66825 0.65321 0.63767 0.62453
CH_FB_7 0.62839 0.87866 0.95168 0.94946 1 0.93234 0.93282 0.93583 0.92568 0.93264
CH_FB_3 0.66825 0.90112 0.90736 0.93956 0.93282 0.96969 1 0.96899 0.94003 0.9369
CH_FB_8 0.6655 0.90541 0.89084 0.94022 0.93234 1 0.96969 0.96406 0.91584 0.91932

注:第一行和第一列为样本名,表中数值为每两个样本间的相关性系数或相关性P值,相关性系数的绝对值越大表示两个样本的相关性越强;相关性P值越小,表示两个样本的相关性越显著。

3.3.2 PCA分析

PCA分析(Principal Component Analysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。

上移 下移 进入分析 删除

PCA分析图

注:PCA得分图。样本通过降维分析后,在主成分p1,p2上有相对坐标点,各个坐标点的距离代表了样本间聚集和离散程度,距离越近表明样本间相似性越高,距离越远表明样本间差异性越大。通过PCA分析可以观察实验模型中的组间分离趋势,以及是否有异常点出现,同时从原始数据上反映组间和组内的变异度。置信椭圆表示本组“真实”样本在95% 的置信度下,分布在此区域内;超过此区域表示样本可能异常。 组间差异检验 (1)ANOSIM分析注:statistic为R值,理论范围为-1到+1,实际R值一般从0到1;R值越接近1表示组间差异越大于组内差异,R值越小则表示组间和组内没有明显差异;P值为差异是否有显著性。 (2)Adonis分析注:R2值方差贡献,代表分组因素对样本差异的解释度,R2越大表示分组对差异的解释度越高;Pr,为P值,小于0.05说明差异显著性。

上移 下移 进入分析 删除

样本比较分析-PCA 二维PCA+箱型图

注:PCA得分图。样本通过降维分析后,在主成分p1,p2上有相对坐标点,各个坐标点的距离代表了样本间聚集和离散程度,距离越近表明样本间相似性越高,距离越远表明样本间差异性越大。通过PCA分析可以观察实验模型中的组间分离趋势,以及是否有异常点出现,同时从原始数据上反映组间和组内的变异度。置信椭圆表示本组“真实”样本在95% 的置信度下,分布在此区域内;超过此区域表示样本可能异常。上方和右侧箱子代表各个分组在PC轴的坐标值分布,反映了样本间聚集程度,箱子上的点为各样本点坐标值。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

PCA模型参数表

A r2x r2x(cum)
p2 0.195 0.527
p1 0.332 0.332
p3 0.141 0.668

注:R2X表示模型对X变量差异的解释性,R2X(cum)表示累积的差异解释性,数值越接近1说明模型越好,越低说明模型的拟合准确性越差。p1和p2分别表示第一和第二主成分贡献值。

3.3.3 Venn分析

Venn分析可用来展示每组特有的代谢物或组间共有的代谢物。

上移 下移 进入分析 删除

样本比较venn

注:若2 ≤ 分组 ≤ 5,图形会呈现venn图,不同的颜色代表不同的分组(或样本),重叠部分的数字代表多个分组中共有的代谢物数目,非重叠部分的数字代表对应分组所特有的代谢物数目;若分组 ≥ 6,图形会呈现花瓣图,花瓣里是对应分组特有的代谢物数目,中心是所有分组共有的代谢物数目。在云平台交互式页面中,点击Venn图中数字后,可以创建代谢集,用于后续分析。

3.3.4 PLS-DA分析

 PLS-DA(Partial Least Squares Discriminant Analysis),即偏最小二乘法判别分析,是多变量数据分析技术中的判别分析法,经常用来处理分类和判别问题。通过对主成分适当的旋转,PLS-DA可以有效的对组间观察值进行区分,并且能够找到导致组间区别的影响变量。

上移 下移 进入分析 删除

PLS-DA置换检验

注:PLS-DA模型验证。横坐标表示置换检验的置换保留度(与原模型Y变量顺序一致的比例,置换保留度为1的点即为原模型的R2和Q2值),纵坐标表示R2(红色圆点)和Q2(蓝色三角)置换检验的取值,两条虚线分别表示R2和Q2的回归线。置换检验针对的是实验组和对照组一起做的。置换检验模型是随机打乱实验组和对照组的分组标签(Y变量),横轴的置换保留度是与原模型Y变量顺序一致的比例,置换保留度为1,即为原OPLS-DA/PLS-DA模型的R2和Q2。一般选择随机置换检验的次数是200次。置换检验评价的标准是看Q2回归线与Y轴的截距,截距小于0.05表明模型稳健可靠,未发生过拟合。但有的时候由于样本数量较少,截距大于0.05,这个时候可以只看R2,Q2的回归线,只要随着置换保留度的下降,R2和Q2下降,回归线呈向上的趋势,也能说明置换检验过关,模型不存在过拟合现象。

上移 下移 进入分析 删除

PLS-DA置换检验

注:横坐标为置换检验随机模型的准确率,纵坐标为随机模型的个数,红色柱子代表置换检验得到的Q 值出现的个数,蓝色柱子代表置换检验得到的R2Y值出现的个数。 p值 = 置换检验的随机模型中优于原模型的个数 / 置换检验中所有的随机模型个数。 例如,Q2的p=0.01,说明在置换检验过程中,有1%个随机模型的预测能力优于原模型;R2Y的p=0.05,说明在置换检验过程中,有5%随机模型的解释能力优于原模型。一般认为p<0.05时,模型最优。

上移 下移 进入分析 删除

PLS-DA模型

注:PLS-DA主成分数目选择。R2Y和Q2分别用来评价PLS-DA模型的解释能力和预测能力,R2Y和Q2的累计值越大,说明模型越稳定可靠。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

样本PLS-DA模型参数

A R²X R²X(cum) R²Y R²Y(cum) Q²(cum)
p1 0.221 0.221 0.923 0.923 0.592 0.592
p2 0.272 0.493 0.0538 0.977 0.406 0.758
p3 0.082 0.575 0.0218 0.999 0.362 0.846

注:R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,R2X(cum)和R2Y(cum)表示累积解释率;Q2表示模型的预测能力,这3个指标越接近于1时表示模型越稳定可靠,Q2 > 0.5表示模型的预测能力较好,Q2 < 0.5表示模型的预测能力较差。p1,p2分别表示第一,第二主成分。

3.4 代谢物注释信息

根据质谱鉴定得到全部代谢物与KEGG和HMDB数据库进行比对,获得代谢物在数据库的注释信息,并对其在数据库的注释情况进行统计。

3.4.1 KEGG 化合物分类

         KEGG Compound是小分子、生物聚合物和其他与生物系统相关的化学物质的集合。KEGG Compound 分类是按照代谢物参与的生物学功能层级等级进行分类,主要分类有:生物过程(Compounds with biological roles),活性肽(Bioactive peptides),内分泌干扰物(Endocrine disrupting compounds),农药(Pesticides),植物次级代谢物(Phytochemical compounds),脂类(Lipids);将鉴定的代谢物比对到KEGG Compound数据库获得代谢物分类概况和并统计作图。详情参考 https://www.kegg.jp/kegg/compound/

上移 下移 进入分析 删除

KEGG化合物分类统计柱状图

注:纵坐标为KEGG化合物分类,横坐标为注释到该种类化合物个数;条形的颜色表示属于化合物一级分类类别。

上移 下移 进入分析 删除

KEGG化合物分类统计表

First Category Second Category Number
Nucleic acids Bases 5
Steroids 29-Carbon atoms 2
Vitamins and cofactors Vitamins 1
Steroids 24-Carbon atoms 3
Steroids 28-Carbon atoms 2
Carbohydrates Monosaccharides 14
Carbohydrates Oligosaccharides 4
Lipids Fatty acids 8
Nucleic acids Nucleosides 3
Hormones and transmitters Neurotransmitters 4

注: (1)First Category:KEGG化合物注释的一级分类;(2)Second Category:KEGG化合物注释的二级分类;(3)number:注释到此二级分类的代谢物数目【点击数字可以弹出代谢物详情表查看代谢物的基本信息】。

3.4.2 KEGG 功能通路

KEGG PATHWAY数据库是一个人工绘制的代谢通路的集合,主要描述分子间相互作用,生理生化反应和基因产物间关系等的信息。根据代谢物比对到KEGG compound ID 的信息,可以获知代谢物参与的代谢通路信息,从而评价其对生物新陈代谢过程的影响。

上移 下移 进入分析 删除

KEGG通路统计图

注:纵坐标为KEGG代谢通路的二级分类,横坐标为注释到该通路下的化合物个数。KEGG代谢通路可分为7大类:代谢(Metabolism),遗传信息处理(Genetic Information Processing),环境信息处理(Environmental Information Processing),细胞过程(Cellular Processes),生物体系统(Organismal Systems),人类疾病(Human Diseases),药物开发(Drug Development)。条形的颜色表示不同代谢途径类别。

上移 下移 进入分析 删除

KEGG通路统计分框式柱形图

注:横坐标为KEGG代谢通路的二级分类,纵坐标为注释到该通路下的化合物个数。KEGG代谢通路可分为7大类:代谢(Metabolism),遗传信息处理(Genetic Information Processing),环境信息处理(Environmental Information Processing),细胞过程(Cellular Processes),生物体系统(Organismal Systems),人类疾病(Human Diseases),药物开发(Drug Development)。不同分类颜色表示不同代谢途径类别。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

KEGG通路统计表

First Category Second Category Number
Metabolism Carbohydrate metabolism 36
Human Diseases Cancer: specific types 2
Human Diseases Endocrine and metabolic disease 3
Cellular Processes Cell growth and death 2
Metabolism Lipid metabolism 21
Cellular Processes Transport and catabolism 1
Human Diseases Cancer: overview 18
Environmental Information Processing Membrane transport 36
Human Diseases Infectious disease: bacterial 1
Metabolism Energy metabolism 4

注: (1)First Category:代谢通路的一级分类;(2)Second Category:代谢通路的二级分类;(3)number:Number:注释到该二级通路上代谢物的数量【点击数字可以弹出代谢物详情表查看代谢物的基本信息】。

上移 下移 进入分析 删除

KEGG重要通路统计图

注:从左至右按照包含代谢物数目从高到低依次排列,柱子越高表明鉴定代谢物中参与此通路的代谢物越多,该生物学通路越活跃,可以根据研究目的的不同选择排序靠前的通路进行后续深入分析。

上移 下移 进入分析 删除

KEGG重要通路统计表

Pathway Pathway ID First Category Second Category Number
ABC transporters map02010 Environmental Information Processing Membrane transport 36
Protein digestion and absorption map04974 Organismal Systems Digestive system 17
Central carbon metabolism in cancer map05230 Human Diseases Cancer: overview 16
D-Amino acid metabolism map00470 Metabolism Metabolism of other amino acids 16
Aminoacyl-tRNA biosynthesis map00970 Genetic Information Processing Translation 12
Purine metabolism map00230 Metabolism Nucleotide metabolism 11
Glycine, serine and threonine metabolism map00260 Metabolism Amino acid metabolism 10
Arginine and proline metabolism map00330 Metabolism Amino acid metabolism 10
Mineral absorption map04978 Organismal Systems Digestive system 10
Galactose metabolism map00052 Metabolism Carbohydrate metabolism 8

注: (1)Pathway:通路名称;(2)Pathway ID:通路ID号;(3)First Category:代谢通路的一级分类;(4)Second Category:代谢通路的二级分类;(5)number:Number:该通路上代谢物的数量【点击数字可以弹出代谢物详情表查看代谢物的基本信息】。

3.4.3 HMDB化合物分类

人类代谢数据库(HMDB,https://hmdb.ca)是最大、最全面的生物体特异性代谢数据库。包含有关人类代谢物及其生物学作用、生理浓度、疾病相关性、化学反应、代谢途径和参考光谱的综合信息。目前,该数据库包含220945个代谢物条目,包括水溶性和脂溶性代谢物。此外,还包含了8610个和这些代谢条目有关的蛋白质序列(酶和转运蛋白)。

每个代谢物条目里包含物质的分子量、结构、分子式、分类、生物学作用、生理浓度、组织位置、疾病和遗传关联、化学和酶促反应、代谢途径和参考图谱等信息。还有超链接能够连接到其它数据库,包括KEGG、PubChem、MetaCyc和ChEBI等。

上移 下移 进入分析 删除

HMDB化合物分类饼图

注:根据代谢物的数量,从高到低顺序展示所选HMDB层级(Superclass、Class或Subclass)的名称和代谢物所占的百分比。图中每个饼图中的不同颜色代表了不同的HMDB分类,其面积表示该分类中代谢物所占的相对比例。

上移 下移 进入分析 删除

HMDB化合物分类统计表

Superclass Number
Organic acids and derivatives 49
Lipids and lipid-like molecules 35
Organic oxygen compounds 26
Organoheterocyclic compounds 23
Benzenoids 10
Phenylpropanoids and polyketides 7
Nucleosides, nucleotides, and analogues 6
Organic nitrogen compounds 5
Hydrocarbons 2
Alkaloids and derivatives 1

注:展示注释到的所选HMDB层级(Superclass、Class或Subclass)的名称和代谢物数量【点击数字可以弹出代谢物详情表查看代谢物的基本信息】。

上移 下移 进入分析 删除

代谢物注释信息-化合物分类分布统计图-分组柱形图

注:横坐标为各个分类,纵坐标为代谢物数量/代谢物表达量,不同颜色的柱子代表代表不同的分组,柱子高度代表代谢物数量/代谢物表达量总和的多少。

上移 下移 进入分析 删除

代谢物注释信息-化合物分类分布统计图-堆叠柱形图

注:横坐标为各个分组,纵坐标为各分类在分组中注释的代谢物数量/代谢物表达量,不同颜色的柱子代表不同的分类,柱子的长短代表该分类下代谢物数量/代谢物表达量总和的多少。

上移 下移 进入分析 删除

代谢物注释信息-化合物分类分布统计表

Superclass

注:第一列为HMDB分类,根据选择分类类型展示Superclass、Class或Subclass,第二列之后为各个分组在不同分类下代谢物数量/表达量总和的多少,可以勾选数字查看代谢物或创建代谢集。

3.4.4 代谢物注释总览

将代谢物在HMDB、KEGG 数据库的功能注释进行汇总,并提供多种检索方式,实现查询特定功能对应的代谢物信息,或根据代谢物ID获得功能信息。

上移 下移 进入分析 删除

代谢物注释信息总览表

Metabolite 代谢物 Metab ID KEGG Pathway ID KEGG Pathway Description Library ID Formula Retention time RIScore 通路 KEGG Compound ID
Tyrosine 酪氨酸 metab_1 map01100;map00350;map01240;map00730;map00130;map01230;map05031;map05012;map01210;map00360;map04974;map00970;map04728;map05034;map00400;map05030;map05230;map04916;map04917 Metabolic pathways;Tyrosine metabolism;Biosynthesis of cofactors;Thiamine metabolism;Ubiquinone and other terpenoid-quinone biosynthesis;Biosynthesis of amino acids;Amphetamine addiction;Parkinson disease;2-Oxocarboxylic acid metabolism;Phenylalanine metabolism;Protein digestion and absorption;Aminoacyl-tRNA biosynthesis;Dopaminergic synapse;Alcoholism;Phenylalanine, tyrosine and tryptophan biosynthesis;Cocaine addiction;Central carbon metabolism in cancer;Melanogenesis;Prolactin signaling pathway HMDB0000158;HMDB0037556;HMDB0250803 C18 H35 N O3 Si3 8.496 99.31 代谢途径;酪氨酸代谢;辅助因子的生物合成;硫胺素代谢;泛醌和其他萜类醌生物合成;氨基酸生物合成;苯丙胺成瘾;帕金森病;2-氧代羧酸代谢;苯丙氨酸代谢;蛋白质的消化和吸收;氨酰基tRNA生物合成;多巴胺能突触;酒精中毒;苯丙氨酸、酪氨酸和色氨酸生物合成;可卡因成瘾;癌症的中心碳代谢;黑色素生成;催乳素信号通路 C00082;C01536
Daidzein 大豆黄酮 metab_2 map01100 Metabolic pathways HMDB0003312;LMPK12050038 C21 H26 O4 Si2 12.967 99.27 代谢途径 C10208
Beta-Sitosterol β-谷甾醇 metab_3 map01100;map00100 Metabolic pathways;Steroid biosynthesis HMDB0000852 C32 H58 O Si 15.844 99.1 代谢途径;类固醇生物合成 C01753
Cholesteryl oleate - metab_4 - - HMDB0000918 C45 H78 O2 12.976 98.95 - C14641
Inositol 肌醇 metab_5 map01100;map01250;map00562;map02010;map00053;map00052;map04070 Metabolic pathways;Biosynthesis of nucleotide sugars;Inositol phosphate metabolism;ABC transporters;Ascorbate and aldarate metabolism;Galactose metabolism;Phosphatidylinositol signaling system HMDB0000211 C24 H60 O6 Si6 9.244 99.47 代谢途径;核苷酸糖的生物合成;磷酸肌醇代谢;ABC转运器;抗坏血酸和醛酸代谢;半乳糖代谢;磷脂酰肌醇信号系统 C00137
Glutamine - metab_6 - - HMDB0030886 C14 H34 N2 O3 Si3 7.608 99.43 - C00303
Threonine - metab_7 - - - C13 H33 N O3 Si3 5.248 99.98 - -
Methyl elaidate - metab_8 - - - C19 H36 O2 9.333 99.91 - -
D-Galactose D-半乳糖 metab_9 map01100;map04978;map01250;map04973;map00052;map00520 Metabolic pathways;Mineral absorption;Biosynthesis of nucleotide sugars;Carbohydrate digestion and absorption;Galactose metabolism;Amino sugar and nucleotide sugar metabolism HMDB0037209;HMDB0000143;HMDB0250761;PW_C000093 C22 H55 N O6 Si5 8.214 98.74 代谢途径;矿物质吸收;核苷酸糖的生物合成;碳水化合物的消化和吸收;半乳糖代谢;氨基糖和核苷酸糖代谢 C00124;C00984;C00738
D-Glucose D-葡萄糖 metab_10 map01200;map05415;map02010;map04922;map04742;map01100;map00520;map00524;map00052;map04068;map00010;map00500;map00030;map04066;map04978;map04973;map04976;map04152;map04910;map04911;map05230;map04917;map04932;map04933;map04930;map04931 Carbon metabolism;Diabetic cardiomyopathy;ABC transporters;Glucagon signaling pathway;Taste transduction;Metabolic pathways;Amino sugar and nucleotide sugar metabolism;Neomycin, kanamycin and gentamicin biosynthesis;Galactose metabolism;FoxO signaling pathway;Glycolysis / Gluconeogenesis;Starch and sucrose metabolism;Pentose phosphate pathway;HIF-1 signaling pathway;Mineral absorption;Carbohydrate digestion and absorption;Bile secretion;AMPK signaling pathway;Insulin signaling pathway;Insulin secretion;Central carbon metabolism in cancer;Prolactin signaling pathway;Non-alcoholic fatty liver disease;AGE-RAGE signaling pathway in diabetic complications;Type II diabetes mellitus;Insulin resistance HMDB0000122;PW_C000077 C22 H55 N O6 Si5 8.361 99.95 碳代谢;糖尿病性心肌病;ABC转运器;胰高血糖素信号通路;味觉转导;代谢途径;氨基糖和核苷酸糖代谢;新霉素、卡那霉素和庆大霉素的生物合成;半乳糖代谢;FoxO信号通路;糖酵解/糖原异生;淀粉和蔗糖代谢;磷酸戊糖途径;HIF-1信号通路;矿物质吸收;碳水化合物的消化和吸收;胆汁分泌;AMPK信号通路;胰岛素信号通路;胰岛素分泌;癌症的中心碳代谢;催乳素信号通路;非酒精性脂肪肝;糖尿病并发症中的AGE-RAGE信号通路;II型糖尿病;胰岛素抵抗 C00031;C00221

注:(1)ID:质谱搜库鉴定得到的数据矩阵中,根据不同离子模式,随机给每个离子峰的编号;(2)Metabolite: 鉴定到的代谢物名称,其中metab_[0,9]表示没有定性到的离子峰;(3)代谢物:鉴定到的代谢物中文名称,此中文翻译仅供参考,请结合实际情况进行判断;(4)Metab ID:云平台分析中,随机给每个离子峰的编号,用于创建代谢集等运算;(5)level:代谢物鉴定等级B(i):基于MS/MS二级谱库的精确匹配(自建库),这是代谢最高的鉴定准确度;B(ii) 基于计算机模拟的MS/MS二级谱库精确匹配(公开库,理论库)(LC项目特有);(6)KEGG Pathway ID:通路ID号;(7)KEGG Pathway Description:通路名称;(8)通路:通路中文翻译;(9)Library ID:代谢物在相应搜库数据库的登录号;(10)Adducts:加合离子模式,指代谢物与细胞大分子之间通过共价键形成的稳定结构;(11)Formula:代谢物的化学式;(12)Retention time:指带电离子在色谱中的保留时间;(13)KEGG Compound ID:KEGG数据库登录号;(14)Mode:离子模式,pos正离子,neg负离子模式;(15)KEGG Compound First Category:该代谢物在KEGG Compound数据库中的分类一级信息;(16)KEGG Compound Second Category:该代谢物在KEGG Compound数据库中的分类二级信息;(17)KEGG Pathway First Category:该通路KEGG Pathway数据中通路一级信息;(18)KEGG Pathway Second Category:该通路KEGG Pathway数据中通路二级信息;(19)HMDB Superclass:该代谢物在HMDB数据库中一级分类信息;(20)HMDB Subclass:该代谢物在HMDB数据库中二级分类信息;(21)HMDB Class:该代谢物在HMDB数据库中三级分类信息;(22)M/Z:质荷比,指带电离子的质量与所带电荷之比值;(23)Fragmentation Score:标品自建库、Metlin、LipidBlast等谱图数据库搜库得分(LC项目);(24)Theoretical fragmentation Score:HMDB等理论数据库搜库得分(LC项目);(25)Mass error:质量偏差(ppm);(26)CAS ID:化学物质登录号;(27)RSD:QC样本相对标准偏差。(28)Quant Mass:定量离子(GC项目);(29)RI:实验测定的保留指数(GC和顶空项目);(30)Library RI:为数据库查询的保留指数(GC和顶空项目);(31)RI Score:保留指数的打分值,得分值越高,物质鉴定就越准确(GC项目);(32)Odour:气味属性信息(顶空项目特有);(33)Odour class:依据气味数据库对物质结构进行分类(顶空项目特有);(34)CCS:碰撞截面积(离子淌度参数)(4D代谢特有);(35)Delta_CCS [%]:碰撞截面积相对偏差百分比(4D代谢特有);(36)mSigma:同位素相似性偏差值(4D代谢特有);(36)Annotations:注释的数据库来源(4D代谢特有);(37)AQ:五维Annotation Quality(定性因子)的定性情况:每个维度用0,1,2 来表示;0表示没有使用这个因子,1和2表示满足因子的情况(4D代谢特有);(38)AQ Details:最终采用的定性因子(4D代谢特有);(39)Annotation Source:最终定性的数据库来源(4D代谢特有)。

上移 下移 进入分析 删除

明星通路代谢物注释详情表

Metabolite 代谢物 Metab ID level KEGG Compound ID KEGG Pathway ID KEGG Pathway Description 通路描述 KEGG Pathway First Category KEGG Pathway Second Category 明星通路

注: (1)metabolite: 代谢数据库中名称;(2)代谢物:代谢物中文名称,此中文翻译仅供参考,请结合实际情况进行判断;;(3)Metab ID:云平台分析中,随机给每个离子峰的编号,用于创建代谢集等运算;;(4)level:代谢物鉴定等级B(i):基于MS/MS二级谱库的精确匹配(自建库),这是代谢最高的鉴定准确度;B(ii) 基于计算机模拟的MS/MS二级谱库精确匹配(公开库,理论库);(5)KEGG Compound ID:KEGG数据库化合物登录号;(6)KEGG Pathway ID:通路ID号;(7)KEGG Pathway Description:通路名称;(8)通路:通路中文翻译;(9)KEGG Pathway First Category:该通路KEGG Pathway数据中通路一级信息;(10)KEGG Pathway Second Category:该通路KEGG Pathway数据中通路二级信息;(11)明星通路:所属的明星通路,多个以分号分隔。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

明星通路注释详情表

Pathway ID Pathway 通路描述 明星通路 First Category Second Category Number

注: (1)Pathway ID:通路ID号,点击红色图标可跳转查看在线通路;(2) Pathway Description:通路名称;(3)通路描述:通路中文翻译;(4)明星通路:所属的明星通路;(5)KEGG Pathway First Category:该通路KEGG Pathway数据中通路一级信息;(6)KEGG Pathway Second Category:该通路KEGG Pathway数据中通路二级信息;metabolite: 代谢数据库中名称;(7)Number:通路上注释的代谢物个数,点击ketchup代谢物详情表。

3.5 差异代谢物分析

差异代谢物分析包括多元统计分析和单维统计分析,其中多元统计能捕捉到具有相互关联的差异性变量有利于代谢调控网络研究;单维的统计能独立分析单个变量的统计学意义,在数据分析中起到验证和补充的作用;因此代谢组学中使用多元统计和单维统计同时筛选到的差异变量应该是最重要和最值得关注的差异代谢物。

3.5.1 两组比较分析

代谢组学数据具有“高维、海量”的特点,因此需要结合单变量统计分析和多元统计分析的方法来筛选两个生物组别间的差异代谢物。单变量统计分析方法包括参数检验和非参数检验。多元统计分析方法包括主成分分析、偏最小二乘法判别分析等。通过单变量分析和多变量分析来筛选两个生物组别间的差异代谢物。本项目首先通过PCA分析和PLSDA分析来分析两组的整体差异情况。再通过OPLSDA分析中代谢物的VIP值(如果OPLSDA过拟合则用PLSDA的VIP值)和单变量分析中的Fold change和p-value来进行差异代谢物的筛选,并绘制火山图。

上移 下移 进入分析 删除

组间差异详情表

注:(1)ID:质谱搜库鉴定得到的数据矩阵中,根据不同离子模式,随机给每个离子峰的编号;(2)Metabolite: 鉴定到的代谢物名称,其中metab_[0,9]表示没有定性到的离子峰;(3)Metab ID:云平台分析中,随机给每个离子峰的编号,用于创建代谢集等运算;(4)graph:代谢物丰度在两组间的分布展示[柱状图,箱线图,小提琴图];(5)VIP_pred_OPLS-DA:该代谢物在两组间OPLS-DA模型中的VIP值(6)VIP_PLS-DA:该代谢物在两组间的PLSDA模型VIP值;(7)FC(Y/X):该代谢物在两组间的差异表达倍数(fold change)。X:该代谢物在对照组X中的表达量,Y:该代谢物在实验组Y中的表达量,X为对照;(8)P-value:该代谢物在两样本间的差异显著性检验结果;默认筛选标准VIP_pred_OPLS-DA > 1,P-value < 0.05;(9)FDR:校正后的P值;(10)KEGG Compound ID:KEGG数据库登录号;(11)Library ID:代谢物在相应搜库数据库的登录号;(12)M/Z:质荷比,指带电离子的质量与所带电荷之比值;(13)Mode:离子检测模式,包括正离子和负离子模式;(14)Adducts:加合离子模式,指代谢物与细胞大分子之间通过共价键形成的稳定结构;(15)Formula:代谢物的化学式;(16)Retention time:指带电离子在色谱中的保留时间;其它列为依次为该代谢物在KEGG Compound数据库中的分类层级细信息和KEGG Pathway数据中通路层级信息,HMDB中的分类信息,以及代谢物在各样本中的丰度信息。

上移 下移 进入分析 删除

差异火山图

注:横坐标为代谢物在两组间表达差异的倍数变化值,即log2FC,纵坐标为代谢物表达量变化差异的统计学检验值,即-log10(p_value)值,值越高则表达差异越显著,横纵坐标的数值都做了对数化处理。图中每个点代表一个特定的代谢物,点的大小表示Vip值。默认红色点表示显著上调的代谢物,蓝色点表示显著下调的代谢物,灰色点为非显著差异代谢物。对应数据见差异详情表。将所有代谢物映射上去之后,可以获知,在左边的点为表达差异下调的代谢物,右边的点为表达差异上调的代谢物,越靠左右两边和上边的点表达差异越显著。

上移 下移 进入分析 删除

两组比较分析-差异散点图

注:横纵坐标分别表示两个分组中的表达量,这里横纵坐标的数值都做了对数化处理,每个点代表一个特定的代谢物。特定的一个点对应的横坐标值为该代谢物在对照样中的表达量,纵坐标值为该代谢物在处理样中的表达量。图中红色点表示显著上调的代谢物,蓝色点表示显著下调的代谢物,灰色点为非显著差异代谢物。将所有代谢物映射上去后,越接近0的点,说明表达量越低;那些偏离了对角线程度越大的点表明该代谢物在两个分组间表达差异越大。

上移 下移 进入分析 删除

差异统计和火山图-差异堆叠柱形图

注:横坐标为不同的对比组;纵坐标为代谢物的个数;图中堆叠柱代表该对比组差异代谢物的数目,其中红色代表上调差异代谢物,蓝色代表下调差异代谢物。

上移 下移 进入分析 删除

差异统计和火山图-差异柱形图

注:横坐标为不同的对比组;纵坐标为代谢物的个数;图中红色代表上调差异代谢物,蓝色代表下调差异代谢物。

上移 下移 进入分析 删除

PCA得分图

注:PCA得分图。样本通过降维分析后,在主成分p1,p2上有相对坐标点,各个坐标点的距离代表了样本间聚集和离散程度,距离越近表明样本间相似性越高,距离越远表明样本间差异性越大。通过PCA分析可以观察实验模型中的组间分离趋势,以及是否有异常点出现,同时从原始数据上反映组间和组内的变异度。置信椭圆表示本组“真实”样本在95% 的置信度下,分布在此区域内;超过此区域可认为是可能异常样本。

上移 下移 进入分析 删除

PCA模型参数图

A r2x r2x(cum)
p1 0.191 0.191
sum NA 0.575
p1 0.221 0.221
p3 0.142 0.668
p1 0.33 0.33
o1 0.295 0.486
o2 0.0881 0.575
p2 0.195 0.526
p2 0.272 0.492
p3 0.0822 0.575

注:R2X表示模型对X变量差异的解释性,R2X(cum)表示累积的差异解释性,数值越接近1说明模型越好,越低说明模型的拟合准确性越差。p1和p2分别表示第一和第二主成分贡献值。

上移 下移 进入分析 删除

PLS-DA得分图

注:PLS-DA得分图。PLS-DA 得分图常用来直观地展示模型的分类效果,图中两组样品分离程度越大,说明分类效果越显著。Comp1第一主成分解释度,Comp2第二主成分解释度。

上移 下移 进入分析 删除

PLSDA-置换检验柱形图

注:横坐标为置换检验随机模型的准确率,纵坐标为随机模型的个数,红色柱子代表置换检验得到的Q 值出现的个数,蓝色柱子代表置换检验得到的R2Y值出现的个数。 p值 = 置换检验的随机模型中优于原模型的个数 / 置换检验中所有的随机模型个数。 例如,Q2的p=0.01,说明在置换检验过程中,有1%个随机模型的预测能力优于原模型;R2Y的p=0.05,说明在置换检验过程中,有5%随机模型的解释能力优于原模型。一般认为p<0.05时,模型最优。

上移 下移 进入分析 删除

PLS-DA模型概览图

注:PLS-DA主成分数目选择。R2Y和Q2分别用来评价PLS-DA模型的建模能力和预测能力,R2Y和Q2Y的累计值越大,说明模型越稳定可靠。

上移 下移 进入分析 删除

PLS-DA置换检验图

注:PLS-DA模型验证。横坐标表示置换检验的置换保留度(与原模型Y变量顺序一致的比例,置换保留度为1的点即为原模型的R2和Q2值),纵坐标表示R2(红色圆点)和Q2(蓝色三角)置换检验的取值,两条虚线分别表示R2和Q2的回归线。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

PLS-DA模型参数图

A r2x r2x(cum) r2y r2y(cum) q2 q2(cum)
o1 0.295 0.486 0.0538 0.0538 0.141 0.141
o2 0.0881 0.575 0.0218 0.0755 0.0795 0.22
p1 0.33 0.33 0 0 0 0
p1 0.221 0.221 0.923 0.923 0.556 0.556
p1 0.191 0.191 0.923 0.923 0.556 0.556
p2 0.195 0.526 0 0 0 0
p2 0.272 0.492 0.0538 0.977 0.415 0.74
p3 0.142 0.668 0 0 0 0
p3 0.0822 0.575 0.0218 0.999 0.373 0.837
sum 0 0.575 0 0.999 0 0.776

注:R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,R2X(cum)和R2Y(cum)表示累积解释率;Q2表示模型的预测能力,这3个指标越接近于1时表示模型越稳定可靠,Q2 > 0.5表示模型的预测能力较好,Q2 < 0.5表示模型的预测能力较差。p1,p2分别表示第一,第二主成分。

上移 下移 进入分析 删除

OPLS-DA 模型概览图

注:OPLS-DA主成分数目选择。R2Y和Q2分别用来评价OPLS-DA模型的建模能力和预测能力,R2Y和Q2Y的累计值越大,说明模型越稳定可靠。

上移 下移 进入分析 删除

OPLS-DA 置换检验图

注:OPLS-DA模型验证。横坐标表示置换检验的置换保留度(与原模型Y变量顺序一致的比例,置换保留度为1的点即为原模型的R2和Q2值),纵坐标表示R2(红色圆点)和Q2(蓝色三角)置换检验的取值,两条虚线分别表示R2和Q2的回归线。

上移 下移 进入分析 删除

OPLS-DA得分图

注:OPLS-DA得分图。OPLS-DA得分图通过正交旋转,过滤掉与分组无关的信息,从而能更好的区分组间差异,提高模型的效能。Comp1第一预测主成分解释度,orthogonal Comp1 第一正交成分解释度。

上移 下移 进入分析 删除

OPLSDA-置换检验柱形图

注:横坐标为置换检验随机模型的准确率,纵坐标为随机模型的个数,红色柱子代表置换检验得到的Q 值出现的个数,蓝色柱子代表置换检验得到的R2Y值出现的个数。 p值 = 置换检验的随机模型中优于原模型的个数 / 置换检验中所有的随机模型个数。 例如,Q2的p=0.01,说明在置换检验过程中,有1%个随机模型的预测能力优于原模型;R2Y的p=0.05,说明在置换检验过程中,有5%随机模型的解释能力优于原模型。一般认为p<0.05时,模型最优。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

OPLS-DA模型参数图

A r2x r2x(cum) r2y r2y(cum) q2 q2(cum)
p1 0.191 0.191 0.923 0.923 0.556 0.556
p1 0.221 0.221 0.923 0.923 0.556 0.556
p3 0.142 0 0 0
p1 0.33 0 0 0
o1 0.295 0.486 0.0538 0.054 0.141 0.141
o2 0.0881 0.575 0.0218 0.076 0.0795 0.22
p2 0.195 0 0 0
p2 0.272 0.492 0.0538 0.977 0.415 0.74
p3 0.0822 0.575 0.0218 0.999 0.373 0.837
sum 0.575 0.999 0.776

注:R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,R2X(cum)和R2Y(cum)表示累积解释率;Q2标示模型的预测能力,这3个指标越接近于1时表示模型越稳定可靠,Q2 > 0.5表示模型的预测能力较好,Q2 < 0.5表示模型的预测能力较差。p1表示主成分;o1, o2分别表示第一,第二正交成分。

3.5.2 多组比较分析

      (1)单因素方差分析(One-way ANOVA),它适用于只研究一个试验因素的情况,目的在于正确判断该试验因素各处理的相对效果;用于检验多组样本的均值是否相同,比较物种、功能或基因在3组或3组以上样本组中的分布是否存在显著性差异,然后对有差异的物种、功能或基因进行post-hoc检验,找出多组中存在差异的样本组。
      (2)post-hoc检验是指在进行多组检验之后进行的进一步检验,对有差异的多组的组别再进行两两比较,检测多组中存在差异的样本组,其检验方法包括“Games-Howell”,“Scheffe”,“Tukey-Kramer”,“Welch's (uncorrected)”,两两比较的显著性水平分别为:0.90、0.95、0.98、0.99、0.999。

上移 下移 进入分析 删除
上移 下移 进入分析 删除
上移 下移 进入分析 删除
上移 下移 进入分析 删除
上移 下移 进入分析 删除

差异检验统计表

Metabolite Metab ID VIP_PLS-DA P_value FDR H_mean H_SD N_mean N_SD HHN_mean HHN_SD
(2S,3R,4R)-2,3,4,5-tetrahydroxypentanal metab_186 6.6820918295487 0.3143 0.3912 1559000000 515800000 1874000000 332400000 1636000000 631500000
D-Xylose metab_185 5.8569873899295 0.5273 0.5859 525500000 149600000 441100000 83730000 472700000 186800000
Valine metab_19 5.6405684409703 0.00226 0.01427 607100000 153100000 612300000 86450000 362000000 69760000
L-Alloisoleucine metab_31 5.2808229358088 0.001804 0.0132 495900000 129000000 497000000 66910000 281300000 57660000
Alanine metab_26 4.572826643909 0.05516 0.1029 952300000 152200000 826700000 89930000 757100000 177300000
Lactic Acid metab_72 3.4015813808833 0.4538 0.5197 42780000 15910000 44560000 21210000 122200000 101000000
DL-Glutamic acid metab_181 2.9880385231003 0.1142 0.1717 166900000 49460000 179800000 31550000 119500000 75180000
Glycerin metab_44 2.4375300738226 0.01818 0.04544 193900000 13560000 181400000 20700000 222800000 33490000
Uracil metab_63 2.4187394986667 0.1916 0.2532 147900000 35930000 145400000 31150000 180400000 45560000
D-Galactose metab_9 2.3738289204817 0.2352 0.3012 250500000 34660000 293100000 35850000 255700000 110600000

注:Metabolite: 鉴定到的代谢物名称,其中metab_[0,9]表示没有定性到的离子峰;Metab ID:云平台分析中,随机给每个离子峰的编号,用于创建代谢集等运算;graph:代谢物丰度在多组间的分布展示[柱状图,箱线图,差异柱形图;P_value为假阳性概率值,是统计学中常用的判定值,一般来说P_value < 0.05 时差异显著;FDR:矫正过后的P值。Mean为代谢物在不同分组中的平均相对丰度;Sd为标准差;

上移 下移 进入分析 删除
上移 下移 进入分析 删除
上移 下移 进入分析 删除
上移 下移 进入分析 删除
上移 下移 进入分析 删除

模型参数表

A r2x r2x(cum) r2y r2y(cum) q2 q2(cum)
p1 0.279 0.279 0.349 0.349 0.225 0.225
p2 0.318 0.597 0.178 0.527 0.195 0.377
p3 0.121 0.717 0.261 0.788 0.437 0.649
p4 0.099 0.816 0.0446 0.833 0.103 0.685
p5 0.0447 0.861 0.0631 0.896 0.183 0.743

注:R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,R2X(cum)和R2Y(cum)表示累积解释率;Q2表示模型的预测能力,这3个指标越接近于1时表示模型越稳定可靠,Q2 > 0.5表示模型的预测能力较好,Q2 < 0.5表示模型的预测能力较差。p1,p2分别表示第一,第二主成分。

3.6 代谢集分析

根据一定的筛选条件(比如功能、表达量以及表达差异情况等),获得的代谢集,并对其进行分析。

3.6.1 Venn图

维恩图(Venn),也叫温氏图、韦恩图、范氏图,用于显示元素集合重叠区域的图表。韦恩图是关系型图表,通过图形与图形之间的层叠关系,来表示可展示各个代谢集间的共有或特有的代谢物。

Tips通过该部分分析,可以迅速锁定不同对比组中共有和特有的代谢物,表明实验各阶段诱导了哪些代谢物发生变化,结合功能注释可以快速挖掘到与研究相关的功能注释结果。

上移 下移 进入分析 删除

Venn图

注:若2 ≤ 对比组 ≤ 5,图形会呈现venn图或Upset图,不同的颜色代表不同的分组(或样本),重叠部分的数字代表多个对比组中共有的代谢物数目,非重叠部分的数字代表对应对比组所特有的代谢物数目;若对比组 ≥ 6,图形会呈现花瓣Venn图,花瓣里是对应分组特有的代谢物数目,中心是所有分组共有的代谢物数目。柱状图表示各个代谢集里包含代谢物的数目。在云平台交互式页面中,点击Venn图中数字后,可对感兴趣的差异代谢物创建代谢集,用于后续分析。

3.6.2 代谢物聚类分析

表达模式相似的代谢物通常具有功能相关性。对选择的代谢集中的代谢物进行聚类分析,包括聚类热图和子聚类趋势图。

Tips这部分内容比较重要,对差异表达的代谢物进行聚类,可以直观的看出不同组别差异代谢物变化趋势,表明实验各阶段哪些代谢物发生了显著上下调的变化。

上移 下移 进入分析 删除

聚类圆圈热图

注:图中外圈上是代谢物名称,横截面上对应样本/分组的名称,图中的颜色表示代谢物在对应样本中相对含量的大小,具体含量大小变化趋势请见右上方颜色条上的数字标注。圆圈内圈上的树对应代谢物的聚类情况,两个代谢物的分支离得越近,说明它们的含量越接近。

上移 下移 进入分析 删除

聚类热图

注:图中每列表示一个样本,每行表示一个代谢物,图中的颜色表示代谢物在该组样本中相对表达量的大小,具体表达量大小变化趋势请见右下方颜色条下的数字标注。左侧为代谢物聚类的树状图,右侧为代谢物的名称,两个代谢物分支离得越近,说明它们的表达量越接近;上方为样本聚类的树状图,下方为样本的名称,两个样本分支离的越近,说明这两个样本所有代谢物的表达模式越接近,即代谢物表达量变化趋势越接近。

上移 下移 进入分析 删除

聚类热图数据表

Subcluster Num

注: 第一列为质谱搜库鉴定得到的数据矩阵中,根据不同离子模式,随机给每个离子峰的编号,第二列为代谢物名称,其它列为代谢物在各样本中的表达量(经过数据预处理和Scale变换)。

上移 下移 进入分析 删除

子聚类趋势图

注:为了研究代谢物在不同分组中的相对含量变化趋势,将具有相同变化趋势的代谢物聚类为一个个的簇。图中每一条线代表每一个代谢物,蓝色的线代表各代谢物在样本中平均值,横坐标为样本或分组名称,纵坐标为代谢物在各样本中的表达量(经过数据预处理和Scale变换),标题的Subcluster后的数字代表子聚类的序号,Count后的数字代表该子聚类中代谢物的个数。

上移 下移 进入分析 删除

子聚类分析表

Subcluster Num
Subcluster1 7
Subcluster2 5
Subcluster3 10
Subcluster4 8
Subcluster5 4
Subcluster6 8
Subcluster7 2
Subcluster8 3
Subcluster9 1
Subcluster10 2

注:Subcluster:Subcluster子聚类名称;Num:为该子聚类下代谢物的个数。

3.6.3 VIP值分析

通过聚类热图和VIP条形图,展示各差异组中代谢物在各样本中的表达模式和代谢物在多元统计分析的VIP和单维统计中的P值,从而直观的看出差异代谢物的重要性和表达量趋势变化。


上移 下移 进入分析 删除
上移 下移 进入分析 删除

vip 层级聚类

Metabolite Metab ID VIP_Oplsda P_value Regulate
beta-Glutamic acid metab_223 3.0022 0.02203
up
Methyl pentadecanoate metab_70 2.6629 0.03296
down
L-Proline metab_42 2.4868 0.007518
up
Ethaneperoxoic acid, 1-cyano-1-[2-(2-phenyl-1,3-dioxolan-2-yl)ethyl]pentyl ester metab_177 2.4499 0.04921
up
2-(tert-Butylthio)ethanamine metab_259 2.3194 0.002935
down
2-(Methylamino)propanenitrile metab_249 1.9633 0.02751
up
2-hydroxy-Pentanedioic acid metab_126 1.9418 0.05964
up
(R)-3-Hydroxybutyric acid metab_80 1.9398 0.04669
up
L-Isoleucine metab_221 1.9209 0.02299
up
L-Valine metab_83 1.909 0.008122
up

注: ID:质谱搜库鉴定得到的数据矩阵中,根据不同离子模式,随机给每个离子峰的编号;metabolite :代谢集中的代谢物; VIP_value表示该代谢物对两组差异的贡献值,VIP值来源取决于参数设置时选择的模型,默认VIP_OPLS-DA不小于1,值越大表示该代谢物在两组间差异越大;P_value表示该代谢物在两组样本间的差异显著性;其它列表示该代谢物在不同样本中的相对表达量(通过scale和log转化)。

3.6.4 代谢物相关性分析

代谢物相关性分析通过计算各个代谢物间的相关性和距离,筛选表达模式相似的代谢物,研究代谢物间的功能相关性和推测未知代谢物的功能。

上移 下移 进入分析 删除

相关性热图

注:图右侧和下方为代谢物名称,左侧和上方为代谢物聚类树状图,不同颜色代表相关系数的大小,相关系数正,负值表示正相关和负相关,绝对值越接近于1,表示代谢物正相关或负相关性越高。

上移 下移 进入分析 删除

三角热图

注:图左侧和下方为代谢物名称,不同颜色代表相关系数的大小,相关系数正,负值表示正相关和负相关,绝对值越接近于1,表示代谢物正相关或负相关性越高。

上移 下移 进入分析 删除

代谢集分析-代谢物相关性和弦图

注:图中最外圈是代谢物的HMDB/KEGG注释分类;第二圈是代谢物名称,第三圈是代谢物在各个分组的表达量,最内圈是代谢物与代谢物之间的相关性,红色线代表正相关,绿色线代表负相关。

上移 下移 进入分析 删除
上移 下移 进入分析 删除

相关性数据表

Metabolite Bis(2-dimethylaminoethyl) ether Tridecane 2-(Methylamino)propanenitrile cis-4-Hydroxy-L-proline dimethyl(dimethyl(2-methylphenoxy)silyloxy)tridecyloxy-Silane L-Proline DL-Pyroglutamic acid 2-hydroxy-Pentanedioic acid 2-aminopropanedioic acid Ethaneperoxoic acid, 1-cyano-1-[2-(2-phenyl-1,3-dioxolan-2-yl)ethyl]pentyl ester
Bis(2-dimethylaminoethyl) ether 1 0.5991 0.6894 0.7754 0.7273 0.8323 0.8065 0.5009 0.6882 0.5226
Tridecane 0.5991 1 0.696 0.7889 0.8369 0.818 0.8211 0.2817 0.4325 0.4277
2-(Methylamino)propanenitrile 0.6894 0.696 1 0.7362 0.7554 0.8509 0.7645 0.6005 0.435 0.4425
cis-4-Hydroxy-L-proline 0.7754 0.7889 0.7362 1 0.8456 0.8574 0.9464 0.5997 0.7404 0.6968
dimethyl(dimethyl(2-methylphenoxy)silyloxy)tridecyloxy-Silane 0.7273 0.8369 0.7554 0.8456 1 0.8153 0.8477 0.5557 0.6298 0.7034
L-Proline 0.8323 0.818 0.8509 0.8574 0.8153 1 0.884 0.5108 0.6255 0.5516
DL-Pyroglutamic acid 0.8065 0.8211 0.7645 0.9464 0.8477 0.884 1 0.6676 0.7664 0.7015
2-hydroxy-Pentanedioic acid 0.5009 0.2817 0.6005 0.5997 0.5557 0.5108 0.6676 1 0.7692 0.7383
2-aminopropanedioic acid 0.6882 0.4325 0.435 0.7404 0.6298 0.6255 0.7664 0.7692 1 0.7996
Ethaneperoxoic acid, 1-cyano-1-[2-(2-phenyl-1,3-dioxolan-2-yl)ethyl]pentyl ester 0.5226 0.4277 0.4425 0.6968 0.7034 0.5516 0.7015 0.7383 0.7996 1

注:代谢物间的相关性系数r,[-1,1],相关性系数大于零表示正相关,小于零表示负相关,相关性系数的绝对值|r|越大表示相关性越强。一般情况下,|r|≥0.7时,可认为两变量间强相关;0.4≤|r|<0.7,可认为两变量中度相关;0.2≤|r|<0.4,可认为两变量弱相关;|r|<0.2,可认为两变量极弱相关或不相关。P-value:统计学上用P-value评价代谢物间相关性的显著程度。P-value<0.05 ,表示显著相关,P-value <0.001,表示极显著相关。

3.6.5 KEGG化合物分类

         KEGG Compound是小分子、生物聚合物和其他与生物系统相关的化学物质的集合。KEGG Compound 分类是按照代谢物参与的生物学功能层级等级进行分类,主要分类有:生物过程(Compounds with biological roles),活性肽(Bioactive peptides),内分泌干扰物(Endocrine disrupting compounds),农药(Pesticides),植物次级代谢物(Phytochemical compounds),脂类(Lipids);将鉴定的代谢物比对到KEGG Compound数据库获得代谢物分类概况和并统计作图。详情参考 https://www.kegg.jp/kegg/compound/

Tips通过KEGG化合物分类可以将代谢物分为脂,肽等分类,而大多同类型的化合物具有相似的理化性质或生物学功能,便于进行数据挖掘及生物学意义的阐述。

上移 下移 进入分析 删除

KEGG化合物分类统计图

注:纵坐标为KEGG化合物二级分类类别,横坐标为注释到该分类的代谢物个数。依据代谢物的生物学作用,主要分为:Organic acids(有机酸), Lipids(脂质), Carbohydrates(碳水化合物), Nucleic acids(核酸),Peptides(肽), Vitamins and Cofactors(维生素和辅酶因子), Steroids(类固醇),Hormones and transmitters(激素和传递介质)和 Antibiotics(抗生素)。

上移 下移 进入分析 删除

KEGG化合物分类统计表

First Category Second Category Number
Peptides Amino acids 3
Nucleic acids Bases 2
Organic acids Carboxylic acids 1

注: First Category:代谢物的KEGG Brite一级分类;Second Category:代谢物的KEGG Brite二级分类;number:注释到此二级分类的相应代谢物集中代谢物数目。

3.6.6 KEGG功能通路

KEGG PATHWAY数据库是一个人工绘制的代谢通路的集合,主要描述分子间相互作用,生理生化反应和基因产物间关系等的信息。根据代谢物比对到KEGG compound ID 的信息,可以获知代谢物参与的代谢通路信息,从而评价其对生物新陈代谢过程的影响。

☆Tips:这部分内容对于研究功能分析是非常重要的模块,寻找关键代谢物(可以是差异代谢物、目标变化趋势代谢物、目标模块代谢物)并识别它们的功能,研究者通过对通路分析了解到通路被哪些差异表达的代谢物富集较多,标志着该通路比较重要。

上移 下移 进入分析 删除

边框式柱状图

注:横坐标为KEGG代谢通路的二级分类,纵坐标为注释到该通路下的化合物个数。KEGG代谢通路可分为7大类:代谢(Metabolism),遗传信息处理(Genetic Information Processing),环境信息处理(Environmental Information Processing),细胞过程(Cellular Processes),生物体系统(Organismal Systems),人类疾病(Human Diseases),药物开发(Drug Development)。不同分类颜色表示不同代谢途径类别。

上移 下移 进入分析 删除

KEGG统计图

注:纵坐标为KEGG代谢通路的二级分类,横坐标为注释到该通路下的代谢物个数。KEGG代谢通路可分为7大类:代谢(Metabolism),遗传信息处理(Genetic Information Processing),环境信息处理(Environmental Information Processing),细胞过程(Cellular Processes),生物体系统(Organismal Systems),人类疾病(Human Diseases),药物开发(Drug Development)。

上移 下移 进入分析 删除

KEGG注释统计表

First Category Second Category Number
Metabolism Energy metabolism 1
Metabolism Amino acid metabolism 5
Environmental Information Processing Signal transduction 1
Metabolism Metabolism of other amino acids 4
Cellular Processes Cell growth and death 1
Metabolism Nucleotide metabolism 2
Environmental Information Processing Membrane transport 1
Genetic Information Processing Folding, sorting and degradation 1
Genetic Information Processing Translation 3
Metabolism Carbohydrate metabolism 2

注: First Category:代谢通路的一级分类;Second Category:代谢通路的二级分类;number:注释到此二级分类的相应代谢物集中代谢物数目。

3.6.7 KEGG通路富集

KEGG通路富集分析是指对选择的代谢集进行富集分析,使用超几何分布算法获得该代谢集中的代谢物显著富集的通路。通常情况下,默认采用BH方法对P值进行校正,当经过校正的P值<0.05时,认为此通路存在显著富集情况。

Tips这部分内容对于研究功能分析是非常重要的模块,寻找关键代谢物(可以是差异代谢物、目标变化趋势代谢物、目标模块代谢物)并识别它们的功能,是我们进行代谢分析的最主要目的之一。这些关键的代谢物一般与功能改变密切相关,如动物受疾病感染后脂类代谢、氨基酸代谢、胆汁酸代谢过程会失调。在文章中在鉴定了差异表达代谢物后,会在随后承接几句关于这些失调代谢物所涉及通路的描述。讨论这些差异代谢物主要映射到那些KEGG通路中,以说明代谢物表达的改变会导致那些调控途径原有功能失调,进而与表型联系起来。

上移 下移 进入分析 删除

上移 下移 进入分析 删除

气泡图ER

注:横坐标为富集率,计算方法为num_in_study/num_in_pop;纵坐标为KEGG通路。图中气泡的大小代表该通路中富集到代谢集中compound的多少,气泡的颜色表示不同富集显著性p值的大小。

上移 下移 进入分析 删除

KEGG富集分析图气泡图

注:横坐标为富集显著性p值,p值越小,在统计学上就越有显著意义,一般p值小于0.05认为该功能为显著富集项;纵坐标为KEGG通路。图中气泡的大小代表该通路中富集到代谢集中代谢物数量的多少。

上移 下移 进入分析 删除

气泡图p

注:横坐标为富集显著性p值,p值越小,在统计学上就越有显著意义,一般p值小于0.05认为该功能为显著富集项;纵坐标为KEGG通路。图中气泡的大小代表该通路中富集到代谢集中compound 的多少。

上移 下移 进入分析 删除

KEGG富集分析柱状图

注:横坐标表示pathway name,纵坐标表示富集率,表示该pathway 中富集到的代谢物数目(Metabolite number)与注释到pathway的代谢物数目(Background number)的比值,比值越大,表示富集的程度越大。柱子颜色梯度表示富集的显著性,默认颜色越深,代表该KEGG term 越显著富集,其中 Pvalue或FDR < 0.001的标记为***,Pvalue或FDR < 0.01的标记为**,Pvalue或FDR < 0.05的标记为*。

上移 下移 进入分析 删除

柱形图ER

注:横坐标为富集率,计算方法为num_in_study/num_in_pop;纵坐标为KEGG通路。图中气泡的大小代表该通路中富集到代谢集中代谢物数量的多少。

上移 下移 进入分析 删除

KEGG通路差异丰度得分图

注:图中横坐标表示差异丰度得分(DA Score),纵坐标表示KEGG代谢通路名字。DA Score反映代谢通路所有代谢物的整体变化,得分1表示该通路中所有注释到的差异代谢物表达趋势上调,-1表示该通路中所有注释到的差异代谢物表达趋势下调,线段的长度表示DA Score的绝对值。圆点的大小表示该通路中注释到的差异代谢物数量,圆点越大表示该通路中差异代谢物数量越多。圆点分布在中轴右侧且线段越长,表示该通路整体表达情况越倾向于上调;圆点分布在中轴左侧且线段越长,表示该通路整体表达情况越倾向于下调。

上移 下移 进入分析 删除

KEGG富集统计表

Num First Category Second Category Pathway Description 通路描述 Pathway_ID Database Enrich Factor DA Score Ratio_in_study Ratio_in_pop
1 Metabolism Carbohydrate metabolism Galactose metabolism 半乳糖代谢 map00052 KEGG PATHWAY 0.043478260869565 -0.125 2/21 46/4518
1 Metabolism Carbohydrate metabolism Glyoxylate and dicarboxylate metabolism 乙醛酸和二羧酸代谢 map00630 KEGG PATHWAY 0.015625 -0.125 1/21 64/4518
1 Metabolism Carbohydrate metabolism Fructose and mannose metabolism 果糖和甘露糖代谢 map00051 KEGG PATHWAY 0.017857142857143 -0.1429 1/21 56/4518
1 Metabolism Amino acid metabolism Lysine degradation 赖氨酸降解 map00310 KEGG PATHWAY 0.017857142857143 -0.1429 1/21 56/4518
1 Metabolism Carbohydrate metabolism Pentose phosphate pathway 磷酸戊糖途径 map00030 KEGG PATHWAY 0.027027027027027 -0.2 1/21 37/4518
1 Metabolism Amino acid metabolism Tyrosine metabolism 酪氨酸代谢 map00350 KEGG PATHWAY 0.012820512820513 -0.2 1/21 78/4518
1 Metabolism Metabolism of other amino acids Taurine and hypotaurine metabolism 牛磺酸和亚牛磺酸代谢 map00430 KEGG PATHWAY 0.041666666666667 -0.2 1/21 24/4518
1 Metabolism Metabolism of cofactors and vitamins Thiamine metabolism 硫胺素代谢 map00730 KEGG PATHWAY 0.032258064516129 -0.2 1/21 31/4518
1 Organismal Systems Endocrine system Glucagon signaling pathway 胰高血糖素信号通路 map04922 KEGG PATHWAY 0.038461538461538 -0.2 1/21 26/4518
1 Organismal Systems Digestive system Carbohydrate digestion and absorption 碳水化合物的消化和吸收 map04973 KEGG PATHWAY 0.037037037037037 -0.2 1/21 27/4518

注: (1)Number:富集到该通路的代谢物数目;(2)First Category:代谢通路的一级分类;(3)Second Category:代谢通路的二级分类;(4)Pathway Description:KEGG pathway名称描述;(5)通路描述:每条KEGG通路的中文名称;(6)Pathway ID:KEGG pathway ID;(7)Database:数据库来源(Pathway或Disease),KEGG数据库中包含两个子库,一个是KEGG PATHWAY,另一个是KEGG DISEASE,KEGG数据库中某些disease通路没有ID号,用“none”表示;(8)DA Score:代谢通路的差异丰度得分;(9)Ratio_in_study:目标代谢物中注释到本通路的代谢物在目标代谢物(本代谢物集中代谢物能注释到KEGG通路的总代谢物数目)中占有的比例,斜线左边为本代谢集注释到本通路的KEGG Compound ID数目,斜线右边为本代谢物集注释到所有通路的KEGG compound ID数目;(10)Ratio_in_pop:背景代谢物中注释到本通路的代谢物在背景代谢物中占有的比例,斜线左边为背景代谢集注释到本通路KEGG compound ID 的数目,竖线右边为背景代谢集注释到所有通路的KEGG compound ID数目;(11)P_value_uncorrected:未经校正的p值,p值代表富集出来的结果是否具有统计学上的显著意义,p值越小,在统计学上就越有显著意义,一般p值小于0.05认为该功能为显著富集项;(12)P_vaule_corrected:校正后的p值。

上移 下移 进入分析 删除

KEGG拓扑学分析气泡图

注:图中每一个气泡表示一个KEGG Pathway通路;横轴表示通路中代谢物在通路中的相对重要性Impact Value的大小;纵轴表示代谢物参与通路的富集显著性-log10(Pvalue);气泡大小代表Impact Value值;气泡越大,表示通路重要性越大。

上移 下移 进入分析 删除

KEGG拓扑学分析气泡图

注:图中每一个气泡表示一个KEGG Pathway通路;横轴表示通路中代谢物在通路中的相对重要性Impact Value的大小;纵轴表示代谢物参与通路的富集显著性-log10(Pvalue);气泡大小代表Impact Value值;气泡越大,表示通路重要性越大。

上移 下移 进入分析 删除

KEGG拓扑统计表

Num First Category Second Category Pathway_ID Match_status Pathway Description 通路描述 Impact_value P_value P_adjust
3 Metabolism Amino acid metabolism map00250 3|28 Alanine, aspartate and glutamate metabolism 丙氨酸、天冬氨酸和谷氨酸代谢 0.369565217391 0.000230404249449 0.00112322071606
1 Metabolism Carbohydrate metabolism map00620 1|28 Pyruvate metabolism 丙酮酸代谢 0.254494093477 0.111692714574 0.174240634735
1 Metabolism Carbohydrate metabolism map00052 2|46 Galactose metabolism 半乳糖代谢 0.239098767159 0.0165250249612 0.0358042207493
1 Metabolism Amino acid metabolism map00380 1|56 Tryptophan metabolism 色氨酸代谢 0.148143181234 0.197975520821 0.205894541654
3 Metabolism Amino acid metabolism map00290 3|23 Valine, leucine and isoleucine biosynthesis 缬氨酸、亮氨酸和异亮氨酸生物合成 0.133529411765 0.000126987751958 0.000990504465272
4 Metabolism Metabolism of cofactors and vitamins map00760 4|51 Nicotinate and nicotinamide metabolism 烟酸和烟酰胺代谢 0.129178272981 6.26192779095E-5 0.000814050612823
3 Metabolism Amino acid metabolism map00270 3|60 Cysteine and methionine metabolism 半胱氨酸和蛋氨酸代谢 0.114177489177 0.00212555917083 0.0069080673052
4 Metabolism Metabolism of other amino acids map00470 4|58 D-Amino acid metabolism D-氨基酸代谢 0.108108108108 0.000103612809945 0.00101022489696
4 Metabolism Amino acid metabolism map00330 4|67 Arginine and proline metabolism 精氨酸和脯氨酸代谢 0.107139404563 0.000181085961515 0.00117705874985
1 Metabolism Carbohydrate metabolism map00010 1|31 Glycolysis / Gluconeogenesis 糖酵解/糖原异生 0.0968759618344 0.122074428576 0.176329730165

注:(1)Num:富集到该通路的代谢物数目;(2)First Category:代谢通路一级分类;(3)Second Category:代谢通路二级分类;(4)Pathway ID:KEGG pathway ID;(5)Match_status:表示代谢物参与通路的情况,竖线左的数据表示当前代谢集中参与本通路的个数;竖线右的数为当前通路中代谢物的总数;(6)Pathway Description:通路名称;(7)通路描述:通路中文名称;(8)Impact_value:通路综合重要性得分,总分为1;根据代谢物在通路中的相对位置计算得到;(9)P_value:代谢物参与通路的富集显著性;(10)P_adjust:矫正后的P值。

上移 下移 进入分析 删除

代谢集分析-KEGG通路富集分析网络图

注:图中展示绿色的正方形节点表示代谢物;橙色的的圆形节点表示KEGG pathway,大小代表通路中代谢物的数目,代谢物越多,圆形节点越大。

上移 下移 进入分析 删除

代谢集分析-KEGG通路富集分析多维度富集圈图

注:从外到内共四圈: (1)第一圈:富集的分类,圈外为compound数目的坐标尺。不同的颜色代表不同的通路分类,文字表示具体的通路,如:map00780。 (2)第二圈:背景代谢中该通路注释的compound数目以及P值。代谢物越多条形越长,值越小颜色越红; (3)第三圈:选择代谢集在该通路中注释的代谢物比例条形图;若为差异代谢集,红色代表上调代谢物比例,绿色代表下调代谢物比例;若为非差异代谢物运行,则红色代表为总代谢物比例;下方显示具体的数值; (4)第四圈:各分类的RichFactor值(该分类中差异代谢物数目除以背景代谢物数目),相同分类的通路放在一起,顺时针,从左到右按照富集值排序。

上移 下移 进入分析 删除

代谢集分析-KEGG通路富集分析网络结果表

Pathway_ID Pathway Desciption Num P_value
map00052 Galactose metabolism 1 0.01883
map00630 Glyoxylate and dicarboxylate metabolism 1 0.2594
map00051 Fructose and mannose metabolism 1 0.2309
map00310 Lysine degradation 1 0.2309
map00030 Pentose phosphate pathway 1 0.1589
map00350 Tyrosine metabolism 1 0.3069
map00430 Taurine and hypotaurine metabolism 1 0.106
map00730 Thiamine metabolism 1 0.1349
map04922 Glucagon signaling pathway 1 0.1144
map04973 Carbohydrate digestion and absorption 1 0.1185

注:(1)Pathway_ID:通路的ID号;(2)Pathway Description:通路名称;(3)Num:富集到这个通路的代谢物个数;(4)P_value:代谢物参与通路的富集显著性。

3.6.8 多代谢集富集可视化

上移 下移 进入分析 删除
上移 下移 进入分析 删除

多代谢集富集可视化

多代谢集富集可视化

3.6.9 HMDB化合物分类

人类代谢数据库(HMDB,https://hmdb.ca)是最大、最全面的生物体特异性代谢数据库。包含有关人类代谢物及其生物学作用、生理浓度、疾病相关性、化学反应、代谢途径和参考光谱的综合信息。目前,该数据库包含220945个代谢物条目,包括水溶性和脂溶性代谢物。此外,还包含了8610个和这些代谢条目有关的蛋白质序列(酶和转运蛋白)。 

每个代谢物条目里包含物质的分子量、结构、分子式、分类、生物学作用、生理浓度、组织位置、疾病和遗传关联、化学和酶促反应、代谢途径和参考图谱等信息。还有超链接能够连接到其它数据库,包括KEGG、PubChem、MetaCyc和ChEBI等。

TipsHMDB被认为是人类代谢研究的标准代谢组学资源,是代谢组学物质鉴定的主要公共数据库之一,也是代谢物信息查询最重要的数据库之一。

上移 下移 进入分析 删除

HMDB化合物分类环形图

注:根据代谢物的数量,从高到低顺序展示所选HMDB层级(Superclass、Class或Subclass)的名称和代谢物所占的百分比。图中每个区域的不同颜色代表了不同的HMDB分类,其面积表示该分类中代谢物所占的相对比例。

上移 下移 进入分析 删除

HMDB化合物分类饼图

注:根据代谢物的数量,从高到低顺序展示所选HMDB层级(Superclass、Class或Subclass)的名称和代谢物所占的百分比。图中每个区域的不同颜色代表了不同的HMDB分类,其面积表示该分类中代谢物所占的相对比例。

上移 下移 进入分析 删除

HMDB化合物分类统计表

Superclass Number
Organic acids and derivatives 10
Amino acids, peptides, and analogues 8
Carboxylic acids and derivatives 8
Organoheterocyclic compounds 3
Amines 2
Purines and purine derivatives 2
Organonitrogen compounds 2
Imidazopyrimidines 2
Hydroxy acids and derivatives 2
Organic nitrogen compounds 2

注:展示注释到的所选HMDB层级(Superclass、Class或Subclass)的名称和代谢物数量。

上移 下移 进入分析 删除

化合物分类分布统计图-堆叠柱形图

注:横坐标为各个分组,纵坐标为各分类在分组中注释的代谢物数量/代谢物表达量,不同颜色的柱子代表不同的分类,柱子的长短代表该分类下代谢物数量/代谢物表达量总和的多少。

上移 下移 进入分析 删除

化合物分类分布统计图-分组柱形图

注:横坐标为各个分类,纵坐标为代谢物数量/代谢物表达量,不同颜色的柱子代表代表不同的分组,柱子高度代表代谢物数量/代谢物表达量总和的多少。

上移 下移 进入分析 删除

化合物分类分布统计表

Superclass

注:第一列为HMDB分类,根据选择分类类型展示Superclass、Class或Subclass,第二列之后为各个分组在不同分类下代谢物数量/表达量总和的多少,可以勾选数字查看代谢物或创建代谢集。

3.7 个性化分析

3.7.1 GSEA富集分析

上移 下移 进入分析 删除
上移 下移 进入分析 删除

GSEA富集分析-GSEA统计表

ID Pathway Desciption P_value P_adjust Number ES NES
map01100 Metabolic pathways 0.24307304785894 0.48614609571788 10 0.6782331957885 1.2030659498087
map04974 Protein digestion and absorption 0.53548387096774 0.53548387096774 2 0.46416185138689 0.9504829245482

注:(1) KEGG_ID:KEGG MAP编号;(2) Pathway Desciption:KEGG MAP功能的描述;(3) P_value:针对获得的富集得分进行统计学检验,是对富集分数ES的统计学分析,用来表示富集结果的可信度;(4) AP_adjust:错误发现率(FDR),归一化的富集得分代表假阳性结果的估计概率;(5) Number:代表该代谢集中包含在表达矩阵中且对富集得分贡献最大的代谢物数目;(6) ES:EnrichmentScore,代谢集的富集分数,该代谢集在表达数据中的代谢物排名列表的顶部或底部被过度代表的程度,反映代谢集成员在排序列表的两端富集的程度; (7) NES:标准化富集得分,归一化的ES值。通过标准化富集分数,GSEA解决了代谢集大小以及代谢集与表达矩阵之间相关性的差异问题,可以使用NES来比较各个代谢集的分析结果;【说明:NES绝对值越大,Padjust 越小,富集越显著,常见参数有Pvalue<0.05,Padjust<0.25,同时,也可加入|NES|>1作为额外的显著性判断标准。GSEA官方没有固定判断标准,因此建议使用者根据自身情况或文献情况,对显著性阈值做出判断。】点击通路ID可切换展示下面的GESA富集图。