活动专享

随机森林分析

人工帮助

教学视频查看示例



分享至：

随机森林分析（Random Forest）通过机器学习等方法构建分析模型，对数据信息进行分类预测，评估模型分类的适用性和准确性，并根据模型给出数据信息各部分重要性等相关的信息。

文章引用说明：如果您使用美吉生物云工具完成了数据分析，我们期望您在文章发表时，在方法学部分或致谢部分引用或提及美吉生物云工具以及我们发表的文章。

可参考示例：The data were analyzed on the online tool of Majorbio Cloud Platform (https://cloud.majorbio.com/page/tools/)

可参考文献：Han, Jichen. et al. 2024. Majorbio Cloud 2024: Update single-cell and multiomics workflows. iMeta, e217, doi:10.1002/imt2.217

参数设置

文件助手

*任务名

* 数据表

选择文件示例文件清除

* 数据参数

* 分组文件

选择文件示例文件清除

* 数据标准化

* 验证方法

新手指引

如需帮助，请咨询美吉生物云工具维护工作人员立即咨询

 帮助文档
 FAQ

工具概述

随机森林分析，是一个包含多棵决策树的分类器，它的分类结果根据检测样本的各个维度上的属性，在不同的决策树上进行判定，综合考虑所有判定结果后给出最终分类，可以高效快速挑选出对样本分类最为重要的物种类别（biomarker）。

操作方法

1. 输入需要进行分析的数据表，文件应为txt格式，数据表必须包含行头和列头，首行为样本名，首列为物种等特征名称。数据与数据之间务必用制表符隔开（tab符），不能用空格。

以微生物多样性OTU表为例：

图片1.png

注：物种数或指标数目需≥5个！

2. 输入分组文件，要求每组样本数≥10，分组数≥2。

图片2.png

3. 选择数据标准化方法，包括None、Relative、Min-Max、log10和Z-score。默认为None，即不进行标准化。

（1）Relative：按相对丰度计算

（2）Min-Max：计算方法为x*=(x-min)/(max-min)

（3）log10：计算方法为x*=log10(x)/log10(max)

（4）Z-score：计算方法为x*=(x-`x)/s，`x为数据的平均值，s为数据的标准差。

4. 选择验证方法，包括None、AUC验证和十折交叉验证。默认为None，即不进行验证。若进行验证，当分组数=2时，可选择AUC验证或十折交叉验证；当分组数>2时，仅可选择十折交叉验证。

5. 决策树数量默认为500。

结果解读

物种重要性排序图

图片3.png

注：物种重要性排序图，Y轴为重要性衡量标准（比如物种），X轴等于物种的重要性测量值/标准差值；Y轴对应按重要性排序后的物种名称。

物种重要性结果表

图片4.png

注：第一列代表物种，第二列代表物种对应的重要性数值，其中数值越大，说明此物种越重要。

Random Forest验证结果图

图片5.png

图片6.png

注：当使用AUC验证法（适用于分组=2的情况）时，X轴代表重要性排名TOPn的物种（变量）个数，Y轴表示在使用对应物种（变量）个数时，构建随机森林的AUC值；实心点表示选取的AUC值最高的点；当使用十折交叉验证法时（适用于分组≥2时），X轴代表重要性排名TOPn的物种（变量）个数，Y轴代表在使用对应物种（变量）个数时，使用十折交叉验证的平均预测错误率；实心点表示选取的错误率最低的点。

参考文献

[1] Jašarević E, Howard C D, Misic A M, et al. Stress during pregnancy alters temporal and spatial dynamics of the maternal and offspring microbiome in a sex-specific manner[J]. Scientific reports, 2017, 7: 44182.

Q1：文件如何上传和删除？

①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中，上传成功后可以直接选择目的文件进行分析。

图片1.png