
- 帮助文档
- FAQ
工具概述
随机森林分析,是一个包含多棵决策树的分类器,它的分类结果根据检测样本的各个维度上的属性,在不同的决策树上进行判定,综合考虑所有判定结果后给出最终分类,可以高效快速挑选出对样本分类最为重要的物种类别(biomarker)。
操作方法
1. 输入需要进行分析的数据表,文件应为txt格式,数据表必须包含行头和列头,首行为样本名,首列为物种等特征名称。数据与数据之间务必用制表符隔开(tab符),不能用空格。
以微生物多样性OTU表为例:
注:物种数或指标数目需≥5个!
2. 输入分组文件,要求每组样本数≥10,分组数≥2。
3. 选择数据标准化方法,包括None、Relative、Min-Max、log10和Z-score。默认为None,即不进行标准化。
(1)Relative:按相对丰度计算
(2)Min-Max:计算方法为x*=(x-min)/(max-min)
(3)log10:计算方法为x*=log10(x)/log10(max)
(4)Z-score:计算方法为x*=(x-`x)/s,`x为数据的平均值,s为数据的标准差。
4. 选择验证方法,包括None、AUC验证和十折交叉验证。默认为None,即不进行验证。若进行验证,当分组数=2时,可选择AUC验证或十折交叉验证;当分组数>2时,仅可选择十折交叉验证。
5. 决策树数量默认为500。
结果解读
物种重要性排序图
注:物种重要性排序图,Y轴为重要性衡量标准(比如物种),X轴等于物种的重要性测量值/标准差值;Y轴对应按重要性排序后的物种名称。
物种重要性结果表
注:第一列代表物种,第二列代表物种对应的重要性数值,其中数值越大,说明此物种越重要。
Random Forest验证结果图
注:当使用AUC验证法(适用于分组=2的情况)时,X轴代表重要性排名TOPn的物种(变量)个数,Y轴表示在使用对应物种(变量)个数时,构建随机森林的AUC值;实心点表示选取的AUC值最高的点;当使用十折交叉验证法时(适用于分组≥2时),X轴代表重要性排名TOPn的物种(变量)个数,Y轴代表在使用对应物种(变量)个数时,使用十折交叉验证的平均预测错误率;实心点表示选取的错误率最低的点。
参考文献
[1] Jašarević E, Howard C D, Misic A M, et al. Stress during pregnancy alters temporal and spatial dynamics of the maternal and offspring microbiome in a sex-specific manner[J]. Scientific reports, 2017, 7: 44182.
Q1:文件如何上传和删除?
①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中,上传成功后可以直接选择目的文件进行分析。
②可以在项目中心——工具数据——我的云工具文档 文件夹中查看、上传和删除云工具文件。
Q2:运行成功的任务在哪里查看结果?
投递运行的任务可以在项目中心——我的工具任务 中查看运行状态和结果,点击“结果”可查看页面运行结果,点击“文件”可查看结果文件夹,如果运行失败可以点击“排查”查看报错原因。部分工具没有结果按钮只有文件按钮。
Q3:云工具任务如何删除?
运行失败或不需要的任务可以在项目中心——我的工具任务中勾选后删除,删除的文件会在回收站保存30天,期间可随时复原。