VIP专享

缺失值处理

人工帮助

教学视频查看示例



分享至：

在数据分析过程中，有些软件不支持输入文件中含有缺失值，缺失值处理工具为您提供经典准确的方法填充缺失值。

文章引用说明：如果您使用美吉生物云工具完成了数据分析，我们期望您在文章发表时，在方法学部分或致谢部分引用或提及美吉生物云工具以及我们发表的文章。

可参考示例：The data were analyzed on the online tool of Majorbio Cloud Platform (https://cloud.majorbio.com/page/tools/)

可参考文献：Han, Jichen. et al. 2024. Majorbio Cloud 2024: Update single-cell and multiomics workflows. iMeta, e217, doi:10.1002/imt2.217

参数设置

文件助手

*任务名

* 数据表

选择文件示例文件清除

* 输入文件分隔符

* 缺失值形式

* 指定移除缺失值

* 移除缺失值大于(%)

范围:0-100

* 剩余缺失值填充

新手指引

如需帮助，请咨询美吉生物云工具维护工作人员立即咨询

 帮助文档
 FAQ

工具概述

填充数据表中缺失数值的分析工具。

操作方法

1.设置任务名，便于您查询后续的文件结果。

2.选择输入数据表，数据表必须包含行头和列头，文件样式请参考示例文件。数据表应为txt格式的纯文本文件。数据表中的首行和首列不参与缺失数值填充的计算。

3.输入数据表文件的分隔符支持下述4种类型之一：Tab制表符，英文逗号，英文分号和空格。

4.数据表中缺失值形式可为下述5种之一：NA，NaN，Null，0，空值。

5.您的研究如需要将缺失比例大的特征移除，可选择指定移除缺失值为是，设置移除阈值。

6.选择缺失值填充方式支持：全局最小值，全局最小值除以2，全局最小值除以10，所在列的最小值，所在列的均值，所在列的中位数，missForest、kNN、PPCA、BPCA、NIPALS PCA算法填充最小值。missForest，采用机器学习的算法（随机森林）对数据进行填充,可以对连续和离散型数据类型进行缺失值填充。kNN方法（k Nearest Neighbors Imputation ,K近邻法），对于含有缺失值的基因，本方法寻找欧氏距离下最邻近的k个基因，通过紧邻的完整数据取均值来填补缺失值。PPCA(PPCA,概率PCA)，结果通常准确的，适合于大的数据集。Bayesian PCA(BPCA,贝叶斯PCA)，能够准确估计缺失值，但是因不断迭代，计算速度非常慢，不适用于大数据集。NIPALS PCA（Non-linear estimation by iterative partial least squares，依赖于迭代的偏最小二乘法的非线性估计）。仅能处理少量缺失值的数据（通常建议缺失率低于5%）。

7.运行后，可在工具总览中下载补充缺失值后的文件。

结果解读

输出数据表为用户采用所选方法或算法，填充缺失值后的数据表。

参考文献

[1] Wei R , Wang J , Su M , et al. Missing Value Imputation Approach for Mass Spectrometry-based Metabolomics Data[J]. Scientific Reports, 2018,8(1):663.

[2] Daniel, J, Stekhoven,et al. MissForest--non-parametric missing value imputation for mixed-type data.[J]. Bioinformatics, 2012.

Q1：文件如何上传和删除？

①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中，上传成功后可以直接选择目的文件进行分析。

图片1.png