VIP专享

缺失值处理

在数据分析过程中,有些软件不支持输入文件中含有缺失值,缺失值处理工具为您提供经典准确的方法填充缺失值。
文章引用说明:如果您使用美吉生物云工具完成了数据分析,我们期望您在文章发表时,在方法学部分或致谢部分引用或提及美吉生物云工具以及我们发表的文章。
可参考示例:The data were analyzed on the online tool of Majorbio Cloud Platform (https://cloud.majorbio.com/page/tools/)
可参考文献:Han, Jichen. et al. 2024. Majorbio Cloud 2024: Update single-cell and multiomics workflows. iMeta, e217, doi:10.1002/imt2.217
  • 帮助文档
  • FAQ

工具概述

填充数据表中缺失数值的分析工具。

操作方法

1.设置任务名,便于您查询后续的文件结果。

2.选择输入数据表,数据表必须包含行头和列头,文件样式请参考示例文件。数据表应为txt格式的纯文本文件。数据表中的首行和首列不参与缺失数值填充的计算。

3.输入数据表文件的分隔符支持下述4种类型之一:Tab制表符,英文逗号,英文分号和空格。

4.数据表中缺失值形式可为下述5种之一:NA,NaN,Null,0,空值。

5.您的研究如需要将缺失比例大的特征移除,可选择指定移除缺失值为是,设置移除阈值。

6.选择缺失值填充方式支持:全局最小值,全局最小值除以2,全局最小值除以10,所在列的最小值,所在列的均值,所在列的中位数,missForest、kNN、PPCA、BPCA、NIPALS PCA算法填充最小值。missForest,采用机器学习的算法(随机森林)对数据进行填充,可以对连续和离散型数据类型进行缺失值填充。kNN方法(k Nearest Neighbors Imputation ,K近邻法),对于含有缺失值的基因,本方法寻找欧氏距离下最邻近的k个基因,通过紧邻的完整数据取均值来填补缺失值。PPCA(PPCA,概率PCA),结果通常准确的,适合于大的数据集。Bayesian PCA(BPCA,贝叶斯PCA),能够准确估计缺失值,但是因不断迭代,计算速度非常慢,不适用于大数据集。NIPALS PCA(Non-linear estimation by iterative partial least squares,依赖于迭代的偏最小二乘法的非线性估计)。仅能处理少量缺失值的数据(通常建议缺失率低于5%)。

7.运行后,可在工具总览中下载补充缺失值后的文件。

结果解读

输出数据表为用户采用所选方法或算法,填充缺失值后的数据表。

参考文献

[1] Wei R , Wang J , Su M , et al. Missing Value Imputation Approach for Mass Spectrometry-based Metabolomics Data[J]. Scientific Reports, 2018,8(1):663.

[2] Daniel, J, Stekhoven,et al. MissForest--non-parametric missing value imputation for mixed-type data.[J]. Bioinformatics, 2012.




Q1:文件如何上传和删除?

①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中,上传成功后可以直接选择目的文件进行分析。

图片1.png

②可以在项目中心——工具数据——我的云工具文档 文件夹中查看、上传和删除云工具文件。

图片2.png

图片3.png

Q2:运行成功的任务在哪里查看结果?

投递运行的任务可以在项目中心——我的工具任务 中查看运行状态和结果,点击“结果”可查看页面运行结果,点击“文件”可查看结果文件夹,如果运行失败可以点击“排查”查看报错原因。部分工具没有结果按钮只有文件按钮。

图片4.pngQ3:云工具任务如何删除?

运行失败或不需要的任务可以在项目中心——我的工具任务中勾选后删除,删除的文件会在回收站保存30天,期间可随时复原。

图片5.png

在线咨询