跳转到主页内容
访问键 NCBI主页 MyNCBI主页 主要内容 主导航
2012年1月1;28(1):112 - 8。
doi: 10.1093 /生物信息学/ btr597。 Epub 2011年10月28日。

MissForest——混合类型数据的非参数缺失值归责

从属关系

MissForest——混合类型数据的非参数缺失值归责

丹尼尔·J Stekhovenet al。 生物信息学

摘要

动机:基于高通量技术的现代数据采集常常面临数据缺失的问题。通常用于分析这种大规模数据的算法往往依赖于一个完整的集合。缺失价值归责为这一问题提供了解决方案。然而,大多数可用的imputation方法仅限于一种类型的变量:连续或范畴。对于混合类型的数据,不同的类型通常是分开处理的。因此,这些方法忽略了变量类型之间可能存在的关系。我们提出了一种可以同时处理不同类型变量的非参数方法。

结果:我们比较了几种先进的缺失值归责方法。我们提出并评估了一种基于随机森林的迭代imputation方法(missForest)。通过对许多未修剪的分类树或回归树进行平均,随机森林本质上构成了一个多重imputation格式。使用随机森林的内置外包误差估计,我们能够估计imputation误差,而不需要测试集。对来自不同生物领域的多个数据集进行评估,人为引入的缺失值从10%到30%不等。我们证明了missForest可以成功地处理缺失值,特别是在包含不同类型变量的数据集中。在我们的比较研究中,missForest优于其他的imputation方法,特别是在数据设置中,复杂的相互作用和非线性关系被怀疑。missForest的袋外imputation误差估计证明在所有设置都是充分的。此外,missForest显示出诱人的计算效率,可以处理高维数据。

可用性:软件包missForest可以从http://stat.ethz.ch/CRAN/免费获得。

联系人:stekhoven@stat.math.ethz.ch;buhlmann@stat.math.ethz.ch

类似的文章

引用的

发布类型

网格计算

LinkOut -更多资源