MissForest——混合类型数据的非参数缺失值归责
- PMID:22039212
- DOI:10.1093 /生物信息学/ btr597
MissForest——混合类型数据的非参数缺失值归责
摘要
动机:基于高通量技术的现代数据采集常常面临数据缺失的问题。通常用于分析这种大规模数据的算法往往依赖于一个完整的集合。缺失价值归责为这一问题提供了解决方案。然而,大多数可用的imputation方法仅限于一种类型的变量:连续或范畴。对于混合类型的数据,不同的类型通常是分开处理的。因此,这些方法忽略了变量类型之间可能存在的关系。我们提出了一种可以同时处理不同类型变量的非参数方法。
结果:我们比较了几种先进的缺失值归责方法。我们提出并评估了一种基于随机森林的迭代imputation方法(missForest)。通过对许多未修剪的分类树或回归树进行平均,随机森林本质上构成了一个多重imputation格式。使用随机森林的内置外包误差估计,我们能够估计imputation误差,而不需要测试集。对来自不同生物领域的多个数据集进行评估,人为引入的缺失值从10%到30%不等。我们证明了missForest可以成功地处理缺失值,特别是在包含不同类型变量的数据集中。在我们的比较研究中,missForest优于其他的imputation方法,特别是在数据设置中,复杂的相互作用和非线性关系被怀疑。missForest的袋外imputation误差估计证明在所有设置都是充分的。此外,missForest显示出诱人的计算效率,可以处理高维数据。
可用性:软件包missForest可以从http://stat.ethz.ch/CRAN/免费获得。
联系人:stekhoven@stat.math.ethz.ch;buhlmann@stat.math.ethz.ch
类似的文章
-
采用二元粒子群优化算法进行特征选择的missForest算法提高了连续数据的imputation精度。基因基因组学。2022年6月;44(6):651-658。doi: 10.1007 / s13258 - 022 - 01247 - 8。Epub 2022年4月6日。 基因组的基因。2022。 PMID:35384632
-
生成对抗网络在大数据临床研究中缺失数据的输入。2021年4月20日;21(1):78。doi: 10.1186 / s12874 - 021 - 01272 - 3。 医学研究方法,2021年。 PMID:33879090 免费的PMC的文章。
-
在存在非正态性、非线性和相互作用的情况下,基于随机森林的缺失数据归责的准确性。BMC Med Res Methodol. 2020 7月25日;20(1):199。doi: 10.1186 / s12874 - 020 - 01080 - 1。 BMC医学研究方法,2020。 PMID:32711455 免费的PMC的文章。
-
高维表现性数据缺失值的归责:可归责还是不可归责,如何归责?BMC生物信息学。2014 11月5日;15(1):346。doi: 10.1186 / s12859 - 014 - 0346 - 6。 BMC生物信息学》2014。 PMID:25371041 免费的PMC的文章。
-
大规模研究中缺失值的处理:微阵列数据归责及其他。生物信息。2010 3月11日(2):253-64。doi: 10.1093 /龙头/ bbp059。Epub 2009年12月4日。 短暂的Bioinform。2010。 PMID:19965979 审查。
引用的
-
益生菌的菌株特异性影响是极早产儿肠道微生物群发育的重要驱动因素。《微生物学报》2022年10月7日(10):1525-1535。doi: 10.1038 / s41564 - 022 - 01213 - w。Epub 2022 9月26日。 Nat Microbiol》2022。 PMID:36163498 免费的PMC的文章。
-
多归责框架下的聚类和深度学习缺失值估计。Knowl Based Syst. 2022 8月5日;249:108968。doi: 10.1016 / j.knosys.2022.108968。Epub 2022 5月10日。 基于知识的系统。2022。 PMID:36159738 免费的PMC的文章。
-
诺图预测腹膜透析相关腹膜炎患者的心血管事件。Ren Fail. 2022年12月;44(1):1558-1567。doi: 10.1080 / 0886022 x.2022.2126785。 2022年任失败。。 PMID:36154556 免费的PMC的文章。
-
使用握力测量作为评估痴呆症患者咀嚼功能的替代方法。BMC Geriatr. 2022 9月24日;22(1):769。doi: 10.1186 / s12877 - 022 - 03452 - 2。 BMC Geriatr》2022。 PMID:36153477 免费的PMC的文章。
-
在南非队列研究中,IL27基因表达将儿童多系统炎症综合征与发热性疾病区分开来。Front Immunol. 2022年9月6日;13:992022。doi: 10.3389 / fimmu.2022.992022。eCollection 2022。 前面Immunol》2022。 PMID:36148243 免费的PMC的文章。
网格计算
LinkOut -更多资源
全文来源
其他文献来源