首页 > 解决方案 > 为分类算法准备数据

问题描述

我必须准备和分类由 100 000 + 行和 105 个变量组成的数据集,我正在寻找建议。(我正在使用 R)

基本上,该集合充满了虚拟变量和缺失值(占整个数据集的 44%)。

和 Idk 如何处理 NA,我分为两个想法: I] 1- 消除缺失值超过 70% 的每一列 2- 用剩余列中的平均值或中位数替换缺失值

II] 消除所有缺失值

你怎么看 ?

我还能做些什么来准备数据吗?(处理 NA 除外)

标签: ralgorithmmachine-learningclassificationcross-validation

解决方案


缺失值的插补这个话题在社会科学中有着悠久的历史,至少可以追溯到 1980 年代我还是一名研究生时,不得不向密歇根州立大学的政治学教授解释她为什么不能。 t 复制了她之前进行的因子分析,因为 SPSS从因子分析过程中消除了缺失值的均值替代选项。

关于如何在统计分析中处理缺失数据有各种各样的研究(和意见)。例如,在使用回归和多级/分层模型进行数据分析的第 25 章中,Gelman 和 Hill 描述了估算一个变量和多个变量的多种方法。

为了为特定数据集选择一种插补策略,必须评估缺失数据缺失的原因。Gelman & Hill 回顾了四大类“缺失机制”,包括:

  1. 完全随机缺失(所有单元/科目的缺失概率相等)
  2. 随机缺失(例如,不同种族的反应率不同)
  3. 取决于未观察到的预测变量的缺失
  4. 缺失值取决于缺失值本身(例如,收入超过 100,000 美元的人拒绝回答收入问题)

因此,如果不根据缺失机制分析原始发帖人的具体数据集,则对使用哪种插补技术的具体指导是不合适的。可以在处理缺失值的策略中找到有关缺失数据插补的其他研究。


推荐阅读