r - 为分类算法准备数据
问题描述
我必须准备和分类由 100 000 + 行和 105 个变量组成的数据集,我正在寻找建议。(我正在使用 R)
基本上,该集合充满了虚拟变量和缺失值(占整个数据集的 44%)。
和 Idk 如何处理 NA,我分为两个想法: I] 1- 消除缺失值超过 70% 的每一列 2- 用剩余列中的平均值或中位数替换缺失值
II] 消除所有缺失值
你怎么看 ?
我还能做些什么来准备数据吗?(处理 NA 除外)
解决方案
缺失值的插补这个话题在社会科学中有着悠久的历史,至少可以追溯到 1980 年代我还是一名研究生时,不得不向密歇根州立大学的政治学教授解释她为什么不能。 t 复制了她之前进行的因子分析,因为 SPSS从因子分析过程中消除了缺失值的均值替代选项。
关于如何在统计分析中处理缺失数据有各种各样的研究(和意见)。例如,在使用回归和多级/分层模型进行数据分析的第 25 章中,Gelman 和 Hill 描述了估算一个变量和多个变量的多种方法。
为了为特定数据集选择一种插补策略,必须评估缺失数据缺失的原因。Gelman & Hill 回顾了四大类“缺失机制”,包括:
- 完全随机缺失(所有单元/科目的缺失概率相等)
- 随机缺失(例如,不同种族的反应率不同)
- 取决于未观察到的预测变量的缺失
- 缺失值取决于缺失值本身(例如,收入超过 100,000 美元的人拒绝回答收入问题)
因此,如果不根据缺失机制分析原始发帖人的具体数据集,则对使用哪种插补技术的具体指导是不合适的。可以在处理缺失值的策略中找到有关缺失数据插补的其他研究。
推荐阅读
- r - 如何从 r 中 create_qgroups() 的因式间隔返回一个值
- wpf - 如何使 ColorAnimationUsingKeyFrames 在自己的控件背景上从代码隐藏工作?
- vimejs - 如何使用 javascript 动态更改 vimejs 视频的来源?
- firebase - IOS 设备未收到来自 firebase 的通知
- c++ - direct2d:优化位图上几个 BGRA 矩形的渲染
- c++ - Constexpr 排序的唯一容器集作为数组包装器
- shortest-path - 考虑节点成本找到最短路径
- reactjs - 在反应中使用useEffect之外的传单地图对象
- python - 如何更改数据集(如 Excel 中的数据透视表)
- html - 具有 6 个元素的简单文本轮播