scikit-learn - 决策树状态栏&相关数值栏
问题描述
我有一个数据,包括两列,其中一列明确显示功能的状态,另一列以数字形式显示相关值。就像下面这样:
我想通过 scikit learn 对这些数据运行决策树算法。我不确定如何处理这两列,因为从概念上讲,我无法弄清楚如何结合这些非常相关的特征。基本上,我们不应该留下空数据,但是,这个数据本质上应该在数值列中为空。如果我们将其设为“0”,则它具有另一种含义。
那么,我应该如何预处理这些数据以使决策树算法正常工作?
解决方案
我的 prefossor 提供了一个合理的答案,如下所示。
首先,用“0”填充空单元格。如果将数据插入具有这两个特征的决策树算法,我们有两种情况:
如果“状态”先出现:树会将 0 和 1 分成两个分支。在 0 下,所有 Amount 值都已经为 0,因此不会选择此功能。在 1 之下,不会有任何 0 状态。
如果“金额”在前:所有状态 0 将只在一个分支下,它们将与金额非常小的那些放在一起。
因此,如果 Amount 数据嘈杂,保留 Status 列可能会有所帮助。否则,我会删除状态列。
推荐阅读
- javascript - 通过鼠标点击触发星星
- r - R闪亮的仪表板表菜单项与子项
- c - c语言正则表达式匹配字符串的多个部分
- r - 在多列上使用 for 循环在 r ggplot 图中创建标题
- google-cloud-platform - 删除 Google Cloud 项目中的所有资源
- c# - 如何在电子邮件正文需要支持 HTML 的情况下通过 SMTP 保留换行符
- javascript - 单击链接应关闭模式并激活 JavaScript 以在 div 中保存的隐藏内容部分之间切换
- jsf - JSF 自定义标签子属性
- javascript - 上传后流星文件扭曲图像
- z3 - 电子匹配相关 SMT 查询的令人费解(且脆弱)的结果