首页 > 解决方案 > 决策树状态栏&相关数值栏

问题描述

我有一个数据,包括两列,其中一列明确显示功能的状态,另一列以数字形式显示相关值。就像下面这样:

状态和值列

我想通过 scikit learn 对这些数据运行决策树算法。我不确定如何处理这两列,因为从概念上讲,我无法弄清楚如何结合这些非常相关的特征。基本上,我们不应该留下空数据,但是,这个数据本质上应该在数值列中为空。如果我们将其设为“0”,则它具有另一种含义。

那么,我应该如何预处理这些数据以使决策树算法正常工作?

标签: scikit-learnnumericdecision-treecategorical-data

解决方案


我的 prefossor 提供了一个合理的答案,如下所示。

首先,用“0”填充空单元格。如果将数据插入具有这两个特征的决策树算法,我们有两种情况:

  • 如果“状态”先出现:树会将 0 和 1 分成两个分支。在 0 下,所有 Amount 值都已经为 0,因此不会选择此功能。在 1 之下,不会有任何 0 状态。

  • 如果“金额”在前:所有状态 0 将只在一个分支下,它们将与金额非常小的那些放在一起。

因此,如果 Amount 数据嘈杂,保留 Status 列可能会有所帮助。否则,我会删除状态列。


推荐阅读