首页 > 解决方案 > 我想使用学习模型

问题描述

我已经学习了决策树,但现在我想使用这个决策树来预测一个新数据是未知类

我有:

Tid :  1 2 3 4 5 6 7 8 9 10
Refund : Yes No No Yes No No Yes No No No
MaritalStatus : Single Maried Single Maried Divorced 
                           Maried Divorced Single Maried Single
TexableIncome : 125K 100K 70K 120K 95K 60K 220K 85K 
                               75K 90K
Cheat (this attribute is class) : No No No No Yes No No Yes 
                                                      No Yes

在我将上面的这些数据用于训练决策树之后,我得到了一棵树,但是在这之后我有了我不知道类的数据我想使用树我必须预测一个类

Tid : 11 12 13 14 15
Attrib1 : No Yes Yes No No 
Attrib2 : Small Medium Large Small Large 
Attrib3 : 55k 80k 110k 95k 67k
Class :    ?    ?    ?   ?  ?  (I want to predict this by my first tree)

标签: data-sciencerapidminerdata-science-experience

解决方案


决策树模型在训练集的所有可用属性上进行训练。导致标签(类)预测的所有决策都基于这些特定属性。因此,您的预训练模型只能应用于示例集,至少包含训练集的所有属性(请注意,学习算法会忽略具有特殊角色的属性,如“id”)。

在您的示例中,模型依赖Refund,MaritalStatusTexableIncome(拼写?),但是您要预测标签的第二个数据集具有属性Attrib1和。即使是简单的重命名也行不通,因为可能值的类型在: (再次,拼写?)和:之间有所不同。Attrib2Attrib3MaritalStatusDivorced, Single, MariedAttrib2Small, Medium, Large


推荐阅读