首页 > 解决方案 > 我需要如何为 Apriori 准备数据/功能?还是我使用了错误的模型?

问题描述

我需要使用无监督机器学习模型来预测“权重”特征。根据我的研究,我认为使用关联分析是正确的方法。

我的数据集摘录如下:

性别 年龄 高度 重量 family_history_with_overweight FAVC FCVC 国民党 CAEC 抽烟 CH2O SCC FAF 周二 计算 中转 不拜耶斯达德
女性 21 1.62 64 是的 2 3 有时 2 0 1 公共交通工具 正常_重量
女性 21 1.52 56 是的 3 3 有时 是的 3 是的 3 0 有时 公共交通工具 正常_重量
男性 23 1.8 77 是的 2 3 有时 2 2 1 频繁地 公共交通工具 正常_重量

忽略最后一列,我假设对于 MLextend apriori 模型,我需要将特征转换为 True/False 或 1/0。

有人可以向我解释如何将这些数据转换为模型的二进制形式吗?我知道我可以用 1/0 对类别进行软编码,但是如何处理十进制值?我还假设我可以根据 is_x、is_y 和 is_z 等对类别值进行硬编码。

但是我很困惑在这种情况下我需要做什么来定位变量。我的研究表明,我需要将 bin 用于连续值。

我也可以使用 PCA,但根据我的阅读,它确实没有用于这么多分类特征。

我在这个项目中使用了错误的方法吗?

标签: pythondataframelogicunsupervised-learningapriori

解决方案


推荐阅读