python - 我需要如何为 Apriori 准备数据/功能?还是我使用了错误的模型?
问题描述
我需要使用无监督机器学习模型来预测“权重”特征。根据我的研究,我认为使用关联分析是正确的方法。
我的数据集摘录如下:
性别 | 年龄 | 高度 | 重量 | family_history_with_overweight | FAVC | FCVC | 国民党 | CAEC | 抽烟 | CH2O | SCC | FAF | 周二 | 计算 | 中转 | 不拜耶斯达德 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
女性 | 21 | 1.62 | 64 | 是的 | 不 | 2 | 3 | 有时 | 不 | 2 | 不 | 0 | 1 | 不 | 公共交通工具 | 正常_重量 |
女性 | 21 | 1.52 | 56 | 是的 | 不 | 3 | 3 | 有时 | 是的 | 3 | 是的 | 3 | 0 | 有时 | 公共交通工具 | 正常_重量 |
男性 | 23 | 1.8 | 77 | 是的 | 不 | 2 | 3 | 有时 | 不 | 2 | 不 | 2 | 1 | 频繁地 | 公共交通工具 | 正常_重量 |
忽略最后一列,我假设对于 MLextend apriori 模型,我需要将特征转换为 True/False 或 1/0。
有人可以向我解释如何将这些数据转换为模型的二进制形式吗?我知道我可以用 1/0 对类别进行软编码,但是如何处理十进制值?我还假设我可以根据 is_x、is_y 和 is_z 等对类别值进行硬编码。
但是我很困惑在这种情况下我需要做什么来定位变量。我的研究表明,我需要将 bin 用于连续值。
我也可以使用 PCA,但根据我的阅读,它确实没有用于这么多分类特征。
我在这个项目中使用了错误的方法吗?
解决方案
推荐阅读
- python - 如何使用python一次重命名多个文件
- c# - 我的方法中的重载错误
- r - 如何在 R 中的同一个 dygraph 中绘制多个变量图
- jquery - 使用 jQuery 响应在新选项卡中打开 url
- javascript - 如何将文本区域中的换行符替换为
- laravel - 如何在phpunit测试期间检查断点数据库中的值
- sql - 由于并发更新,Postgres 无法序列化访问
- c# - 几个月后 C# WebClient DownloadString 突然超时
- wordpress - WP WooCommerce Webhook URL 未在 Live 环境中触发
- iterator - Netlogo 土地利用变化模型:foreach list 命令