python - 基于混合类型数据框的 K 均值
问题描述
我有以下数据集,我想在其上应用聚类(特别是 k-means)。
id category value
0 122 A 3
1 122 B 4
2 122 C 9
3 145 A 19
4 145 B 22
5 145 C 90
.
.
.
197 225 A 16
198 225 B 17
199 225 C 12
我想要做的是创建 id 集群。例如,每个集群应该包含一些基于类别值计算的相似性度量的 id。
例如:C1 {122, 145, 148} C2{ 225, 222, 221} ....
关于如何处理此类问题的任何想法?
解决方案
将您的数据转换为适当的形状:
您的类别应该是columns,而不是单独的行。
id A B C
1 122 3 4 9
2 145 19 22 90
..
不要忘记排除 ID 列进行分析!聚类时切勿包含 ID。为了分析,您的数据应该只有 A、B、C 列;每个 ID 一行。这样你就有了一个 nx 3 矩阵,那么你可以使用 k-means 就好了。
推荐阅读
- javascript - 如何防止 Object.prototype 中的修改?
- google-apps-script - 是否可以在 Google 表格脚本中触发单元格选择?
- google-cloud-monitoring - 控制台中 GCP 监控警报策略的 JSON 模拟
- ruby-on-rails - 在钩子导轨之前向活动作业添加属性
- android - 在没有 android studio 的情况下在 windows 上运行颤振的问题
- html - Flow/Typescript 从字符串验证 HTML 元素类型
- java - 程序类型已经存在:androidx.test.InstrumentationRegistry
- r - 如何使非常小的数字在r中精确为零?
- oracle - 案例陈述中缺少右括号
- python-3.x - 从 RaspberryPi 按钮向 Firebase 添加数据