首页 > 解决方案 > 对也有分类标签的数据进行聚类的方法?

问题描述

我有一个数据集,其中每一行代表一个人及其全年的付款行为。对于每个人,我有 3 个可能的分类标签(年龄、性别、国籍)。支付行为由 30 多个指标定义,例如支付次数和支付价值。生成的数据集示例如下所示(我在右侧包含了一些随机支付行为指标):

在此处输入图像描述

我的目标是创建代表具有相似支付行为的同质人群的类(基于年龄/性别/国籍的组合)。例如:我们发现美国50-60岁的男性都有类似的支付行为。例如,对于每个类,我可以确定平均值、标准差、百分位数等。由于这似乎是聚类和分类之间的重叠,所以我被困在研究什么和去哪里寻找。有什么我可以研究的方法吗?

我正在考虑的一个选项是首先创建所有可能的类(例如 50-M-US、50-F-US、51-M-US 等),然后根据欧几里得距离合并它们(使用所有付款行为指标意味着)直到剩下所需数量的类。让我知道你的想法。

标签: machine-learningstatisticsclassificationcluster-analysishierarchical-clustering

解决方案


推荐阅读