首页 > 解决方案 > 相同设置的 Weka 聚类结果不同

问题描述

我正在使用 Weka 对一些数据进行聚类,但遇到了一个非常奇怪的问题。当我在数据集上使用普通的“集群”工具时,我得到的结果是

Cluster 1: 87 instances
Cluster 2: 88 instances
Cluster 3: 181 instances

这是我从我所拥有的数据中所期望的,所以我认为这是一个很好的结果。但是,我想将此集群添加为一个类并将其保存为一个新.arff文件,因此我尝试使用 Weka 提供的“添加集群”过滤器。现在,在这个过滤器中,我选择了相同的聚类器(本实验的 EM),并确保所有设置都相同(甚至种子编号)。当我应用这个时,我得到了更糟糕的结果

Cluster 1: 87 instances
Cluster 2: 43 instances
Cluster 3: 226 instances

这显然与以前不同,但我不知道为什么。我已经仔细检查了我的所有设置以确保它们是相同的,所以我很确定这不是这个结果。此外,在这个问题中,Zannjaminderson 评论了他有同样问题的答案,所以可能不是我(我会评论看看他是如何/如果他修复了它,但可惜我没有 50 个代表)。

我认为可能会影响结果的一件事是聚类的训练内容。在最初的聚类中,我使用了整个训练集,但是对于“添加聚类”聚类,我认为它没有指定它训练的内容,所以这可能是错误的根源。最终,我的问题是:为什么会发生这种差异,我能做些什么(如果有的话)来阻止它?

标签: cluster-analysiswekadata-miningarff

解决方案


推荐阅读