首页 > 解决方案 > 获取 R/Java (MOA) 聚类算法结果并使用 python 处理它们的更好方法

问题描述

我一直使用 Python 进行集群,但最近我遇到了一种情况,我需要RJava中可用的CluStreamDenStream(流集群算法)的实现(社区中有一些 Python 实现,但我已经试过了,他们没有工作)。

问题是我必须比较许多用 Python 编写的聚类算法,并且在上一阶段我使用的是众所周知的scikit 学习数据集(以展示算法如何处理非球状聚类 - 当然我将使用时间序列数据)。

现在,我想知道尝试这些 R/Java 算法并使用 R/Java 聚类结果计算用 Python ( DBCV ) 编码的度量的正确方法......

--> 所以,总而言之,我需要使用相同的数据集(我认为可以将其保存到 csv 文件中)并计算相同的有效性指标(Python)来比较许多算法(用 Python 和 R/Java 编码)。

任何帮助,将不胜感激。提前致谢!


编辑:我遇到的解决方案如下:

如果您找到更好的解决方案,请告诉我!


备注

标签: javapythonrcluster-analysisintegration

解决方案


  1. MOA 是一个 Java 软件。没有充分的理由通过 R 使用它,除非你已经在 R 生态系统中(你不是)。

  2. 您可以将数据写入 CSV 并将其加载到您喜欢的任何工具中

  3. 这些数据集不是流。它们缺乏流的所有困难和挑战——一个简单的子样本就足以识别聚类结构。从这些数据中得出的结论是没有用的。使用真实的数据流,而不是没有顺序的合成数据。


推荐阅读