java - 获取 R/Java (MOA) 聚类算法结果并使用 python 处理它们的更好方法
问题描述
我一直使用 Python 进行集群,但最近我遇到了一种情况,我需要R和Java中可用的CluStream和DenStream(流集群算法)的实现(社区中有一些 Python 实现,但我已经试过了,他们没有工作)。
问题是我必须比较许多用 Python 编写的聚类算法,并且在上一阶段我使用的是众所周知的scikit 学习数据集(以展示算法如何处理非球状聚类 - 当然我将使用时间序列数据)。
现在,我想知道尝试这些 R/Java 算法并使用 R/Java 聚类结果计算用 Python ( DBCV ) 编码的度量的正确方法......
--> 所以,总而言之,我需要使用相同的数据集(我认为可以将其保存到 csv 文件中)并计算相同的有效性指标(Python)来比较许多算法(用 Python 和 R/Java 编码)。
任何帮助,将不胜感激。提前致谢!
编辑:我遇到的解决方案如下:
- 使用 sklearn 生成玩具数据集并将它们保存到 csv 文件中
- 对这些数据集使用不同的聚类算法,并将聚类结果保存到 csv 文件中(使用哪种编程语言无关紧要)
- 开发另一个应用程序:
- 获取存储在 cvs 文件中的聚类解决方案
- 计算指标并显示结果
如果您找到更好的解决方案,请告诉我!
备注:
- 这个 R 包是我想尝试的:streamMOA
- 我对 R 一无所知,并且我以前使用过 Java(我选择什么实现取决于与 Python 集成的更好方法)
解决方案
MOA 是一个 Java 软件。没有充分的理由通过 R 使用它,除非你已经在 R 生态系统中(你不是)。
您可以将数据写入 CSV 并将其加载到您喜欢的任何工具中
这些数据集不是流。它们缺乏流的所有困难和挑战——一个简单的子样本就足以识别聚类结构。从这些数据中得出的结论是没有用的。使用真实的数据流,而不是没有顺序的合成数据。
推荐阅读
- python - 在特定给定点(不在 0,0,0 处)周围的特定半径的球体内生成一个点 - Python
- excel - 在 Excel 中平均未来数据的偏移单元格
- excel - Excel VBA:基于列的动态变化函数
- opencv - 确定投影到图像的真实世界坐标的像素坐标
- c++ - PNG 伽玛校正
- javascript - material-ui 动态改变调色板颜色
- php - 在一个大画廊的一排两张图片
- spring-boot - 使用 Spring-Boot-Admin 和 Eureka 发现进行身份验证
- scala - 使用 scala 计算分配给每个元素的最大长度
- angular - 获得成功的帖子()