首页 > 解决方案 > 如何使用 Spark RDD 高效实现 Simrank?

问题描述

我想使用 spark rdd 接口实现SimRank 。但是我的数据集太大而无法处理二分图有数亿个节点,因此要找到所有邻域对的相似度得分在计算上是昂贵的。我试图找到一些现有的实现,但它们似乎都不可扩展。有什么建议么?

标签: apache-sparkgraphrdd

解决方案


我建议先看看Apache Spark 生态系统附带的 GraphX 和Graphframes库,看看它们是否符合您的需求。它们主要在 RDD 和 Dataframes 之上引入图形处理支持。


推荐阅读