apache-spark - 如何使用 Spark RDD 高效实现 Simrank?
问题描述
我想使用 spark rdd 接口实现SimRank 。但是我的数据集太大而无法处理二分图有数亿个节点,因此要找到所有邻域对的相似度得分在计算上是昂贵的。我试图找到一些现有的实现,但它们似乎都不可扩展。有什么建议么?
解决方案
我建议先看看Apache Spark 生态系统附带的 GraphX 和Graphframes库,看看它们是否符合您的需求。它们主要在 RDD 和 Dataframes 之上引入图形处理支持。
推荐阅读
- ios - Swift:围绕左侧旋转imageView
- mysql - 在 SQL 查询中检查可能的注入的模式是什么?
- apache-spark - PySpark - SparkContext:初始化 SparkContext 文件不存在时出错
- php - 为什么我的图像没有存储在 Laravel 5.6 的指定文件夹中?
- php - 使用imagick扩展图像
- python-3.x - 如何在 KDE Plasma 5.13.2 中使用 DBus 在每台显示器上设置不同的壁纸
- python - django注册成功后获取token和userid
- javascript - JavaScript 应用程序:尝试使“wheel”事件侦听器不连续失败
- ruby-on-rails - 使用friendly_id时如何find_by_id(对于多态关系)
- python - `tf.identity` 不在指定设备上传输或保留张量?