首页 > 解决方案 > 如何将特定的火花节点定义为分区键?

问题描述

我需要在异构集群中运行数据集的相似性连接算法。

在程序的第一步中,为数据集的记录分配签名,将具有相同签名的记录发送到同一个处理节点。

不共享签名的集合对不能相似。因此,一种直观的方法是使用签名作为分区键来确定将记录发送到的工作人员。因此,只有具有共同签名的对被发送给同一个工作人员,避免了不必要的数据传输和相似性评估。

但是,我需要确保将包含许多记录的签名发送给具有更好处理能力的工作人员,例如 GPU。那么,如何将特定的 spark 节点定义为分区键呢?

标签: apache-sparkspark-streaminghadoop-yarn

解决方案


推荐阅读