apache-spark - 如何将特定的火花节点定义为分区键?
问题描述
我需要在异构集群中运行数据集的相似性连接算法。
在程序的第一步中,为数据集的记录分配签名,将具有相同签名的记录发送到同一个处理节点。
不共享签名的集合对不能相似。因此,一种直观的方法是使用签名作为分区键来确定将记录发送到的工作人员。因此,只有具有共同签名的对被发送给同一个工作人员,避免了不必要的数据传输和相似性评估。
但是,我需要确保将包含许多记录的签名发送给具有更好处理能力的工作人员,例如 GPU。那么,如何将特定的 spark 节点定义为分区键呢?
解决方案
推荐阅读
- r - 使用循环通过定义文件路径的数据框解压缩文件
- python - Python:如何根据类型进行强制转换,而不需要导入我们需要验证类型的对象
- javascript - stripe.confirmCardPayment 意图秘密 返回空字符串
- javascript - KnexJS 选择当年的所有记录
- android - httpClient.get 在模拟器上可以,但在安卓设备上不行
- mysql - CAP Theorm - 为什么 Mysql 是 CA
- javascript - 如何使用 Cesium 中的可用性间隔定义多边形实体?
- image - Instagram 图像未显示在我网站的 IG 提要中,显示带有 400 响应的损坏图像
- python-3.x - 当键不是常量时,将 List[Dict] 写入 CSV 时获取标题的 Pythonic 方法
- sql - 从日期到日期的总和