首页 > 解决方案 > 尽管使用 Apache Flink 进行分区,但元组的分布不平衡

问题描述

我有一个在 EMR 上使用 Flink 运行的批处理作业,它丰富了在 AWS S3 上存储为 CSV 的一些数据,并使用 Elasticsearch 为元组编制索引。

出于某种原因,其中一位主持人的工作量比其他人多得多。我试图通过对元组的几个字段进行哈希分区来解决这个问题,但这没有任何区别:其中一个节点仍然比其他节点获得更多。请参阅下面屏幕截图中的主机 40705。

我需要在各个节点之间分配索引,并尽可能优化吞吐量。

我尝试使用rebalance()但结果是一样的。有什么线索吗?

在此处输入图像描述

编辑

概览屏幕

在此处输入图像描述

标签: apache-flinkamazon-emr

解决方案


推荐阅读