apache-flink - 尽管使用 Apache Flink 进行分区,但元组的分布不平衡
问题描述
我有一个在 EMR 上使用 Flink 运行的批处理作业,它丰富了在 AWS S3 上存储为 CSV 的一些数据,并使用 Elasticsearch 为元组编制索引。
出于某种原因,其中一位主持人的工作量比其他人多得多。我试图通过对元组的几个字段进行哈希分区来解决这个问题,但这没有任何区别:其中一个节点仍然比其他节点获得更多。请参阅下面屏幕截图中的主机 40705。
我需要在各个节点之间分配索引,并尽可能优化吞吐量。
我尝试使用rebalance()但结果是一样的。有什么线索吗?
编辑
概览屏幕
解决方案
推荐阅读
- javascript - 带有 ahref 标签的 JSX 问题。在后端输入不同的文本,需要将其作为超链接在反应前端呈现
- javascript - 拖放事件,根据放置位置有两种不同的含义
- java - JDBI SqlBatch 只插入一个条目
- javascript - React + Firebase 函数意外循环
- oauth-2.0 - Xero OAuth 2.0 租户列表
- python - 使用 lambda 或理解列表实现函数
- sql - 节点续集 - 选择空值
- javascript - 在自定义 jquery 函数中重复淡入/淡出,避免间隔或超时
- python - 有没有办法让这个算法变得更干净或更好看?(等级/平均计算器)
- android - 如何使用 viewpager2 实现这一点?