首页 > 解决方案 > 映射器执行时间之间的巨大差异

问题描述

我尝试用 sqoop 导入一个表;我使用 4 个映射器。问题是映射器之间的执行时间存在巨大差异。有些不到 10 分钟,有些则超过一小时。你能解释一下为什么吗?以及如何优化我的导入? 在此处输入图像描述

标签: hadoopmapreducehadoop-yarnsqoop

解决方案


尝试使用该--split-limit参数来优化您的导入。如果创建的拆分的大小大于此参数中指定的大小,则拆分将调整大小以适应此限制,拆分的数量将根据此更改。这会影响映射器的实际数量并导致更平衡的映射器。


推荐阅读