hadoop - 如何使用 tez 更改带有 ORC 文件的映射器数量?
问题描述
我正在尝试增加地图任务的数量。文件格式为 ORC,使用 TEZ 进行处理。
我有一个 2.8 GB 的文件。大约 128 MB 文件和文件数量约为 29。
每次我执行 28 个地图任务时都会执行。我正在尝试增加地图任务数。
提前致谢
解决方案
检查这些设置(见下面的评论):
set hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
set tez.grouping.min-size=16777216; -- files with smaller size will be combined if possible
set tez.grouping.max-size=67108864; -- (default is 1 Gb), files with bigger size will be splitted and more mappers started
您还可以使用此设置控制映射器的数量:
set mapreduce.job.maps=128; --better use grouping splits configuration (above) instead of this one because it is more flexible
推荐阅读
- c# - 如何在没有 HTML 页面的情况下获得 dbcontext 访问权限?
- java - 将 ATAP(外部工具)集成到 Eclipse
- r - debian9.11安装r-base后无法访问登录界面
- c# - 如何使用我自己的方法或编写 DbFunction 进行 EF Core 查询(EF Core 3.0)
- javascript - 如何使用点分隔符检查字符串中的前缀
- java - 在 java (Android) 中加密在 python AES 解密中失败
- ios - 为什么当 UIButton 的 isHidden 属性设置为 true 时,它的背景不隐藏?
- postgresql - PostgreSQL 触发器通常修剪 INSERT/UPDATE 记录的字段
- php - 如何将 Firebase 身份验证与 laravel 连接
- unreal-engine4 - 对所有生成的敌人进行可变更改,而不是仅对自己进行更改