hadoop - Impala 表小文件问题
问题描述
我有一个 10 TB 大小的表,有 2k+ 个分区,每个分区有大约 300 个小文件,请你帮我解决小文件问题而不影响目录结构。我尝试了 shuffle 选项,它减少了小表的文件,但不适用于大表。
解决方案
推荐阅读
- c - 有人可以解释以下代码的函数pop(更具体地说是变量retval)吗?
- scala - When should one use a Kleisli?
- qt - 每次构建项目时如何运行 AUTOMOC、AUTOUIC 和 AUTORCC?
- .net - 在 WinForms 项目中包含仅 64 位程序集
- mysql - MYSQL - 左连接查询未按预期工作
- c# - 如何让我的计时器到小数点后两位?
- python - 如何处理 Python 子进程`FileNotFoundError: [WinError 2]`?
- c# - C# listBox 的大小应该小于
- matplotlib - 为 matplotlib 转换时间戳以进行数据可视化
- html - 导航栏元素堆叠在一起,我希望它们彼此相邻