首页 > 解决方案 > 在 Spark 中对数百万个二进制文件进行分组

问题描述

我正在寻找一些关于使用 Spark 可能对数百万个文件进行分组的指导

我每天有大约 150 万个文件,大小从几 kb 到 2gb 不等。目前,Spark 难以处理这么多小文件,而且数据偏差很大。我遇到的另一个问题涉及内部消息的大小不同,唯一确定的方法是读取前 n 个字节。

我一直在考虑在 Spark 中编写一个可以压缩这些文件并将它们聚合成大小相等的二进制文件的应用程序。我只是不确定如何配置 spark 来做这样的事情。

标签: apache-sparkhadoop2

解决方案


推荐阅读