首页 > 解决方案 > 为 Spark 准备 lzo 或 lz4 文件

问题描述

我正在尝试为我的 spark 应用程序选择正确的文件交换格式。我在 Kubernetes 上使用Spark 2.4.7+ 。Haddop 2.10我的应用程序从 S3 下载 CSV 文件并进行处理。该文件由第 3 方公司提供。

我正在考虑让他们使用lz4,lzo或其他可拆分压缩。但是,我可以看到命令行工具文件格式与 Hadooplz4lzo编解码器不兼容(我试过lzoplz4cli)

您是否知道任何 CLI 工具允许以 Hadoop 编解码器可以理解的格式准备 lz4 或 lzo 压缩文件?

标签: apache-sparkhadooplz4lzohadoop-lzo

解决方案


推荐阅读