apache-spark - 为 Spark 准备 lzo 或 lz4 文件
问题描述
我正在尝试为我的 spark 应用程序选择正确的文件交换格式。我在 Kubernetes 上使用Spark 2.4.7
+ 。Haddop 2.10
我的应用程序从 S3 下载 CSV 文件并进行处理。该文件由第 3 方公司提供。
我正在考虑让他们使用lz4
,lzo
或其他可拆分压缩。但是,我可以看到命令行工具文件格式与 Hadooplz4
或lzo
编解码器不兼容(我试过lzop
和lz4
cli)
您是否知道任何 CLI 工具允许以 Hadoop 编解码器可以理解的格式准备 lz4 或 lzo 压缩文件?
解决方案
推荐阅读
- r - 插入符号包无法在 Azure Notebooks 中以非零退出状态安装
- python - 如果数字不是 8 个字符长,则添加前导零
- javascript - 我的媒体查询不起作用的原因是什么
- python - 使用 Pip 运行任何东西时出现致命错误
- javascript - 从 rxjs 订阅处理程序调用时,注入的 Angular 7 服务的方法设置为未定义
- c# - EFCache CachingProviderServices 缺少静态实例属性
- javascript - “如何解决 Node JS 中未定义的 req.body”
- c++ - 如何为不同的类重用相同的实现方法
- kubernetes - Kubernetes 配置版本错误 - 您的配置文件使用旧的 API 规范:“kubeadm.k8s.io/v1alpha1”
- python - 在正则表达式测试器中读取 HTML 之间的正则表达式,但不适用于我的代码