首页 > 解决方案 > 如何在 pyspark 上安装 LZO 和 BROTLI 等各种压缩编解码器?

问题描述

为了编写 parquet 文件并使用 LZO 编解码器对其进行压缩,我编写了以下代码 -

df.coalesce(1).write.option("compression","lzo").option("header","true").parquet("PARQUET.parquet")

但是,我收到了这个错误 -

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.io.compress.lzo.LzoCodec

根据 spark文档,brotli 需要安装 BrotliCodec。但是没有给出安装它的步骤。使用 Brotli 编解码器进行压缩时也会出现同样的错误。

如何安装/添加在 PySpark 上运行所需的编解码器?


编辑- LZO 压缩适用于 ORC 但不适用于 Parquet

标签: apache-sparkpysparkcompressionlzobrotli

解决方案


推荐阅读