apache-spark - 如何在 pyspark 上安装 LZO 和 BROTLI 等各种压缩编解码器？

为了编写 parquet 文件并使用 LZO 编解码器对其进行压缩，我编写了以下代码 -

df.coalesce(1).write.option("compression","lzo").option("header","true").parquet("PARQUET.parquet")

但是，我收到了这个错误 -

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.io.compress.lzo.LzoCodec

根据 spark文档，brotli 需要安装 BrotliCodec。但是没有给出安装它的步骤。使用 Brotli 编解码器进行压缩时也会出现同样的错误。

如何安装/添加在 PySpark 上运行所需的编解码器？

编辑- LZO 压缩适用于 ORC 但不适用于 Parquet

标签： apache-sparkpysparkcompressionlzobrotli