apache-spark - 如何在 pyspark 上安装 LZO 和 BROTLI 等各种压缩编解码器?
问题描述
为了编写 parquet 文件并使用 LZO 编解码器对其进行压缩,我编写了以下代码 -
df.coalesce(1).write.option("compression","lzo").option("header","true").parquet("PARQUET.parquet")
但是,我收到了这个错误 -
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.io.compress.lzo.LzoCodec
根据 spark文档,brotli 需要安装 BrotliCodec。但是没有给出安装它的步骤。使用 Brotli 编解码器进行压缩时也会出现同样的错误。
如何安装/添加在 PySpark 上运行所需的编解码器?
编辑- LZO 压缩适用于 ORC 但不适用于 Parquet
解决方案
推荐阅读
- macos - Applescript 从脚本编辑器启动时运行良好,但在作为服务运行时运行
- c++ - 我收到“错误:预期的';' 在类定义之后”在 C++ 中使用类之后
- c# - 如何在 C# 中将数据(数组列表)转换为 Jpeg 文件或 Pdf 或布局
- html - Angular:类型检查模板无法正常工作
- python - 如何使用 piexif 修改 XPKeywords?
- curl - IBM Watson Text-to-speech API 不断抛出错误:403 Forbidden
- python - 在tensorflow的占位符中为“None+”添加特定维度是什么意思?
- php - 处方结果失败
- c# - 使用 c# 在 domino 服务器中根据用户注册密码验证验证者 id 文件
- oauth-2.0 - 注销后身份验证服务器的行为应该如何?