python - Pyspark 外部表压缩不起作用
问题描述
我正在尝试以镶木地板格式从 PySpark 保存一个外部表,我需要对其进行压缩。我使用的 PySpark 版本是 2.4.7。我在初始创建后更新表并以循环方式附加数据。
到目前为止,我已经设置了以下选项:
.config("spark.sql.parquet.compression.codec", "snappy") df.write.mode("append").format("parquet").option("compression","snappy").saveAsTable(...) df.write.mode("overwrite").format("parquet").option("compression","snappy").saveAsTable(...)
还有什么我需要设置的还是我做错了什么?
谢谢
解决方案
推荐阅读
- python-3.x - 配置如何在 gitlab-ci 上运行我的机器人框架测试
- powershell - 如何解决 gwmi : Invalid class "WmiMonitorID" PowerShell 错误?
- python - 我不明白评估生成器方法(keras)中“步骤”的含义是什么
- grpc - golang rpc 与 protobuf 编译的区别?
- laravel - 未定义变量:title(查看:resources\views\auth\login.blade.php)
- javascript - 被表格隐藏的下拉表格标题
- sql - 查询与多个值有关系的记录
- azure-devops - NuGet 包中包含的解决方案文件与持续构建不兼容
- android - 不兼容的类型:EditText 无法转换为 String
- wso2 - 带有负载均衡器的 WSO2 EI 6.5.0 集群