pyspark - 使用 pyspark 动态编写镶木地板
问题描述
有没有办法使用pyspark在dataframe.write上动态调整parquet输出文件的大小?我们有一个通用的工作,将许多表写入 S3,其中一些很小,但有些非常大。如何使用一项工作为所有人调整输出的大小?
解决方案
推荐阅读
- java - 如何从运行在 Apache Tomcat 服务器上的 Java servlet 重定向到本地 HTML 文件?
- spring-test - 为什么我的测试属性在运行 mvn test 时没有被 spring-boot 拾取
- uml - 谈论抽象类的实例是否可以接受?
- python - S3.Client.upload_file() 和 S3.Client.upload_fileobj() 有什么区别?
- docker - 烧瓶 request.data 很慢
- excel - VBA 循环和过滤问题
- r - 通过移动阅读框比较向量值
- python - 将一个模型 A 复制到模型 B 中出现错误
- python - 根据python中的多个条件以及日期字段从访问表中删除行
- java - AWS SignInProviderResultAdapter.onCognitoError() 可以创建帐户但在登录时崩溃