pyspark - 如何将多个HDFS文件压缩为一个
问题描述
我正在使用 Zeppelin 集群(w Spark),write.parquet()
最终得到多个 Parquet 文件。我想知道,是否可以将它们合并到一个文件中?path="/folder/*"
还是我每次都必须使用?
解决方案
使用重新分区():
df.repartition(1).write.parquet(path)
或者,更好的是, coalesce()
df.coalesce(1).write.parquet(path)
推荐阅读
- oracle10g - Oracle 形成 10g OLE2 或 CLIENT_OLE2
- intellij-idea - Intellij - 配置为使用 Maven Wrapper 时找不到有效的 Maven 安装
- database - 如何检查firestore中文档的大小?
- linux - 使用 yum 以不同用户身份安装 Tomcat
- android - NestedScrollView 内的 RecyclerView 一次只显示 1 个元素
- node.js - NodeJS - 正确捕获异步函数的错误
- javascript - 使用 React Hooks 单击编辑按钮时禁用输入字段
- visual-studio-code - Anaconda 与 VSCode 挂起
- java - 本地 JVM 无法对自身执行对 0.0.0.0 的 HTTP 调用
- django-rest-framework - 尝试在 TrigramSimilarity 中使用过滤器后端