python - PySpark:编写镶木地板文件时如何指定文件大小?
问题描述
我有一个要转换为镶木地板的 600+gb JSON。读写 parquet 的语法很简单:
阅读:
data = spark.read.parquet('file-path')
写作:
data.write.parquet("file-path")
不过,我的问题是,是否有一个选项可以指定生成的 parquet 文件的大小,即接近 128mb,根据 Spark 的文档,这是最高性能的大小。目前正在data.write.parquet
处理 10-20mb 之间的文件,我怀疑这会影响我的工作绩效。
我尝试使用coalesce
,data.coalesce(1500).write.mode("append").parquet("file-path")
作为一种解决方法,但是设置分区号有点偶然。
有没有更好的写拼花的方法?
解决方案
推荐阅读
- python - 为什么当我输入一个空字符串('这里没有')时它会忽略我的 while 条件?
- ios - iOS 应用程序在后台导致 Safari 页面显示为黑色
- symfony - _symfony 4 中的本地管理
- asp.net-core - 如何在 ASP.NET Core 2.2 中使用 ICollection 将具有一对多相关数据的 SQL Server 视图映射到 ViewModel 类
- excel - Excel VBA在类中声明一个arraylist
- node.js - isModified() 什么时候在猫鼬中返回 true?我正在寻找一个简短的解释
- macos - 如何更改内核安全级别?
- python - 如何转换数据格式以便将其用于 VGG16 深度学习
- python - 在 Python 中从文本文件中索引矩阵并将其转换为嵌套字典
- azure-active-directory - 团队应用程序:客户是否必须拥有 365 才能使用团队应用程序?