amazon-s3 - 将 Pyspark Dataframe 作为 Parquet 写入 Databricks 上的 S3 只是挂在中间
问题描述
我有一个大约 250 万亿行的 pyspark 数据框。我正在尝试使用其中一列作为分区将其编写为 AWS S3 存储桶中的镶木地板。但是即使运行了 16 个小时,它也只是挂在中间,这完全是荒谬的。我正在尝试找到实现这一目标的最佳方法,但尚未弄清楚。我正在尝试如下的基本脚本:
df.write.parquet("path", mode = "overwrite", partitionBy = "column-name")
解决方案
推荐阅读
- r - 使用带有glue_data 的数据框列名
- c - 是否可以在以后的循环迭代中增加模运算符?
- java - 如何判断一段java代码是否是heap-allocation-free的?
- twilio - 无论实际结果如何,Twilio 始终返回“进行中”
- python - 如何在 python 测试中模拟 subprocess.check_call 异常
- flex-lexer - 设置 %option prefix= 时如何让 automake 识别 flex 生成的非默认文件名
- regex - 如何在标题右侧正则表达式匹配(删除)任意一系列以逗号分隔的两字母语言代码?
- python-3.x - 字典列表:合并、排序和挑选前 (n) 个条目
- sql - 如果不存在,则将 Table1 中的数据插入到 Table2 中,否则更新 table2 中的数据以匹配 Table1。在任何一种情况下,从 Table1 中删除
- asp.net-core - 错误 MSB3644:找不到框架“.NETFramework,Version=v5.0”的参考程序集