python - 从目录读取镶木地板文件时,pyspark不保存
问题描述
我正在尝试将很多 parquet 文件从一个目录加载到 pyspark,然后将它们保存到另一个目录。
我的代码如下:
df = spark.read.parquet('input_folder') \
.write \
.parquet('output_folder')
我收到大量错误列表,从:
发生异常:Py4JJavaError 调用 o30.parquet 时发生错误。
当我尝试使用一个文件时 - 一切都很好:
df = spark.read.parquet('input_folder/file1.parquet') \
.write \
.parquet('output_folder')
计数记录工作正常:
df = spark.read.parquet('input_folder') \
.count()
可能是什么原因?
解决方案
原因是第一个 parquet 文件是空的。希望它可以帮助某人。
推荐阅读
- amazon-iam - 如何使用一个命令在命令行上删除具有多个版本的 iam 策略?
- node.js - 如何从 nodejs mongodb 本机驱动程序中的嵌入文档中查找单个元素?
- reactjs - 连接组件的反应单元测试用例:浅方法为空
- javascript - 使用 react-aad-msal 时来自 chokidar 的错误
- java - 在 HostnameVerifier 中信任 peerHost 是否安全?
- elasticsearch - 是否有弹性搜索查询来获取唯一的错误日志消息?
- python - 当您将函数名称作为字符串时,在 python 中运行函数
- python-3.x - 使用 tkinter filedialog.askdirectory 选择路径并使用这些路径执行脚本
- jquery - 表格中的垂直滚动条
- c - 需要决定在 C 中启动时使用哪种结构变体