首页 > 解决方案 > 从目录读取镶木地板文件时,pyspark不保存

问题描述

我正在尝试将很多 parquet 文件从一个目录加载到 pyspark,然后将它们保存到另一个目录。

我的代码如下:

df = spark.read.parquet('input_folder') \
  .write \
  .parquet('output_folder')

我收到大量错误列表,从:

发生异常:Py4JJavaError 调用 o30.parquet 时发生错误。

当我尝试使用一个文件时 - 一切都很好:

df = spark.read.parquet('input_folder/file1.parquet') \
  .write \
  .parquet('output_folder')

计数记录工作正常:

df = spark.read.parquet('input_folder') \
  .count()

可能是什么原因?

标签: pythonpysparkparquet

解决方案


原因是第一个 parquet 文件是空的。希望它可以帮助某人。


推荐阅读