首页 > 解决方案 > pyspark:read.parquet 同时跳过丢失的文件

问题描述

我认为这个问题与Spark 有关:仅当路径存在时才读取文件,而另一个是针对 Scala 的。

我正在从以下位置读取文件hdfs

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

问题是如果缺少文件,该read命令将引发异常并停止。

有没有办法让read.parquet跳过列表中丢失的文件search_path

非常感谢

标签: pyspark

解决方案


您可以使用相同的方法:使用 python hdfs 客户端测试目录是否为空。

请参阅此链接以了解更多用法。


推荐阅读