pyspark - pyspark：read.parquet 同时跳过丢失的文件

首页 > 解决方案 > pyspark：read.parquet 同时跳过丢失的文件

我认为这个问题与Spark 有关：仅当路径存在时才读取文件，而另一个是针对 Scala 的。

我正在从以下位置读取文件hdfs：

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

问题是如果缺少文件，该read命令将引发异常并停止。

有没有办法让read.parquet跳过列表中丢失的文件search_path？

非常感谢

标签： pyspark

您可以使用相同的方法：使用 python hdfs 客户端测试目录是否为空。

请参阅此链接以了解更多用法。