首页 > 解决方案 > spark 3.0 中的 glob

问题描述

我曾经运行 glob 来获取 Spark 2.0+ 下的文件路径。

glob.glob("/dbfs/mnt/.../*/Acquisition*.txt")

升级到 Spark 3.0 后,此命令不起作用。你知道为什么吗?

标签: apache-sparkpysparkapache-spark-sqlpyspark-dataframes

解决方案


检查与python 2.7 版本有点不同的 python 3.8 版本的文档

您应该使用**递归路径并且还必须打开选项recursive=True。然后,

glob.glob('/path/from/root/**/Acquisition*.txt', recursive=True)

推荐阅读