python - 如何使用 PySpark 读取目录下的 Parquet 文件？

我在网上搜索过，网上提供的解决方案并没有解决我的问题。我正在尝试读取分层目录下的镶木地板文件。我收到以下错误。

'无法推断 Parquet 的架构。必须手动指定。;'

我的目录结构如下：dbfs:/mnt/sales/region/country/2020/08/04

year 文件夹下将有多个月份的子目录，而月份下的后续子目录为天。

我只想在销售级别阅读它们，这应该为我提供所有地区的信息，并且我已经尝试了以下两个代码，但它们都不起作用。请帮我解决一下这个。

spark.read.parquet("dbfs:/mnt/sales/*")

或者

spark.read.parquet("dbfs:/mnt/sales/")

标签： pythonpysparkapache-spark-sqldatabricksazure-databricks

你可以试试这个选项吗？

df = spark.read.option("header","true").option("recursiveFileLookup","true").parquet("/path/to/root/")