python - 如何使用 PySpark 读取目录下的 Parquet 文件?
问题描述
我在网上搜索过,网上提供的解决方案并没有解决我的问题。我正在尝试读取分层目录下的镶木地板文件。我收到以下错误。
'无法推断 Parquet 的架构。必须手动指定。;'
我的目录结构如下:dbfs:/mnt/sales/region/country/2020/08/04
year 文件夹下将有多个月份的子目录,而月份下的后续子目录为天。
我只想在销售级别阅读它们,这应该为我提供所有地区的信息,并且我已经尝试了以下两个代码,但它们都不起作用。请帮我解决一下这个。
spark.read.parquet("dbfs:/mnt/sales/*")
或者
spark.read.parquet("dbfs:/mnt/sales/")
解决方案
你可以试试这个选项吗?
df = spark.read.option("header","true").option("recursiveFileLookup","true").parquet("/path/to/root/")
推荐阅读
- linphone - 如何远程配置linphone?
- c# - 更新从 MyCouch Extension 调用的函数
- javascript - 我有来自 Udemy 课程的 React App 的样板设置,我已经安装了依赖项,但是当我尝试运行它时,它有错误
- c++ - 为什么我不能使用 A 的对象调用 showA()?
- c# - xamarin 中的 system.reflection.targetinvocationexception
- php - 数组返回一个数据库结果
- flutter - 如何在不使用 StreamBuilder 的情况下从集合中获取所有文档?
- python - python sys.stdout.write 元组每行 2 个元素
- meeting-request - 您安排/安排了会议吗?
- powershell - 如何在 Powershell 中获取每个 Firefox 窗口的句柄?