首页 > 解决方案 > 结构化流式传输后,ORC 文件只能通过文件夹中的通配符读取

问题描述

当我从源创建一个 ORC 格式的“文件”时,df.write.orc("/path/to/output.orc")我可以使用类似spark.read.orc("/path/to/output.orc").

但是,当文件由结构化流式作业创建或附加时,我无法读取文件并遇到以下消息:

org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC at . It must be specified manually;

但是,当我使用以下语法读取文件时,它可以正常工作:spark.read.orc("/path/to/output.orc/*").

这一切都发生在 HDFS 上。Locallt这似乎不是一个问题。对此有什么想法吗?

标签: apache-sparkspark-structured-streamingorc

解决方案


推荐阅读