apache-spark - 结构化流式传输后,ORC 文件只能通过文件夹中的通配符读取
问题描述
当我从源创建一个 ORC 格式的“文件”时,df.write.orc("/path/to/output.orc")
我可以使用类似spark.read.orc("/path/to/output.orc")
.
但是,当文件由结构化流式作业创建或附加时,我无法读取文件并遇到以下消息:
org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC at . It must be specified manually;
但是,当我使用以下语法读取文件时,它可以正常工作:spark.read.orc("/path/to/output.orc/*")
.
这一切都发生在 HDFS 上。Locallt这似乎不是一个问题。对此有什么想法吗?
解决方案
推荐阅读
- jquery - 使用 CSS 和 Jquery 平滑过渡
- electron - 电子用户安装程序构建
- python - 如何使 Swarmplot(Seaborn)中的点相互重叠?
- python - Apscheduler 可以使用相同的 cron 触发器运行两个作业吗?
- apache - virtualhost 只能访问 localhost
- oauth-2.0 - Google Adwords API with OAuth2 如何获取授权用户的电子邮件?
- google-cloud-platform - 谷歌云:如何列出授予用户或服务帐户的权限?
- excel - 使用 VB.NET 将 CSV 转换为 XLSX:分隔符错误
- excel - 在表中查找特定值
- java - 通过 Jenkins 运行时未捆绑 Jhipster/spring boot 静态资源 pdf 文件