apache-spark - Spark Java API 加载路径中带有空格的文件
问题描述
当我尝试将 ORC/Parquet 文件加载到位于包含空格的路径中的 spark(2.2) 中时,我遇到了问题。
HDFS 允许目录名称中有空格。
hdfs dfs -mkdir /tmp/dir\ with\ whitespace
但是,使用 Spark 读取放置在此目录中的文件似乎是不可能的。使用带有空格的输入路径会导致 AnalysisException
final DataFrameReader reader = sparkSession.read().format("orc");
Dataset<Row> dataFrame = reader.load("[...]/tmp/dir with whitespace/abc.orc");
逻辑计划似乎很好,路径用反引号 ( orc
. [...]/tmp/dir with whitespace/abc.orc
) 引用。但是,由于在分析计划期间发生异常,因此无法执行。在我看来,一旦计划从逻辑路径重写为物理路径,就不再引用路径,这会导致解析问题。
将路径中的“”替换为“\”或“%20”都没有帮助。
有没有人有提示,如何从包含空格的路径加载数据?
解决方案
推荐阅读
- git - 将 git 添加到 yocto 图像
- python - 如果Django中有多个相等的对象,如何只显示一个对象?
- javascript - 重新加载通过 XMTHTTPRequest 对象发布数据的页面
- python - Python:Python 中文本列表的 URL 列表(Excel)
- node.js - 没有蓝鸟的 Promise.try
- java - Selenium WebElement Extend - 添加属性父框架
- c++ - 将类复制到现有类 C++
- java - AmazonS3 SDK:列出对象时拒绝访问
- submit - p4可以部分提交成功吗
- swift - 视觉 - 已执行人脸识别,但无法获得正确的坐标