首页 > 解决方案 > 如何使用火花从hdfs加载多个文件

问题描述

我尝试使用以下代码从 HDFS 加载多个文件:

val data = spark
.read
.option("header", "true")
.option("mergeSchema","true")
.format("parquet")
.load("data/day=1/att=2/*,data/day=1/att=3/*,data/day=1/att=4/*")

我得到一个例外:

    org.apache.spark.sql.AnalysisException: 
Path does not exist: hdfs://user/ccc/data/day=1/att=2/*,data/day=1/att=3/*,data/day=1/att=4/*

如何从 hdfs 加载多个文件?

标签: apache-spark

解决方案


您需要将每个文件名分别用引号引起来。以下应该有效:

val data = spark
.read
.option("header", "true")
.option("mergeSchema","true")
.format("parquet")
.load("data/day=1/att=2/*","data/day=1/att=3/*","data/day=1/att=4/*")

推荐阅读