apache-spark - 如果文件夹为空,如何正确读取据称包含 Spark 中 Parquet 文件的文件夹
问题描述
当我尝试读取一个据称包含 Parquet 格式文件的文件夹时,如果有数据,一切正常,如果没有数据,我在第一行收到错误,后续代码不会执行
val hdfsData: DataFrame = spark.sqlContext.read.parquet(hdfsPath)
hdfsData.rdd.isEmpty() match ....
....
错误:org.apache.spark.sql.AnalysisException:无法推断 Parquet 的架构。必须手动指定。
处理这种情况的正确方法是什么。
解决方案
遇到了同样的问题,我用简单的尝试/成功/失败处理了它
val acc:DataFrame = session.createDataset(List("foo", "bar")).toDF()
val tryDf:Try[DataFrame] =
Try(
session.read.parquet("s3://path-to-bucket/path-to-folder-with-no-parquet-files-under-it/")
)
val resultDf:DataFrame = tryDf match {
case Success(df) => acc.union(df)
case Failure(f) => {
println(s"@@ handled ${ f }") // => @@ handled org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
acc
}
}
println(s"resultDf.count ${ resultDf.count }") // => 2```
推荐阅读
- mysql - 实体继承模型中的MySql选择查询,如何?
- javascript - 一些特定的架构或设计模式?
- html - PrimeNG 组件菜单步骤,我如何使用 ui-steps-incomplete
- java - 检测与线的碰撞并限制移动
- linux - Linux SHELL 脚本,读取每一行的不同列数
- python - 使用python将未训练的对象分类为机器学习中的未知对象
- javascript - 使用观察者设计模式的理由
- android - 无法解决:com.google.android.gms:play-services
- pandas - Pandas - 根据值过滤掉列
- javascript - 如何在反应原生的onpress事件上调用两个函数?