首页 > 解决方案 > 如何检查 HDFS 文件夹是否包含 CSV parquet 文件?

问题描述

如何以编程方式检查何时使用

spark.read.csv(path) 

或者

spark.read.parquet(path)

无需用户说明路径是否包含镶木地板或文本文件。路径应该在 HDFS 上。

标签: scalaapache-sparkhdfs

解决方案


我会利用 scalaTry并尝试使用函数一一导入文件类型,orElse而不是以编程方式检查它们的扩展名 -

def readCsv(): Try[DataFrame] = ???
def readParquet(): Try[DataFrame] = ???

val dfTry: Try[DataFrame] = readCsv().orElse(readParquet())

readParquet()如果您有更多镶木地板读取请求,您可以先拨打电话。


推荐阅读