首页 > 解决方案 > 使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名

问题描述

有人可以指导我如何使用 scala 从我的 HDFS 目录中只获取 .csv 文件。我正在尝试从我的 hdfs 位置获取所有 csv 文件名并编写以下代码。

    var Fsys1 = FileSystem.get(sparksession.sparkContext.hadoopConfiguration)
    var FileNames = Fsys1 .listStatus(new  Path("hdfspath").filter(_.isFile).map(_.getPath.getName).toList

它给了我所有的文件名,但我只想获取 .csv 文件。

标签: scalaapache-spark

解决方案


正如评论中提到的@pasha701。您可以过滤以“.csv”结尾的文件

.filter(_.toLowerCase.endsWith(".csv"))


推荐阅读