scala - 使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名
问题描述
有人可以指导我如何使用 scala 从我的 HDFS 目录中只获取 .csv 文件。我正在尝试从我的 hdfs 位置获取所有 csv 文件名并编写以下代码。
var Fsys1 = FileSystem.get(sparksession.sparkContext.hadoopConfiguration)
var FileNames = Fsys1 .listStatus(new Path("hdfspath").filter(_.isFile).map(_.getPath.getName).toList
它给了我所有的文件名,但我只想获取 .csv 文件。
解决方案
正如评论中提到的@pasha701。您可以过滤以“.csv”结尾的文件
.filter(_.toLowerCase.endsWith(".csv"))
推荐阅读
- javascript - 请求数据时从对象解析属性
- java - JDBC API DataBaseMetadata.getTables 在 Oracle 18c 中失败
- mysql - 在 MySQL 中获取状态更改时的开始和结束时间
- c# - 一次调用 IS 算子覆盖所有接口子类型
- html - 如何在模态中创建列?
- scheme - 如何在方案中将两个多项式列表相乘
- tensorflow-serving - 给定一个张量和一个图,TF Serving 如何知道如何处理它们
- java - 使用 Spring Boot Live Reload 时如何阻止 MySQL 连接不足?CannotGetJdbcConnectionException:“连接太多”
- java - 在带有 XML 文件的 javaFX 的列表视图中有两个按钮
- java - 我如何将文件从 javaFX 应用程序上传到服务器