scala - 我可以从 scala-spark 的目录中只读取想要的文件吗
问题描述
我想读取一些名称在数组中的特定文件。我可以仅在这些文件中读取和存储值吗?我是 scala 和 spark 的新手,请帮帮我。
整个文件
val status = fs.listStatus(new Path("..../sample/t1988"))
status.foreach(x=> println(x.getPath))
file:/......../sample/t1988/01001099999.csv
file:/......../sample/t1988/01001399999.csv
file:/......../sample/t1988/01001499999.csv
等等
我要读取的文件名在一个数组中
arr: Array[Any] = Array(42044099999, 42045099999, 42060099999, 42063099999, 42075099999, 42077099999, 42079099999, 42080199999
如何仅读取上述文件的内容
解决方案
如果您有一个包含 csv 文件路径的数组files
,则可以使用 Spark 读取它们,如下所示:
val df = spark.read.format("csv").load(files:_*)
推荐阅读
- production-environment - 使用 dotMemory 创建内存快照会暂停应用程序吗?
- java - 如何在 Spring Boot 错误控制器中保留默认变量
- docker - 我如何让 API 服务等到 Liquibase 服务将所有更改应用于 DB
- python - 姜戈 | 从外键聚合值
- python - 解析具有多个标签、属性和值的 XML 文件
- javascript - ReactJS:导入组件时出现material-ui错误
- python - Python:允许作为类创建的单独进程读取/写入变量
- python - 应用变换功能时如何按列保持熊猫分组?
- ruby-on-rails - 是否可以在 Rails 中验证 grouped_collection_select?
- ios - 当应用程序被用户杀死时如何更新iOS应用程序上的数据?