scala - 如何从 Spark DataFrame 中的 AWS S3 读取多个文件?
问题描述
我在 S3 存储桶中有一堆具有这种模式的文件
myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab
我想通过阅读所有这些文件来创建一个 Spark Dataframe。如何创建此正则表达式模式并读取文件?
这些文件有标题。我正在使用 Scala 来完成这项任务。
解决方案
只需指定一个 glob 模式,如下所示(假设它们在同一个文件夹中):
val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
推荐阅读
- javascript - 使用 javascript 异步函数通过 json-rpc 请求获取 Phantom 钱包余额的问题?
- html - rmd 希腊字母和口音没有正确编织
- asp.net - 在 Ubuntu 20.04 服务器上部署 Blazor Webassembly:无法连接
- c - 无效的读取大小 4
- hash - Java中的二次探测
- c++ - 布尔成员的 C++ 多线程访问
- javascript - 在 vue 中生成随机数据
- javascript - 为什么 chrome.action.onClicked.addListener 不起作用?
- python - 如何使伺服仅在指定的时间内运行?
- google-maps - 从 Google Maps Routing 获取数值(距离/持续时间)