apache-spark - 如何并行运行 Spark.read 方法
问题描述
我想使用 spark.read 从不同来源加载数据,但想并行运行 spark.read 以便可以一次加载所有数据。在给定的火花会话中是否有可能?
解决方案
例如,如果您正在读取文件,您可以拥有多个文件,以便可以并行读取,或者您必须拥有可拆分的文件类型,例如 Parquet。
TLDR:如果你想并行化它取决于你的数据源
推荐阅读
- selenium - 从 instagram 抓取数据是否合法?
- java - 单击按钮时移动卡住
- java - 我是否犯了一个错误,因为在声明变量时?
- kotlin - 如果初始化了其中的lateinit var,如何检查伴随对象的外部
- ruby-on-rails - 如何为 ActiveStorage 磁盘服务设置缓存控制?
- laravel - 按特色 DESC 和 Rand() 排序 - Laravel
- java - 如何在没有副本的情况下将 MappedByteBuffer 写入套接字输出流(服务器到客户端)
- c# - 如何将函数调用到使用存在函数的 Linq 列表查询
- c# - Unity:raycast groundcheck 2d 不起作用
- c# - 如何在 Unity 的 2D 应用程序中获得空间声音?