apache-spark - 如何并行运行 Spark.read 方法

首页 > 解决方案 > 如何并行运行 Spark.read 方法

问题描述

我想使用 spark.read 从不同来源加载数据，但想并行运行 spark.read 以便可以一次加载所有数据。在给定的火花会话中是否有可能？

标签： apache-sparkpysparkapache-spark-sql

解决方案

例如，如果您正在读取文件，您可以拥有多个文件，以便可以并行读取，或者您必须拥有可拆分的文件类型，例如 Parquet。

TLDR：如果你想并行化它取决于你的数据源

推荐阅读