首页 > 解决方案 > 如何并行运行 Spark.read 方法

问题描述

我想使用 spark.read 从不同来源加载数据,但想并行运行 spark.read 以便可以一次加载所有数据。在给定的火花会话中是否有可能?

标签: apache-sparkpysparkapache-spark-sql

解决方案


例如,如果您正在读取文件,您可以拥有多个文件,以便可以并行读取,或者您必须拥有可拆分的文件类型,例如 Parquet。

TLDR:如果你想并行化它取决于你的数据源


推荐阅读