apache-spark - PySpark S3 文件读取性能考虑

我是 pyspark 的新手。只是想了解我应该将多大的文件写入 S3，以便 Spark 可以读取这些文件并进行处理。

我有大约 400 到 500GB 的总数据，我需要先使用一些工具将它们上传到 S3。只是想了解每个文件在 S3 中应该有多大，以便 Spark 可以有效地读取和处理。spark 将如何将 S3 文件数据分发给多个执行器？

有大神阅读链接吗？

谢谢

标签： apache-sparkamazon-s3pyspark