首页 > 解决方案 > 有没有办法在加载时缓存?

问题描述

sparksession.read() 是否有一个选项可以在加载时缓存?我正在从 s3 读取 xml 文件,它首先扫描文件以派生模式。由于它无论如何都在读取文件,我宁愿在那个时候加载,以便它只从 s3 读取所有文件一次。

有没有办法做到这一点?

我已经搜索了“spark”、“cache”、“load”和“read”的每个组合,并且至少深入了两页。

sparkSession.read().format("com.databricks.spark.xml")
  .load("s3a://<your path here>")

标签: apache-sparkapache-spark-sql

解决方案


推荐阅读