apache-spark - 有没有办法在加载时缓存?
问题描述
sparksession.read() 是否有一个选项可以在加载时缓存?我正在从 s3 读取 xml 文件,它首先扫描文件以派生模式。由于它无论如何都在读取文件,我宁愿在那个时候加载,以便它只从 s3 读取所有文件一次。
有没有办法做到这一点?
我已经搜索了“spark”、“cache”、“load”和“read”的每个组合,并且至少深入了两页。
sparkSession.read().format("com.databricks.spark.xml")
.load("s3a://<your path here>")
解决方案
推荐阅读
- c - WSL(ubuntu) printf 只输出相同的文本
- android - 如何使侧面导航栏与playstore相同
- c# - 使用 HotChocolate 按 ObjectId 类型过滤
- python - “此模块需要 ovirtsdk4 版本 4.4.0 或更高版本”错误消息
- android - 某些应用程序缺少自动撤销权限设置面板(Android 11 API/系统)
- redux - dispatch 不是函数 Next.js +thunk 登录后加载数据用户
- html - 为什么我的页眉元素没有覆盖页面的整个宽度并在顶部留下空隙?
- javascript - 如何循环并将对象数组转换为具有键值对的对象
- kotlin - 如何从 Kotlin 中的 Long 列表创建新的字符串列表?(如果可能的话,内联)
- c# - 自定义菜单不可点击