apache-spark - 在 Java 中使用 dataset.persisit() 和 dataset.unpersist()
问题描述
我有一个 Spark 数据集dataset
。我需要.collectAsList()
为每一列数据集做。我如何使用.persist()
和.unpersist()
避免大量的操作时间?
由于我是新手,我不确定如何使用持久功能。我是否需要将其分配给数据集,dataset=dataset.persist();
或者只是dataset.persist()
这样做?
解决方案
如果您只想缓存数据集,请使用 dataset.persist()。同样, dataset.unpersist() 从内存中删除它的所有块。
推荐阅读
- amazon-web-services - 就像 AWS Fargate 任务一样,在 Azure 上使用相同的 docker 映像运行多个容器实例
- java - h2 中的 onetoone 关系不会为一侧生成 id
- javascript - 我可以更改grapesjs中的工具栏语言吗?
- angular - Stencil 调用 Ionic Angular 子组件函数或生命周期钩子
- python - pyparsing:根据条件使用字符
- html - 如何更改各种 HTML 元素的强调色
- duplicates - 防止 Moodle 嵌入式答案中的重复(完形填空)
- java - Spring从GET url查询中设置@PostMapping字段?
- c - 我该如何解决这个错误?切换语句
- java - SpringBootTest 服务测试 - MockitoAnnotations Giving NoSuchMethodError: openMocks (java.lang.AutoCloseable)