首页 > 解决方案 > 在 Java 中使用 dataset.persisit() 和 dataset.unpersist()

问题描述

我有一个 Spark 数据集dataset。我需要.collectAsList()为每一列数据集做。我如何使用.persist().unpersist()避免大量的操作时间?

由于我是新手,我不确定如何使用持久功能。我是否需要将其分配给数据集,dataset=dataset.persist();或者只是dataset.persist()这样做?

标签: apache-sparkcachingpersist

解决方案


如果您只想缓存数据集,请使用 dataset.persist()。同样, dataset.unpersist() 从内存中删除它的所有块。


推荐阅读