首页 > 解决方案 > 使用与其他 pyspark 进程共享的 pyspark 写入缓存

问题描述

我有一个pyspark代码,它从持久存储(HDFS)中读取并在内存中创建一个 spark 数据帧。我相信它被称为缓存。

我需要的是:每天晚上pyspark应该运行并刷新缓存,以便其他pyspark脚本可以直接从缓存中读取,而无需进入持久存储。

我知道可以使用 Redis 来做到这一点,但还有哪些其他选择?卡夫卡?

标签: apache-sparkredis

解决方案


推荐阅读