apache-spark - 使用与其他 pyspark 进程共享的 pyspark 写入缓存

首页 > 解决方案 > 使用与其他 pyspark 进程共享的 pyspark 写入缓存

问题描述

我有一个pyspark代码，它从持久存储（HDFS）中读取并在内存中创建一个 spark 数据帧。我相信它被称为缓存。

我需要的是：每天晚上pyspark应该运行并刷新缓存，以便其他pyspark脚本可以直接从缓存中读取，而无需进入持久存储。

我知道可以使用 Redis 来做到这一点，但还有哪些其他选择？卡夫卡？

标签： apache-sparkredis

解决方案

推荐阅读