apache-spark - 使用与其他 pyspark 进程共享的 pyspark 写入缓存
问题描述
我有一个pyspark代码,它从持久存储(HDFS)中读取并在内存中创建一个 spark 数据帧。我相信它被称为缓存。
我需要的是:每天晚上pyspark应该运行并刷新缓存,以便其他pyspark脚本可以直接从缓存中读取,而无需进入持久存储。
我知道可以使用 Redis 来做到这一点,但还有哪些其他选择?卡夫卡?
解决方案
推荐阅读
- php - 用户信息未发送到 MYSQL 数据库
- javascript - 使用从父级传递的 prop 对象初始化数据属性对象
- javascript - 如何在 React 输入框中制作可编辑的前缀值?
- javascript - 排除的文件没有被跳过
- java - Twilio:如果未接听,出站拨号将转到语音信箱
- kubernetes-ingress - Nginx Ingress - 基于路径使用 https 作为后端
- mongodb - 如何在排序集合中的_id之后获取n个文档
- hash - 使用两个不同的种子来避免哈希冲突?
- python - 如何通过Python在excel单元格中只读取没有删除线的文本?
- autohotkey - 使用 Autohotkey 在 Hyper-V 的虚拟机连接中捕获密钥