apache-spark - 在 apache spark 应用程序中访问外部缓存是否正确？

问题描述

我们有许多微服务（java），并且正在将数据写入 hazelcast 缓存以获得更好的性能。现在需要将相同的数据提供给 Spark 应用程序进行数据分析。我不确定这是否是在 apache spark 中访问外部缓存的正确设计方法。我无法进行数据库调用来获取数据，因为会有很多数据库命中可能会影响微服务（目前我们没有 http 缓存）。

我考虑将最新数据推送到 Kafka 并在 spark 中读取相同的数据。但是，数据（每条消息）可能很大（有时> 1 MB），这是不对的。

如果可以在apache spark中使用外部缓存，那么使用hazelcast客户端还是通过rest服务读取Hazelcast缓存数据更好？

另外，如果有任何其他推荐的方式在 Apache Spark 和微服务之间共享数据，请告诉我

请让我知道你的想法。提前致谢。

标签： apache-sparkdesign-patternshazelcast

apache-spark - 在 apache spark 应用程序中访问外部缓存是否正确？

问题描述

解决方案

推荐阅读