apache-spark - 在 apache spark 应用程序中访问外部缓存是否正确?
问题描述
我们有许多微服务(java),并且正在将数据写入 hazelcast 缓存以获得更好的性能。现在需要将相同的数据提供给 Spark 应用程序进行数据分析。我不确定这是否是在 apache spark 中访问外部缓存的正确设计方法。我无法进行数据库调用来获取数据,因为会有很多数据库命中可能会影响微服务(目前我们没有 http 缓存)。
我考虑将最新数据推送到 Kafka 并在 spark 中读取相同的数据。但是,数据(每条消息)可能很大(有时> 1 MB),这是不对的。
如果可以在apache spark中使用外部缓存,那么使用hazelcast客户端还是通过rest服务读取Hazelcast缓存数据更好?
另外,如果有任何其他推荐的方式在 Apache Spark 和微服务之间共享数据,请告诉我
请让我知道你的想法。提前致谢。