首页 > 解决方案 > Kafka 分区+Spark 流式上下文

问题描述

场景 - 我有 1 个主题和 2 个具有不同数据集集合的分区说 A,BI 知道 dstream 可以在分区级别和主题级别使用消息。查询 - 我们可以为每个分区使用两个不同的流上下文,还是为整个主题使用一个流上下文,然后过滤分区级别的数据?我担心增加流上下文的数量时的性能。

标签: apache-sparkapache-kafkaspark-streaming

解决方案


从文档中引用。

简化的并行性:无需创建多个输入 Kafka 流并将它们合并。使用 directStream,Spark Streaming 将创建与要使用的 Kafka 分区一样多的 RDD 分区,这些分区都将从 Kafka 并行读取数据。所以Kafka和RDD分区之间是一一对应的,更容易理解和调优。

因此,如果您使用基于 Direct Stream 的 Spark Streaming 消费者,它应该处理并行性。


推荐阅读