首页 > 解决方案 > Spark Streaming 和 Kafka 分区问题

问题描述

我使用 Spark Streaming 创建了一个应用程序,它从 Kafka 接收一些文件的路径并打开它们以分析内容。我想使用 flatMap() 函数在 Spark 中并行读取这些文件,该函数返回每个文件中的元素。我使用带有 8 个分区的 Kafka 主题发送文件路径,每个批处理时间发送 8 个路径。默认情况下,Spark 内部有 8 个分区,但路径分布不均,因此有些任务读取的文件比其他任务多。如何平衡 8 个分区以便每个分区都有一个路径?

谢谢你。

标签: apache-sparkpyspark

解决方案


推荐阅读