首页 > 解决方案 > 增加 Spark Structured Streaming 作业的输出大小

问题描述

上下文:我有一个 Spark Structured Streaming 作业,其中 Kafka 作为源,S3 作为接收器。S3 中的输出再次作为其他 MapReduce 作业的输入。因此,我想增加 S3 上文件的输出大小,以便 MapReduce 作业有效地工作。目前,由于输入大小较小,MapReduce 作业需要很长时间才能完成。

有没有办法将流作业配置为等待至少“X”条记录来处理?

标签: apache-sparkapache-kafkaspark-structured-streaming

解决方案


可能您想等待微批量触发,直到源中提供足够的数据。您可以使用minOffsetsPerTrigger选项等待 kafka 中可用的足够数据。确保根据您的应用程序需要设置足够的 maxTriggerDelay时间。


推荐阅读