apache-spark - 增加 Spark Structured Streaming 作业的输出大小

问题描述

上下文：我有一个 Spark Structured Streaming 作业，其中 Kafka 作为源，S3 作为接收器。S3 中的输出再次作为其他 MapReduce 作业的输入。因此，我想增加 S3 上文件的输出大小，以便 MapReduce 作业有效地工作。目前，由于输入大小较小，MapReduce 作业需要很长时间才能完成。

有没有办法将流作业配置为等待至少“X”条记录来处理？

标签： apache-sparkapache-kafkaspark-structured-streaming

可能您想等待微批量触发，直到源中提供足够的数据。您可以使用minOffsetsPerTrigger选项等待 kafka 中可用的足够数据。确保根据您的应用程序需要设置足够的 maxTriggerDelay时间。

apache-spark - 增加 Spark Structured Streaming 作业的输出大小

问题描述

解决方案

推荐阅读