apache-spark - 增加 Spark Structured Streaming 作业的输出大小
问题描述
上下文:我有一个 Spark Structured Streaming 作业,其中 Kafka 作为源,S3 作为接收器。S3 中的输出再次作为其他 MapReduce 作业的输入。因此,我想增加 S3 上文件的输出大小,以便 MapReduce 作业有效地工作。目前,由于输入大小较小,MapReduce 作业需要很长时间才能完成。
有没有办法将流作业配置为等待至少“X”条记录来处理?
解决方案
可能您想等待微批量触发,直到源中提供足够的数据。您可以使用minOffsetsPerTrigger选项等待 kafka 中可用的足够数据。确保根据您的应用程序需要设置足够的 maxTriggerDelay时间。
推荐阅读
- json - 如何在 Postgres 中调用带有 json 参数的函数
- c# - How to concatenate a property expression and a lambda using Select?
- tensorflow - 启动 Tensorboard What-If 工具
- android - 如何使用数组/位图控制图像的大小?
- c# - 创建具有唯一用户名的新 AD 用户
- jenkins - 使用 Jenkins 构建 SSIS 2016
- batch-file - 批量复制文件到 Firefox 用户配置文件?
- mysql - Ubuntu升级后Golang MySQL连接超时
- java - 各种切入点表达式范围意外触发多个通知调用
- c - 删除字符串终止符并在 C 中添加换行符