pyspark - Spark Streaming 调度最佳实践

问题描述

我们有一个 Spark Streaming 作业，每 30 分钟运行一次，需要 15 秒才能完成。在这种情况下建议的最佳做法是什么。我想我可以安排 AWS 数据管道每 30 分钟运行一次，以便 EMR 在 15 秒后终止并重新创建。这是推荐的方法吗？

标签： pysparkspark-streamingamazon-emramazon-kinesisaws-data-pipeline

对于需要15 seconds在 EMR 上运行的作业是浪费时间和资源，您可能会等待几分钟让 EMR 集群启动。

AWS Data Pipeline 或 AWS Batch 仅在您有长时间运行的作业时才有意义。

首先，确保您确实需要 Spark，因为根据您的描述，这可能是一种矫枉过正。

具有 CloudWatch 事件调度的 Lambda 可能是您在无需管理基础设施的情况下完成如此快速的工作所需要的全部。

users : User[] = []; this.userService.getUsersList()corda - Corda：corda-zulu-5.0-snapshot 的 Github 路径 angular - 如何修复 415 / 不支持的媒体类型错误？ python - 使用图像识别 (CNN) 玩 Flappy Bird 可行吗？（没有 Q 学习或遗传算法或其他任何东西） neural-network - 为什么在达到完美训练拟合后训练准确率会下降？ java - Android getActivity(), getApplicationContext() in Fragment ckeditor - CKEditor - extraAllowedContent / ACF 的问题 c++ - C ++ WinRT - 带有USB适配器的无线游戏控制器上的RawGameController总是检测到ON？ ios - 如何使用 Xcode / Simulator 从 cordova 8 应用程序创建兼容的 iPhone 3rd Generation Screenshots python - 名词短语合并后如何获得句子的正确 pos 标签？

pyspark - Spark Streaming 调度最佳实践

问题描述

解决方案

推荐阅读