apache-spark - 根据来自 Spark Stream 的输入运行 Spark Batch 任务
问题描述
我有下一个架构:我的 Web 应用程序将 JSON 消息推送到 Kafka 主题。一条消息代表一个 DSL 命令(一种截断的 SQL)。我有一个用于运行单个 DSL 命令的 Spark 任务 - 它从 JSON 读取命令,从 parquet 文件读取数据,根据命令应用聚合并将结果写入 parquet 文件。我想使用 Spark Streaming 来监听 Kafka 主题并在同一个集群上运行批处理任务。但我有几个担忧:
- 使用 Spark Streaming 在同一个集群上启动批处理任务是个好主意(至少我关心跟踪失败的任务)?
- 我意识到这种架构相对于在没有 Spark Streaming 的情况下为批处理任务运行 Spark 集群的优势 - 延迟更少,但不确定容错等陷阱。
解决方案
推荐阅读
- web-applications - 关于在内容库中缓存他人内容的规定
- networking - 基于 ip 的地理定位精度的时间依赖性
- rust - 如何在 Fn 特征绑定返回引用上定义生命周期?
- javascript - Zapier JS 条件语句
- python - 在 Jenkins 上运行 Docker 镜像——看不到打印语句
- android - Firebase - 在我的数组包含任何元素之前调用适配器并返回一个空的 RecyclerView
- javascript - 如何将图像添加到锁定的 html 代码
- javascript - Firebase 电子邮件/密码验证未注册用户
- reactjs - 自定义 npm 库返回一个意外令牌,其中 JSX 在 create-react-app 项目中返回
- ssas - SSAS,计算,性别标准化率