apache-spark - 如何在一定时间内运行 Spark 结构化流式传输作业？

首页 > 解决方案 > 如何在一定时间内运行 Spark 结构化流式传输作业？

问题描述

我想每天安排一个 Spark 结构化流式传输作业。作业本身必须运行一定小时数然后停止。那么，我怎样才能指定这样的持续时间呢？

标签： apache-sparkpysparkdatabricks

解决方案

您需要每天使用 databricks 调度程序安排一次作业，然后在代码中为您的查询添加超时：

query = (df.writeStream...)

  query.awaitTermination(timeoutInSeconds)
  query.stop()

推荐阅读