首页 > 解决方案 > 如何在一定时间内运行 Spark 结构化流式传输作业?

问题描述

我想每天安排一个 Spark 结构化流式传输作业。作业本身必须运行一定小时数然后停止。那么,我怎样才能指定这样的持续时间呢?

标签: apache-sparkpysparkdatabricks

解决方案


您需要每天使用 databricks 调度程序安排一次作业,然后在代码中为您的查询添加超时:

query = (df.writeStream...)

  query.awaitTermination(timeoutInSeconds)
  query.stop()

推荐阅读