apache-spark - 如何在一定时间内运行 Spark 结构化流式传输作业?
问题描述
我想每天安排一个 Spark 结构化流式传输作业。作业本身必须运行一定小时数然后停止。那么,我怎样才能指定这样的持续时间呢?
解决方案
您需要每天使用 databricks 调度程序安排一次作业,然后在代码中为您的查询添加超时:
query = (df.writeStream...)
query.awaitTermination(timeoutInSeconds)
query.stop()