首页 > 解决方案 > 检查点灵活性 - SparkStreaming/Databricks 自动加载器

问题描述

我正在使用 spark 流库和/或 Databricks Autoloader 检查点来促进数据摄取。如下所示:

df = spark.readStream.format("cloudFiles") \
  .option(<cloudFiles-option>, <option-value>) \
  .load("/mnt/path/*/*/*")

df.writeStream.format("delta") \
  .option("checkpointLocation", "/mnt/checkpoint") \
  .start("/mnt/table")

我正在寻找两种类型的功能:

  1. “忽略”我的通配符源路径中的文件。有时我想将文件视为已处理,即使它们尚未处理。
  2. 从检查点删除以前处理的文件。有时我想重新处理一个文件。目前,我通过复制、重命名并再次将其放入源中来做到这一点——但这似乎很老套。

我还没有在文档中找到一种直接的方法来做到这一点,这种功能是否存在?有解决方法吗?

标签: apache-sparkpysparkspark-streamingdatabricksazure-databricks

解决方案


推荐阅读