apache-spark - 检查点灵活性 - SparkStreaming/Databricks 自动加载器
问题描述
我正在使用 spark 流库和/或 Databricks Autoloader 检查点来促进数据摄取。如下所示:
df = spark.readStream.format("cloudFiles") \
.option(<cloudFiles-option>, <option-value>) \
.load("/mnt/path/*/*/*")
df.writeStream.format("delta") \
.option("checkpointLocation", "/mnt/checkpoint") \
.start("/mnt/table")
我正在寻找两种类型的功能:
- “忽略”我的通配符源路径中的文件。有时我想将文件视为已处理,即使它们尚未处理。
- 从检查点删除以前处理的文件。有时我想重新处理一个文件。目前,我通过复制、重命名并再次将其放入源中来做到这一点——但这似乎很老套。
我还没有在文档中找到一种直接的方法来做到这一点,这种功能是否存在?有解决方法吗?
解决方案
推荐阅读
- html - 自动替换 HTML 页面中的所有死链接文本
- c++ - 智能指针的排序向量:神秘崩溃
- json - Angular 5 消耗由一个对象组成的 json
- kotlin - Kotlin 对 JDBI SqlObject 的支持给出了 UnsupportedOperationException
- javascript - 跨设备保持相同的 div 大小?
- click - 自动单击当前光标位置
- eclipse - KeyBinding 到 SWT 表或 JFace TableViewer
- python - 将具有可变长度的字典列表的字典转换为熊猫数据框
- swift - 我创建的 TableViewcontroller.xib 应该是初始控制器
- c# - 使用 Microsoft.Office.Interop.Excell dll 的 C# 应用程序在安装 Windows 受信任的应用程序并安装操作系统时抛出异常(错误:80080005)