pyspark - 是否可以在 2 个以上的流之间共享 foreachBatch 的 batchId?
问题描述
我面临的问题是我的流程依赖于 batchId 作为对管道第二阶段准备好的某种控制。所以只有第一阶段(批次)完成后才会进入第二阶段。
我想确保在需要时通过将更多流附加到同一数据源来提高速度。<<-- (这就是为什么这不是重复的帖子)
我还想保证万一出现问题,流可以从它停止的地方继续。
解决方案
推荐阅读
- c# - Windows进程退出后如何将参数传递给动态函数?
- c# - C#:当我想通过 SaveFileDialog 保存文件时发生错误?
- php - Bootstrap 手风琴点击事件无法与动态数据一起正常工作
- python - 带有速卖通交易历史的硒
- c# - 有没有办法在 Unity 中实现触摸并按住
- php - HTML/HP:Emogrifier 将 {} 变成 %7B 和 %7D
- laravel - 在有限的生命周期内使用 Passport 发行访问令牌
- sql - 如何在不使用 INSERT 函数的情况下创建 SQL 表?
- c++ - 无法使用 CMake 编译 wxWidgets 最小示例
- postman - Postman 测试脚本:什么版本的 JavaScript