apache-spark - 将 Spark SQL 数据帧转换为结构化流数据帧
问题描述
我想将 Java Spark SQL DataFrames 转换为 Structured Streaming DataFrames,这样每个批次都将合并到 Structured Streaming DataFrames。因此,我可以在从批处理源获得的 DataFrame 上使用 Spark 结构化流式处理功能(例如连续作业)。
解决方案
与Java无关,标题有点偏离。
如您所述,不支持标准操作。
查看文档中的foreachBatch
实现。请参阅https://spark.apache.org/docs/3.1.2/structured-streaming-programming-guide.html#foreachbatch 并在其中读取静态 DF 并执行 UNION。
推荐阅读
- amazon-web-services - 命令从 s3 获取带有前缀和最后更新的文件?
- javascript - Mongoose 更新不在架构中的属性
- visual-studio-2019 - Visual Studio 强制 ASPNETCORE_ENVIRONMENT 值
- .net - System.Data.SqlClient.SqlException 从字符串.net ADO 转换日期和/或时间时转换失败
- php - PHP 数组和使用变量变量来选择正确的一个
- oauth - 在 Jupyter Lab 中对 Google Drive 进行身份验证
- python - 四分位数失败的 Python 脚本
- flutter - 在哪里放置一个函数来触发颤振/飞镖应用程序的退出/停止/关闭事件?
- python - 如何从文件中解压值
- php - 无法将 .GLB 上传到 Wordpress 媒体位置