apache-spark - 火花结构化流的 LSHModel
问题描述
显然,来自 spark 2.4 的 MLLib 的 LSHModel 支持 Spark Structured Streaming ( https://issues.apache.org/jira/browse/SPARK-24465 )。
但是,我不清楚如何。例如,可以将approxSimilarityJoin
fromMinHashLSH
转换 ( https://spark.apache.org/docs/latest/ml-features#lsh-operations ) 直接应用于流式数据帧?
我在网上找不到更多关于它的信息。有人可以帮助我吗?
解决方案
你需要
- 将经过训练的模型(例如
modelFitted
)保存在您的流式处理作业可访问的某个位置。这是在您的流媒体作业之外完成的。
modelFitted.write.overwrite().save("/path/to/model/location")
- 然后在您的结构化流式处理作业中加载此模型
import org.apache.spark.ml._
val model = PipelineModel.read.load("/path/to/model/location")
- 将此模型应用于您的流数据帧(例如
df
)
model.transform(df)
// in your case you may work with two streaming Dataframes to apply `approxSimilarityJoin`.
可能需要将流数据帧转换为模型预测中使用的正确格式。
推荐阅读
- powershell - 你如何在powershell中解密securestring
- swift - 如何将 Firebase 时间戳占位符转换为 Swift 中的时间戳?
- php - php twilio SMS、CALLING 等中的语法错误意外“使用”(t_use)
- r - pdfpages Latex 包未找到
- java - 使用导航组件而不使用 ViewModel 时如何在后台堆栈中保留 Fragment 实例?
- flutter - 在颤动中对列表进行排序,其中 0 到底部
- mysql - 在 Docker 上的 Mysql 中启用 local-infile
- google-cloud-storage - 如何最好地将 HTML 与字符串一起存储在 Cloud Storage 中
- vue.js - Vue Cli 4.4.6 是否将 ES2020 脚手架到项目中
- javascript - 一旦命令执行者的命令被编辑,机器人如何编辑它的消息?