apache-spark - 如何在 Spark 结构化流中刷新数据帧
问题描述
我们正在从 spark1.6 迁移到 spark2.4。在这个过程中,我计划修改我们的一个流代码。我打算使用结构化流。
在现有的流式传输中,我们将流式传输 DF(将 RDD 转换为 DF)加入到黑名单文件(同样是 DF)。我们每天早上 6 点刷新黑名单 DF。但是我们如何在 Spark 结构化流中刷新 DF。我正在使用以下逻辑使用 RDD 在 1.6 中刷新 DF。但我想知道我是否可以在不将其转换为 RDD 的情况下从 DF 获得火花结构化流的批处理时间。
foreachRDD( (rdd, time) -> {
...
...
if (nextRefreshTime > time) {
//refresh the DF
// set nextRefreshTime = next day 6AM
}
})
谢谢
解决方案
推荐阅读
- javascript - axios get requests and displaying in table
- r - In R how can I fill downwards for all rows which match one variable and don't match another
- javascript - 如何使用设置 JSON 文件在另一个文件中使用?
- c# - 生成 C++ 线程时,iPhone XS 在 pthread_tsd_cleanup 上崩溃
- reactjs - 是否可以从 prod bundle.js 模型开始对 ReactJS 组件进行本地逆向工程,如果可以,如何?
- python - Python/SodaPY API 返回不可散列的类型:dict
- xml - 带有循环和条件的 XML 文字
- android - 另一个文本视图的右侧和中心垂直文本
- javascript - 使用纯 JavaScript [无 jQuery] 显示更多/显示更少的多个元素的切换按钮
- javascript - 如何让用户登录php网站后,只能查看他的个人资料