mongodb - 带火花流的动态过滤器
问题描述
我将火花流用于以下用例:
我有一个卡夫卡主题 - 数据。在本主题中,我正在使用结构化 Spark 流传输实时数据并对其应用一些过滤器。如果应用过滤器后返回的行数大于 1,则输出为 1,否则输出为 0 以及查询中的其他一些数据。
简而言之,假设我正在使用 -
df.filter($A < 10)
其中“A”、“<”和“10”是动态的并且来自某个数据库。实际上,这些值来自我正在使用并更新 db 中的这些值的 kafka 主题。所以查询不是静态的,会在一段时间后更新。
此外,我将不得不对流的结果应用一些布尔阿尔及利亚运算符。例如 -
df.filter($A < 10) AND df.filter($B = 1) OR df.filter($C > 1)... and so on
在这里,每个原子操作(如 df.filter($A < 10))都返回 0 或 1,如上所述。最终结果保存到 mongo。
我想知道这两个问题是否可以使用结构化火花流来解决。如果没有,那么使用 RDD 吗?
否则,有人可以提出任何建议吗?
解决方案
推荐阅读
- visual-studio - 在 Visual Studio 中调试时如何将变量设置为 null
- ajax - 无法通过 Ajax laravel 8 保存数据
- django - 如何在 ManyToManyField 中显示数字显示为数字但不是可编辑的
- python - 优化 pandas 中的字符串操作
- java - 无法运行我现有的 spring mvc 项目
- scala - Scala REPL 中的 Scala 数组函数
- python - 解决Windows上python环境中的错误
- java - selenium web 驱动程序表单提交
- asp.net - EMPEntities 不包含“添加”的定义,并且没有可访问的扩展方法“添加”接受“EMPEntities”类型的第一个参数
- python - 日历在 python selenium 中不起作用