apache-spark - 如何将数据从hive导出到kafka
问题描述
我需要根据另一个 Kafka 主题中的一些事件将数据从 Hive 导出到 Kafka 主题。我知道我可以使用 HQL 从 Spark 作业中的 hive 读取数据并将其从 Spark 写入 Kafka,但是有更好的方法吗?
解决方案
这可以使用非结构化流式传输来实现。下面提到的步骤:
创建一个连接到所需主题并获取所需数据导出信息的 Spark Streaming Job。
从流中,收集并在驱动程序变量中获取您的数据导出要求。
使用指定条件创建数据框
使用 kafkaUtils 将数据框写入所需的主题。
根据您的数据量和 kafka 写入吞吐量提供轮询间隔。
推荐阅读
- vuejs2 - 在 vue 和 nuxt js 中使用多个道具创建一个带有子项的全局组件
- typescript - 打字稿映射类型
- c# - Xamarin.iOS 上的 Swift 框架 - Foundation.MonoTouchException 已被抛出
- python - 如何将标记文本从简单的字符串添加到元素?
- powershell - 是否可以为单个存储库禁用 posh-git?
- python-3.x - 将列的当前值与熊猫数据框中的前一个值进行比较并将结果保存到其他列
- python - opencv python:为什么要这样
- google-apps-script - 如何在 Google Doc Add-on 的 GAS 项目中按名称获取 namedRanges
- node.js - 使用证书中的公钥将引发错误
- machine-learning - h2o: Flow UI, ROC with drf without fold