首页 > 解决方案 > 如何将数据从hive导出到kafka

问题描述

我需要根据另一个 Kafka 主题中的一些事件将数据从 Hive 导出到 Kafka 主题。我知道我可以使用 HQL 从 Spark 作业中的 hive 读取数据并将其从 Spark 写入 Kafka,但是有更好的方法吗?

标签: apache-sparkhiveapache-kafka

解决方案


这可以使用非结构化流式传输来实现。下面提到的步骤:

  1. 创建一个连接到所需主题并获取所需数据导出信息的 Spark Streaming Job。

  2. 从流中,收集并在驱动程序变量中获取您的数据导出要求。

  3. 使用指定条件创建数据框

  4. 使用 kafkaUtils 将数据框写入所需的主题。

  5. 根据您的数据量和 kafka 写入吞吐量提供轮询间隔。


推荐阅读