apache-spark - 应用转换后需要将数据从 Hadoop 加载到 Druid。如果我使用 Spark，我们可以将数据从 Spark RDD 或数据帧直接加载到 Druid 吗？

首页 > 解决方案 > 应用转换后需要将数据从 Hadoop 加载到 Druid。如果我使用 Spark，我们可以将数据从 Spark RDD 或数据帧直接加载到 Druid 吗？

问题描述

我有数据存在于配置单元表中。我想在将数据加载到德鲁伊之前应用一堆转换。所以有一些方法，但我不确定这些。1. 应用转换后保存该表，然后通过 hadoop 摄取方法批量加载。但我想避免在服务器上进行额外的写入。2.使用宁静。但它适用于 Spark Streaming，仅适用于 Scala 和 Java，不适用于 Python。我说得对吗？

还有其他方法可以实现吗？

标签： apache-sparkhadoopdruid

解决方案

使用rovio-ingest，您可以使用 Spark 将 Hive 表批量摄取到 Druid。这避免了额外的写入。

apache-spark - 应用转换后需要将数据从 Hadoop 加载到 Druid。如果我使用 Spark，我们可以将数据从 Spark RDD 或数据帧直接加载到 Druid 吗？

问题描述

解决方案

推荐阅读