首页 > 解决方案 > 应用转换后需要将数据从 Hadoop 加载到 Druid。如果我使用 Spark,我们可以将数据从 Spark RDD 或数据帧直接加载到 Druid 吗?

问题描述

我有数据存在于配置单元表中。我想在将数据加载到德鲁伊之前应用一堆转换。所以有一些方法,但我不确定这些。1. 应用转换后保存该表,然后通过 hadoop 摄取方法批量加载。但我想避免在服务器上进行额外的写入。2.使用宁静。但它适用于 Spark Streaming,仅适用于 Scala 和 Java,不适用于 Python。我说得对吗?

还有其他方法可以实现吗?

标签: apache-sparkhadoopdruid

解决方案


使用rovio-ingest,您可以使用 Spark 将 Hive 表批量摄取到 Druid。这避免了额外的写入。


推荐阅读