apache-spark - 应用转换后需要将数据从 Hadoop 加载到 Druid。如果我使用 Spark,我们可以将数据从 Spark RDD 或数据帧直接加载到 Druid 吗?
问题描述
我有数据存在于配置单元表中。我想在将数据加载到德鲁伊之前应用一堆转换。所以有一些方法,但我不确定这些。1. 应用转换后保存该表,然后通过 hadoop 摄取方法批量加载。但我想避免在服务器上进行额外的写入。2.使用宁静。但它适用于 Spark Streaming,仅适用于 Scala 和 Java,不适用于 Python。我说得对吗?
还有其他方法可以实现吗?
解决方案
使用rovio-ingest,您可以使用 Spark 将 Hive 表批量摄取到 Druid。这避免了额外的写入。
推荐阅读
- spring - 使用 Facebook 的 Spring Boot 登录会抛出 authorization_request_not_found
- python - reversed_array = 0 抛出错误显示语法问题
- javascript - Summernote - 订单列表和未排序列表不起作用
- c++ - MSVC错误?未找到受约束函数的重载成员
- swift - 删除所有未来出现的 Realm 对象的正确方法是什么?
- sql - 如何正确地将美元符号添加到字符串中?
- javascript - Javascript递归数独求解器
- node.js - 在生产 MERN 堆栈中找不到模块 './[filename].jpeg'
- jspdf - `setFontType` 命令发生了什么?
- reactjs - 反应列表未呈现更新的状态数据