druid - 将大的本地 json 文件注入 Druid

问题描述

这是我第一次体验德鲁伊。

我在本地机器上安装了 Druid。现在我想做一些查询性能测试。我的测试数据是一个巨大的本地json文件1.2G。想法是将其加载到 druid 中并运行所需的 SQL 查询。该文件正在被解析并成功处理（我使用 Druid 基于 Web 的 UI 来提交注入任务）。

我遇到的问题是数据源大小。1.2G 的原始 json 数据导致 35M 的数据源是没有意义的。本地运行的 Druid 设置是否有任何限制。我认为测试数据被部分处理。不幸的是没有找到任何相关的配置来改变它。如果有人能够阐明这一点，将不胜感激。

提前致谢

标签： druid

使用德鲁伊 80-90% 压缩是预期的。我已经看到 2GB CSV 文件减少到 200MB 德鲁伊数据源。

您可以查询计数以确保所有数据都被摄取吗？请禁用近似算法 hyper-log-log 以获得准确计数。如果您通过查询上下文或代理配置将“useApproximateCountDistinct”设置为“false”，Druid SQL 将切换到准确的不同计数。（请参阅http://druid .io/docs/latest/querying/sql.html )

还可以检查日志中的异常和错误消息。如果在摄取特定 JSON 记录时遇到问题，它会跳过该记录。

druid - 将大的本地 json 文件注入 Druid

问题描述

解决方案

推荐阅读