druid - 将大的本地 json 文件注入 Druid
问题描述
这是我第一次体验德鲁伊。
我在本地机器上安装了 Druid。现在我想做一些查询性能测试。我的测试数据是一个巨大的本地json文件1.2G。想法是将其加载到 druid 中并运行所需的 SQL 查询。该文件正在被解析并成功处理(我使用 Druid 基于 Web 的 UI 来提交注入任务)。
我遇到的问题是数据源大小。1.2G 的原始 json 数据导致 35M 的数据源是没有意义的。本地运行的 Druid 设置是否有任何限制。我认为测试数据被部分处理。不幸的是没有找到任何相关的配置来改变它。如果有人能够阐明这一点,将不胜感激。
提前致谢
解决方案
使用德鲁伊 80-90% 压缩是预期的。我已经看到 2GB CSV 文件减少到 200MB 德鲁伊数据源。
您可以查询计数以确保所有数据都被摄取吗?请禁用近似算法 hyper-log-log 以获得准确计数。如果您通过查询上下文或代理配置将“useApproximateCountDistinct”设置为“false”,Druid SQL 将切换到准确的不同计数。(请参阅http://druid .io/docs/latest/querying/sql.html )
还可以检查日志中的异常和错误消息。如果在摄取特定 JSON 记录时遇到问题,它会跳过该记录。
推荐阅读
- javascript - 当球变红时获得警报以及如何更改画布轮廓
- java - 如何在android中单击按钮显示可用的wifi网络?
- javascript - MomentJS 在满足特定条件时更改文本
- openvms - openvms 创建没有版本扩展名的文件(;1 等)
- c# - 在命名空间中找不到 System.Text.Json.JsonReaderException
- php - Laravel 5.8 并不总是更新新编写的代码
- spring-boot - 动态启动和关闭 KafkaListener 只是为了在会话开始时加载以前的消息
- python - 横幅仅适用于某些帐户
- c - C 文件未针对覆盖进行检测,错误的 expr 节点类型
- c++ - 在 C/C++ 中将 ASCII 转换为 unicode 字符串(无 API)