首页 > 解决方案 > 谓词下推与布隆过滤器

问题描述

在寻找对大数据特别是 ORC 文件的查询优化时,II 遇到了两种可能的谓词下推和布隆过滤器。

谓词下推有助于我们避免读取不必要的条纹,这有助于减少 IO ,但在我看来,Bloom Filter 似乎也有同样的目的,除了下面的。

对于谓词下推,我们不需要在编写 ORC 文件时显式创建任何工件,而对于 Bloom 过滤器,我们需要在写入 ORC 文件时配置列。

请求建议以使我更好地理解。

谢谢桑托什

标签: bigdataorc

解决方案


布隆过滤器由谓词下推使用。谓词下推主要使用列统计信息来跳过行组并最小化读取的行数。如果使用布隆过滤器,则谓词下推可以最大限度地减少进一步读取的行数。


推荐阅读