bigdata - 谓词下推与布隆过滤器
问题描述
在寻找对大数据特别是 ORC 文件的查询优化时,II 遇到了两种可能的谓词下推和布隆过滤器。
谓词下推有助于我们避免读取不必要的条纹,这有助于减少 IO ,但在我看来,Bloom Filter 似乎也有同样的目的,除了下面的。
对于谓词下推,我们不需要在编写 ORC 文件时显式创建任何工件,而对于 Bloom 过滤器,我们需要在写入 ORC 文件时配置列。
请求建议以使我更好地理解。
谢谢桑托什
解决方案
布隆过滤器由谓词下推使用。谓词下推主要使用列统计信息来跳过行组并最小化读取的行数。如果使用布隆过滤器,则谓词下推可以最大限度地减少进一步读取的行数。
推荐阅读
- hbase - 有没有办法合并许多 HBASE 区域?
- ios - iOS:删除 UItableviewCell 时出错:-[UITableView _endCellAnimationsWithContext:] 中的断言失败
- r - Plotly 在本地工作,但不在 Shiny 服务器上
- c# - 在填充 TreeView 时创建 ProgressBar
- wordpress - 无法通过 Docker 中的 nginx-proxy 访问 Wordpress 网站
- android - 如何执行一个动画然后另一个
- scala - Scala .map() 信息丢失(因为返回类型与元素相同:Set)
- android - 出现错误:创建 Google Maps Activity 项目后清单合并失败
- java - AsyncHttpClient 不会让程序退出
- javascript - 为什么 $data 引用在此示例中不起作用?