apache-spark - Spark中的动态过滤
问题描述
我想了解动态过滤的工作原理。我所知道的是,假设有 2 个表 A(百万行)和 B(10k 行)。现在,如果在 B 上应用谓词,则在 A 和 B 之间执行连接时,然后通过动态过滤,我们可以避免对 A 进行全扫描。这有助于减少混洗的数据。我的问题是:
- 1)这会在火花中自动发生还是我必须启用某些属性?
- 2)在执行sql之前,有没有一种方法可以让我提供过滤器?
- 3)这种方法有什么缺点吗?
- 4)有任何链接对此提供解释吗?
我想了解动态过滤的工作原理。我所知道的是,假设有 2 个表 A(百万行)和 B(10k 行)。现在,如果在 B 上应用谓词,则在 A 和 B 之间执行连接时,然后通过动态过滤,我们可以避免对 A 进行全扫描。这有助于减少混洗的数据。我的问题是:
标签: apache-sparkapache-spark-sql