apache-spark - 从火花桶中检索数据
问题描述
因此,如果我使用 partition by 将数据保存在 spark 表中,我们知道我们的数据在哪个分区(如国家名称和州),因此当我们通过提及国家名称和州来编写 where 子句时,它会从那里
所以以这种方式它限制了访问并直接搜索关键字,但是如果我们想要做分桶,因为分区对于唯一值来说太多了
所以我们将有桶号。桶数,后跟列名。
但是当想要从分桶数据中获取数据时不会很昂贵,因为我们不知道我们的数据实际在哪里,并且最终会遍历整个桶区域
请解释
解决方案
推荐阅读
- flutter - Flutter(dart)中的future provider和future builder有什么区别
- html - ngComponentOutlet 或 ndcDynamicComponent 不适用于角度 7
- python - Python中的MATLAB超像素函数?
- docker - Treafik addPrefix/replacePathRegex
- react-native - 反应本机可折叠选项卡视图标签样式不起作用
- python - 即使列正确,在合并数据帧时也会出现 KeyError
- java - 刷新任何页面后升级到 javax-faces-2.3.0 会导致 IllegalStateException(重复的组件 ID)
- python - ValueError:数组不能包含 Python 中带有 NMF 和 TF-IDF 的 infs 或 NaN
- token - 我不能使用 WebJS 对 ERC20 令牌使用 Openzeppelin transferFrom 方法
- mysql - 创建一个组合两个表的视图,从一个表中优先考虑行