apache-spark - 使用 Spark SQL 对表进行分区
问题描述
截至昨天,我对 Spark 完全陌生。我们在 Databricks 中使用笔记本。
我正在运行以下示例代码
%sql
create table abc as
select col1, col2 from table 1
inner join table2
inner join table3
-- below partitioning code breaks the command.
partitioned by range (col1)(
partition pName1 values less than 21
partition pName2 values less than 41
partition pName3 values less than 61
partition pName4 values less than (maxvalue)
)
有很多数据,我一直在尝试理解 Spark 中的分区。
但是当我将分区代码添加到上面时,它会中断。
我有 4 个内核(最少 4 个,最多 32 个),并且想对表进行分区以尝试在查询时提高性能以利用更多处理。我是否正确理解火花分区的目的?请问有没有办法在使用上述方法创建表格时做到这一点?
非常感谢。
解决方案
推荐阅读
- javascript - TextArea 问题 - 键入时尖括号内的文本消失
- python - 使用字典设置函数参数时遇到问题
- ios - 是否可以在 iOS 中读取 xcassets 文件夹?
- laravel - Laravel 和 VueJs 分页没有正确显示所有记录
- java - 发送 post 请求后无法从标头 rsponse 获取令牌
- java - 使用 Apache Avro 生成的文件构建错误
- mysql - Web.Config 使用 mysql 数据库中的名称重写 URL
- c++ - 将 uint_8 更改为 x 次二进制 1 MSB
- python - 使用 Python 抓取需要从另一个 url 访问的网页
- react-native - react-native-swiper 奇怪的行为