首页 > 解决方案 > 使用 Spark SQL 对表进行分区

问题描述

截至昨天,我对 Spark 完全陌生。我们在 Databricks 中使用笔记本。

我正在运行以下示例代码

%sql 
create table abc as
    select col1, col2 from table 1
    inner join table2
    inner join table3
-- below partitioning code breaks the command.
partitioned by range (col1)(
partition pName1 values less than 21
partition pName2 values less than 41
partition pName3 values less than 61
partition pName4 values less than (maxvalue)
)

有很多数据,我一直在尝试理解 Spark 中的分区。

但是当我将分区代码添加到上面时,它会中断。

我有 4 个内核(最少 4 个,最多 32 个),并且想对表进行分区以尝试在查询时提高性能以利用更多处理。我是否正确理解火花分区的目的?请问有没有办法在使用上述方法创建表格时做到这一点?

非常感谢。

标签: apache-sparkapache-spark-sqldatabricks

解决方案


推荐阅读