首页 > 解决方案 > 在 Spark SQL 中估计表大小

问题描述

我使用 Spark SQL 查询来连接表(在 SQL API 中)。我想知道是否有任何方法可以近似输入表的大小(以 GB/MB 等为单位),例如参与 Join。

我知道同样可以通过以下方式近似得出:

sum of the sizes of all the columns in the table * no. of rows in the table

但是如果表中的列数非常多,这是一个繁琐的过程。

那么它是否可以通过其他一些更智能的过程来派生。不需要确切的大小 - 只需要一个近似值。请分享你的想法

我使用 Spark 2.4。我只使用 SQL API。

谢谢

请分享你的想法。

谢谢

标签: apache-spark-sql

解决方案


推荐阅读