apache-spark-sql - 在 Spark SQL 中估计表大小

我使用 Spark SQL 查询来连接表（在 SQL API 中）。我想知道是否有任何方法可以近似输入表的大小（以 GB/MB 等为单位），例如参与 Join。

我知道同样可以通过以下方式近似得出：

sum of the sizes of all the columns in the table * no. of rows in the table

但是如果表中的列数非常多，这是一个繁琐的过程。

那么它是否可以通过其他一些更智能的过程来派生。不需要确切的大小 - 只需要一个近似值。请分享你的想法

我使用 Spark 2.4。我只使用 SQL API。

谢谢

请分享你的想法。

谢谢

标签： apache-spark-sql