apache-spark-sql - 在 Spark SQL 中估计表大小
问题描述
我使用 Spark SQL 查询来连接表(在 SQL API 中)。我想知道是否有任何方法可以近似输入表的大小(以 GB/MB 等为单位),例如参与 Join。
我知道同样可以通过以下方式近似得出:
sum of the sizes of all the columns in the table * no. of rows in the table
但是如果表中的列数非常多,这是一个繁琐的过程。
那么它是否可以通过其他一些更智能的过程来派生。不需要确切的大小 - 只需要一个近似值。请分享你的想法
我使用 Spark 2.4。我只使用 SQL API。
谢谢
请分享你的想法。
谢谢
解决方案
推荐阅读
- php - Kubernetes php-fpm 自定义指标 - 发生内部错误:无法获取指标
- kubernetes - Kubernetes 仪表板未创建 pod
- c# - 图像缩小存在使用最近邻算法 c# 缩小奇数的问题
- linq - LinQ 与 CROSS APPLY 和 ORDER BY
- python - 根据带有线图的 seaborn FacetGrid 的列设置线宽
- java - 如何使用 Dokka 为我的 Android 库生成 Javadoc,用于主源集和 androidTest 源集?
- ceph - ceph - 对网络变化的弹性 - 在 IP 地址分配更改后恢复磁盘
- css - 包裹元素之间的空间
- xamarin - Xamarin Forms:如何删除 CollectionView 的 SelectedItem 的背景色
- python - atexit 在对象已经被释放后运行?