scala - 如何在 pyspark 中查找数据框的大小(以 MB 为单位)?
问题描述
如何在 pyspark 中查找数据框的大小(以 MB 为单位),
df=spark.read.json("/Filestore/tables/test.json") 我想知道df或者test.json的大小如何
解决方案
一般来说,这并不容易。你可以
- 利用
org.apache.spark.util.SizeEstimator
- 使用涉及缓存的方法,请参阅例如https://stackoverflow.com/a/49529028/1138523
- 使用
df.inputfiles()
和使用其他 API 直接获取文件大小(我使用 Hadoop Filesystem API (如何获取文件大小)这样做。这仅在数据帧未过滤/聚合时才有效
推荐阅读
- sql-server - 从多个表中选择一列 MSSQL
- java - Arraylist 包含和保留所有不给出与 Sql 内连接相同的结果
- node.js - 在 oracle CLOB 流中写入 utf8 字符串会产生额外的空格 (node.js)
- sql - 有没有办法可以在使用 SQLite 的选择的输出中获取行/序列号?
- r - R:循环自定义 dplyr 函数
- vbscript - 提供程序错误“8007203e”无法识别搜索过滤器。在 Functions.asp 中,第 669 行
- java - 将双向 x,y 点转换为纬度和经度?
- sql - 在比较同一表中的两行值时更新列
- java - 如何在不重新启动应用程序的情况下在微服务副本之间动态共享数据
- c# - Linux MONO 是否支持 ASP.NET Core 2.2 MVC?