首页 > 解决方案 > 如何使用 spark 获取包含大量文件的目录的大小?

问题描述

我想找到数百个目录的大小。在这些目录中有大量文件,因此我想用 Spark (pyspark) 来做。

如果没有 Spark,它可以正常工作,os.path.getsize()但我需要 Spark 中的类似功能。到目前为止,我已经使用以下代码行成功计算了文件数:

files = spark.sparkContext.wholeTextFiles("/mnt/mal/" + str(i) + "/*.txt").count()

感谢您的帮助!

标签: apache-sparkpyspark

解决方案


推荐阅读