apache-spark - 如何使用 spark 获取包含大量文件的目录的大小?
问题描述
我想找到数百个目录的大小。在这些目录中有大量文件,因此我想用 Spark (pyspark) 来做。
如果没有 Spark,它可以正常工作,os.path.getsize()
但我需要 Spark 中的类似功能。到目前为止,我已经使用以下代码行成功计算了文件数:
files = spark.sparkContext.wholeTextFiles("/mnt/mal/" + str(i) + "/*.txt").count()
感谢您的帮助!
解决方案
推荐阅读
- android - 使用数据绑定文本时,layout_weight 不起作用
- php - 在同一页面上显示表单结果,并对不同页面执行操作
- python - 在python中解析包含图像的文件时出现EOF
- node.js - 等待 Mongoose 解析数据后再返回
- sql-server-2008 - 用 CTE 表计算域名
- git - 为什么 git checkout 为一些未更改的文件打印“M”?
- r - 在并行`foreach`循环中更新单个公共变量
- python - 如何比较 python 中 ser.readline() 的输出?
- java - 如何将arraylist数据存储到数据库中
- rust - 使用包含的文本作为宏参数