python - 循环拉取文件大小、文件夹大小和目录大小?
问题描述
我正在尝试扫描目录以及其中的所有子文件夹和文件。我还想提取每个文件夹和文件的文件大小。我对最好的技术有点困惑。这是我到目前为止所拥有的。总目录输出不正确,总文件夹大小也不正确。
import os
import pandas as pd
import time
from pathlib import Path
# sets the display so that when the code prints, it is readable
pd.set_option('display.max_rows', 3000)
pd.set_option('display.max_columns', 10)
pd.set_option('display.width', 3000)
# Initialize the dataframe
col_names = ['directory', 'file name', 'file size', 'file date', 'total in directory', 'total in folder']
files = pd.DataFrame(columns=col_names)
dir_path = Path('G:/OM/Permits')
for dirpath, dirnames, filenames in os.walk(dir_path):
print(dirpath)
files.loc[dirpath, 'directory'] = dirpath
total_file = sum(os.path.getsize(f) for f in os.scandir(dirpath) if os.path.isfile(f))
files.loc[total_file, 'total in directory'] = total_file
for file_size in dirpath:
total_file = round((sum(os.path.getsize(f) for f in os.scandir(dirpath) if os.path.isfile(f)) / 1048576), 3)
files.loc[total_file, 'total in folder'] = total_file
with os.scandir(dirpath) as i:
for entry in i:
if entry.is_file():
print(entry.name)
files.loc[entry.name, 'file name'] = entry.name
file_size = round((os.path.getsize(entry) / 1048576),3)
files.loc[file_size, 'file size'] = file_size
files_date = time.strftime('%m/%d/%Y', time.gmtime(os.path.getmtime(entry)))
files.loc[files_date, 'file date'] = files_date
df = pd.DataFrame(files)
df['file size'] = df['file size'].shift(periods=-1)
df['file date'] = df['file date'].shift(periods=-2)
df.reset_index(drop=True, inplace=True)
df.dropna(how='all')
print(df)
#df.to_csv('G Drive List of Files.csv')
这是我输出的一部分。
directory file name file size file date total in directory total in folder
0 G:\OM\Permits NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN 1394256 NaN
2 NaN NaN NaN NaN NaN 1.33
3 NaN 3-Letter_PermitCodes.pdf 0.136 04/01/2019 NaN NaN
解决方案
您可以尝试将所有信息添加到 a 中dict
,然后将其转换为dataframe
.
os.wal
使用和 为每个文件收集所有文件信息:- 像您一样添加保存
directory
,file_name
和。file_size
file_date
- 像您一样添加保存
转换
data
成数据框- 对所有进行分组
directory
并计算一些聚合函数,例如count
和sum
。
代码
dir_path = Path(r'G:/OM/Permits')
# Collect data for all files in the directory
data = {'directory': [], 'file_name': [], 'file_size': [], 'file_date': []}
for dirpath, dirnames, filenames in os.walk(dir_path):
for f in filenames:
filename = "{}\{}" .format(dirpath, f)
data["directory"].append(dirpath)
data["file_name"].append(f)
data["file_size"].append(os.path.getsize(filename))
data["file_date"].append(time.strftime('%m/%d/%Y', time.gmtime(os.path.getmtime(filename))))
# Transform data in dataframe
files = pd.DataFrame(data)
print(files)
# details per folder:
folders_stats = files.groupby("directory").agg({"file_name": 'count',
"file_size": "sum"}) \
.rename(columns={"count": "total_files", "sum": "total_size"}) \
.reset_index()
print(folders_stats)
推荐阅读
- python - 如何以百分比形式获取列的出现频率
- java - 处理 JSON 有效负载和图像数据
- c++ - 在 vscode 终端中运行 cpp 程序后出现意外的 % 符号
- python - 将大数据集拆分为较小的组
- apache-camel - 如何使用包含对另一个模式的引用的模式验证 JSON?
- php - 有没有办法自定义 CodeIgniter 3 中 result_array() 返回的键?
- sql - 如何使用 FireDAC 中的匿名代码块在 PostgreSQL 中执行带参数的函数?
- javascript - 当使用不透明度从一个证词切换到下一个证词时,我正在尝试构建一个具有淡出过渡的证词滑块
- javascript - 使用 Express 在 nodejs 中延迟 GET 调用的响应
- python - pd.merge "TypeError: 字符串索引必须是整数"