c# - Asp.Net Azure Cloud - 获取文件大小需要很长时间
问题描述
我想获取父文件夹下可用的各种子文件夹下所有文件的大小总和。
我得到了大小,但计算结果大约需要 15 秒。
这是代码:
var storageAccount = CloudStorageAccount.Parse("connectionString");
var fileClient = storageAccount.CreateCloudFileClient();
var cloudFileShare = fileClient.GetShareReference("shareName");
var rootDirectory = cloudFileShare.GetRootDirectoryReference();
var directory = rootDirectory.GetDirectoryReference("folderName");
var size = directory.ListFilesAndDirectories().Select(x => (CloudFileDirectory)x).SelectMany(x => x.ListFilesAndDirectories()).Sum(x => ((CloudFile)x).Properties.Length);
我可以进一步优化它以快速获得大小。
编辑1:
测试:
- 场景 1:更多文件夹包含更多或更少文件
- 场景 2:包含更多或更少文件的更少文件夹
发现:
- 文件夹数量更多时需要很长时间,而与文件数量无关(可能更多或更少)
- 当文件夹数量较少时,它工作正常,无论文件数量如何(可能或多或少)
解决方案
检查您的 LINQ 查询:
var size = directory
.ListFilesAndDirectories()
.Select(x => (CloudFileDirectory)x)
.SelectMany(x => x.ListFilesAndDirectories())
.Sum(x => ((CloudFile)x).Properties.Length);
我可以看到一些初始问题。首先,这假设根目录内的第一级仅存在目录。这可以通过铸件看出(CloudFileDirectory)x
。如果找到 a ,这将引发异常CloudFile
。一个可扩展的解决方案应该处理这两种类型的文件。其次,此查询还假设每个子目录中仅存在文件,因此进行了(CloudFile)x
强制转换。这意味着这只会在子目录中深入一层,并且不会通过任何子目录递归。如果找到任何子目录,这也会引发异常。我在下面概述了一些更具可扩展性的方法。
解决方案1:
使用CloudFileDirectory.ListFilesAndDirectories()
,它将所有文件组合成一个IEnumerable<IListFileItem>
. 如果找到文件,则递归遍历每个项目并总结找到的 btyes,如果找到目录,则递归。
public static void FileShareByteCount(CloudFileDirectory directory, ref long bytesCount)
{
if (directory == null)
{
throw new ArgumentNullException("directory", "Directory cannot be null");
}
var files = directory.ListFilesAndDirectories();
foreach (var item in files)
{
if (item.GetType() == typeof(CloudFileDirectory))
{
var cloudFileDirectory = item as CloudFileDirectory;
FileShareByteCount(cloudFileDirectory, ref bytesCount);
}
else if (item.GetType() == typeof(CloudFile))
{
var cloudFile = item as CloudFile;
bytesCount += cloudFile.Properties.Length;
}
}
}
用法一:
long bytesCount = 0;
FileShareByteCount(sampleDir, ref bytesCount);
Console.WriteLine($"Current file share usage: {bytesCount}");
解决方案2:
使用 分批浏览文件共享,它允许您指定每个段CloudFileDirectory.ListFilesAndDirectoriesSegmented()
要返回的文件数。IEnumerable<IListFileItem>
同上,递归遍历每一项,如果找到文件,则总结找到的 btyes,如果找到目录,则递归。
public static void FileShareByteCount(CloudFileDirectory directory, int? maxResults, ref long bytesCount)
{
if (directory == null)
{
throw new ArgumentNullException("directory", "Directory cannot be null");
}
FileContinuationToken continuationToken = null;
do
{
var resultSegment = directory.ListFilesAndDirectoriesSegmented(maxResults, continuationToken, null, null);
var results = resultSegment.Results;
if (results.Count() > 0)
{
foreach (var item in results)
{
if (item.GetType() == typeof(CloudFileDirectory))
{
var cloudFileDirectory = item as CloudFileDirectory;
FileShareByteCount(cloudFileDirectory, maxResults, ref bytesCount);
}
else if (item.GetType() == typeof(CloudFile))
{
var cloudFile = item as CloudFile;
bytesCount += cloudFile.Properties.Length;
}
}
}
continuationToken = resultSegment.ContinuationToken;
} while (continuationToken != null);
}
用法二:
long bytesCount = 0;
FileShareByteCount(directory, 100, ref bytesCount);
Console.WriteLine($"Current file share usage: {bytesCount}");
注意:您可以使用 指定段的最大大小maxResults
。微软文档指出:
一个非负整数值,表示一次返回的最大结果数,最多为每次操作的限制 5000。如果此值为 null,则将返回最大可能的结果数,最多为 5000。