首页 > 解决方案 > ADLS ConcurrentAppend 为 1 MB 文件提供损坏的数据

问题描述

当我使用Parallel.For循环将 10 个 1 MB 大小的文件同时附加到 Azure Data Lake Service 时,我只看到 Azure Data Lake 文件中最后两个文件的内容,尽管我看到正确的数据打印到控制台。

当我使用简单的 for 循环而不是 thisParallel.For时,附加到文件的数据是正确的。

有什么帮助吗?

Parallel.For(0, 10, i =>
{
    path[i] = @"C:\Users\t-chkum\Desktop\InputFiles\1MB\" + (i + 1) + ".txt";

    FileStream stream = File.OpenRead(path[i]);

    stream.Read(buffer, 0, buffer.Length);
    Console.WriteLine(Encoding.UTF8.GetString(buffer));


    client.ConcurrentAppend(fileName, true, buffer, 0, buffer.Length);

    stream.Close();
});

标签: c#concurrencytask-parallel-libraryazure-data-lakeparallel-for

解决方案


这实际上是一个临界区问题,可以使用块集合或锁来解决:

BlockingCollection<int> b = new BlockingCollection<int>(1);
Parallel.For(0, 10, i =>
{
    b.Add(i);
    path[i] = @"C:\Users\t-chkum\Desktop\InputFiles\1MB\" + (i + 1) + ".txt";
    FileStream stream = File.OpenRead(path[i]);

    stream.Read(buffer, 0, buffer.Length);

    client.ConcurrentAppend(fileName, true, buffer, 0, buffer.Length);

    Array.Clear(buffer, 0, buffer.Length);

    stream.Close();
    b.Take();
});

上面的代码为我解决了这个问题:)


推荐阅读