首页 > 解决方案 > ADF / Dataflow - 将多个 CSV 转换为 Parquet

问题描述

在 ADLS Gen2 中,TextFiles 文件夹有 3 个 CSV 文件。每个文件中的列名不同。

我们需要将所有 3 个 CSV 文件转换为 3 个 parquet 文件并将其放在 ParquetFiles 文件夹中

我尝试使用 Copy Activity 但它失败了,因为列名中有空格并且镶木地板文件不允许它

要删除空格,我使用了数据流:Source -> Select(在 col 名称中用下划线替换空格)和 sink。这适用于单个文件。当我尝试对所有 3 个文件执行此操作时,它会尝试合并 3 个文件并生成包含不正确数据的单个文件。

如何解决这个问题,主要是去掉所有文件中列名的空格。这里还有什么其他选择?

标签: azure-data-factoryazure-data-flow

解决方案


管道:ForEach 活动(遍历文件夹中的 CSV 文件,并将当前迭代项作为参数发送到数据流)-> 带有指向该文件夹的源的数据流活动(参数化源路径中的文件名)


推荐阅读