首页 > 解决方案 > 如何从子文件夹 Azure 数据流中加载一天内最后修改的文件中的数据

问题描述

我在 Azure 容器上有以下目录结构:

-dwh-prod
  -Main_Folder
   -2021-01
     -file1.parquet
   -2021-02
     -file2.parquet
     -file3.parquet

其中数据按年和月分区以创建子文件夹。在这些子文件夹中,我有我的数据文件。我只想将运行数据流管道后一天内添加的最新文件加载到我的数据流中。

我尝试在结束时间使用 currentUTC() 并减去一天 -> AddDays(currentUTC(), -1) 在源选项中提供的 'Filter by last modified' 选项中的开始时间,但它不起作用。

我也尝试使用 currentTimestamp() 代替,但无济于事。

在此处输入图像描述

在此处输入图像描述

我该如何解决这个问题?

标签: azure-data-factoryazure-data-flow

解决方案


你的表达是正确的。请在数据集中将文件夹路径从 MainFolder 更改为 Main_folder,并Main_Folder/*/*.parquet在 Source 选项中设置为通配符路径。然后它将起作用。


推荐阅读