azure-data-factory - 如何从子文件夹 Azure 数据流中加载一天内最后修改的文件中的数据
问题描述
我在 Azure 容器上有以下目录结构:
-dwh-prod
-Main_Folder
-2021-01
-file1.parquet
-2021-02
-file2.parquet
-file3.parquet
其中数据按年和月分区以创建子文件夹。在这些子文件夹中,我有我的数据文件。我只想将运行数据流管道后一天内添加的最新文件加载到我的数据流中。
我尝试在结束时间使用 currentUTC() 并减去一天 -> AddDays(currentUTC(), -1) 在源选项中提供的 'Filter by last modified' 选项中的开始时间,但它不起作用。
我也尝试使用 currentTimestamp() 代替,但无济于事。
我该如何解决这个问题?
解决方案
你的表达是正确的。请在数据集中将文件夹路径从 MainFolder 更改为 Main_folder,并Main_Folder/*/*.parquet
在 Source 选项中设置为通配符路径。然后它将起作用。
推荐阅读
- pytorch - 可以在 Pytorch nn.Sequential() 中添加条件
- java - RestTemplate 的千分尺统计信息
- circular-dependency - Angular如何解决“Circular dep for”错误
- javascript - 如何从使用chartjs创建的图形中获取图像
- javascript - 如何减少 v-select 组件中项目之间的空间
- php - 从 Slim 4 中的路由组覆盖注入的类?
- python - 尝试启动 Firefox 浏览器时出现 Python Selenium 错误
- c++ - 38:10:错误:成员引用基类型“节点 *”不是结构或联合 *prev->next = temp;
- android - FirebaseAuth Facebook 登录返回黑屏
- javascript - D3.js - 使用 JSON 对象数据的正负条形图