azure - 如何使用 azure data factory v2 (adf) 在文件夹中查找最新文件
问题描述
我正在尝试使用 azure data factory v2 读取最新的 blob 文件(csv)。文件名还包含日期(YYYY-MM-DD mm:ss-abcd.csv)。我需要从存在的最新文件中读取数据并加载到表存储中。您能否帮我了解如何使用 ADF 读取最新文件
解决方案
您好 Faiz Rahman,感谢您的提问。您选择的日期格式具有字典排序匹配时间排序的有用功能。这意味着,一旦您有了一个 blob 列表,只需提取日期并进行比较即可。
如果您有一个非常大的 blob 列表,这可能不切实际。在这种情况下,每当您编写新的 blob 时,请在某处跟踪它,例如“maxBlobName.txt”,并让管道读取它以获取最新文件的名称。
下面是一些用于比较 blob 名称的日期部分的示例代码。为了适应您的目的,您将需要使用 GetMetadata 活动来获取 blob 名称,并使用一些字符串函数来仅提取名称的日期部分以进行比较。
{
"name": "pipeline9",
"properties": {
"activities": [
{
"name": "ForEach1",
"type": "ForEach",
"dependsOn": [
{
"activity": "init array",
"dependencyConditions": [
"Succeeded"
]
}
],
"typeProperties": {
"items": {
"value": "@variables('list')",
"type": "Expression"
},
"isSequential": true,
"activities": [
{
"name": "If Condition1",
"type": "IfCondition",
"typeProperties": {
"expression": {
"value": "@greater(item(),variables('max'))",
"type": "Expression"
},
"ifTrueActivities": [
{
"name": "write new max",
"type": "SetVariable",
"typeProperties": {
"variableName": "max",
"value": {
"value": "@item()",
"type": "Expression"
}
}
}
]
}
}
]
}
},
{
"name": "init array",
"type": "SetVariable",
"typeProperties": {
"variableName": "list",
"value": {
"value": "@split(pipeline().parameters.input,',')",
"type": "Expression"
}
}
}
],
"parameters": {
"input": {
"type": "string",
"defaultValue": "'2019-07-25','2018-06-13','2019'-06-24','2019-08-08','2019-06-23'"
}
},
"variables": {
"max": {
"type": "String",
"defaultValue": "0001-01-01"
},
"list": {
"type": "Array"
}
}
}
}
推荐阅读
- java - 在 java8 流中处理输出
- wpf - 如何在 ListView 内的 GridView 内设置组合框的 SelectedIndex
- python-3.x - 使用 tf.data.Dataset 作为 Keras 模型的训练输入不起作用
- unity3d - 如何将全景图转换为球形纹理贴图?
- react-native - React Native - BugSnag 或 Crashlytics 可以帮助避免白屏错误吗?
- c++ - Windows IPv6 原始套接字 - 为什么我看不到传入的数据包?
- cobol - Cobol 参考修改:“MOVE Variable(Variable +literal:literal) TO Variable”到底是做什么的?
- node.js - 从nodejs中的请求模块调用时,github搜索api没有给出结果
- c# - VSTO,当我更改打开检查器时有一个事件?
- java - [JWT][JJWT] 函数 compact() 非常慢