azure - 下游调度程序启动中具有多个下游活动缓慢的 Azure 数据工厂管道
问题描述
我创建了一个包含两个链接活动的 ADF 管道,第一个活动运行存储过程,第二个活动(复制数据)将数据从 Azure DW 复制到 Azure SQL DB 表。为了将这两者联系起来,我将存储过程的输出数据集作为复制数据活动的输入,即使该数据集没有被使用(有一个单独的数据集)。
现在的问题是当我进入“监控和管理”并使用“在管道中重新运行上游”运行第二个活动时,第一个存储过程活动快速运行,然后第二个活动等待大约 5 分钟,然后更改为进行中。为什么会这样?是因为时间切片问题吗?管道代码如下:
{
"name": "RunADLAProc",
"properties": {
"description": "This will run the procedure for ADLA",
"activities": [
{
"type": "SqlServerStoredProcedure",
"typeProperties": {
"storedProcedureName": "dbo.BackUpDatabaseLog",
"storedProcedureParameters": {}
},
"outputs": [
{
"name": "AzureSQLDatasetOutputforProc"
}
],
"policy": {
"timeout": "01:00:00",
"concurrency": 1,
"retry": 3
},
"scheduler": {
"frequency": "Day",
"interval": 1
},
"name": "StoredProcedureActivityTemplate"
},
{
"type": "Copy",
"typeProperties": {
"source": {
"type": "SqlDWSource",
"sqlReaderQuery": "select * from dbo.DatabaseLog"
},
"sink": {
"type": "SqlSink",
"writeBatchSize": 10000,
"writeBatchTimeout": "60.00:00:00"
}
},
"inputs": [
{
"name": "AzureSqlDWInput"
},
{
"name": "AzureSQLDatasetOutputforProc"
}
],
"outputs": [
{
"name": "AzureSQLDatasetOutput"
}
],
"policy": {
"timeout": "7.00:00:00",
"concurrency": 1
},
"scheduler": {
"frequency": "Day",
"interval": 1
},
"name": "CopyActivityTemplate"
}
],
"start": "2018-05-09T00:00:00Z",
"end": "2018-05-12T00:00:00Z",
"isPaused": false,
"hubName": "testdatafactory-v1_hub",
"pipelineMode": "Scheduled"
}}
解决方案
您可以尝试 ADFv2,它更易于调试,并且具有 GUI 创作工具。UI 工具是https://adf.azure.com
推荐阅读
- django - 如何通过Django中的手机号码重置密码?
- javascript - 更新由空中地图标记空纬度管理的视图的属性坐标时出错
- python - 同时运行 Discord.py 客户端和 Uvicorn 应用程序
- javascript - 如何获得 5 天 / 3 小时预报数据的 Chart JS 天气图
- ipfs - ipfs-http-client 并同时添加到 ipfs mfs?
- r - R:Anova-test (aov)、for-Loop 和 paste 的组合导致错误
- c# - 如何将 ms graph api mime 内容转换为 microsoft.exchange.webservices.data mime 内容 c#
- nginx - NGINX proxy_pass 返回内容类型的 HTML 而不是内容类型的 JAVASCRIPT
- apache-spark - 如何使用 Pyspark 在 AWS EMR 上向 Glue 添加评论
- angular - 为具有不同 FormGroup 的 FormArray 设置值