首页 > 技术文章 > 阿里云大数据之——DataWorks学习

zyp0519 2022-03-29 17:53 原文

什么是DataWorks?

  一个大数据开发治理平台,集数据集成,数据开发,数据地图,数据质量,数据服务等于一体,一站式开发管理的界面。

  DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute开源大数据引擎E-MapReduce实时计算(基于Flink)机器学习PAI云原生数据仓库 AnalyticDB for PostgreSQL云原生数据仓库AnalyticDB for MySQL,并且支持用户自定义接入计算和存储服务。

基本概念:

  任务(Task)

    任务是对数据执行的操作的定义,示例如下:

  • 通过数据同步节点任务,将数据从RDS同步至MaxCompute。
  • 通过MaxCompute SQL节点任务,运行MaxCompute SQL来进行数据的转换。

    任务主要分为节点任务(Node Task)、工作流任务(Flow Task)和内部节点(inner Node)。

任务类型 描述
节点任务(Node Task) 一个数据执行的操作。可以与其它节点任务、工作流任务配置依赖关系,组成DAG图。
工作流任务(Flow Task) 满足一个业务场景需求的一组内部节点,组成一个工作流任务,建议工作流任务小于10个。
工作流任务内部节点,无法被其它工作流任务、节点任务依赖。工作流任务可以与其它工作流任务、节点任务配置依赖关系,组成DAG图。
 
( 从DataWorks V1.0升级的任务,仍保留工作流的概念。DataWorks V2.0及以上版本已无法创建工作流任务,您可以选择创建业务流程进行后续操作。)
内部节点(innerNode) 工作流任务内部的节点,与节点任务的功能基本一致。您可以通过拖拽形成依赖关系,其调度周期会继承工作流任务的调度周期,无法进行单独配置。

 

 

 

 

 

  实例(Instance)

    某个任务在某时某刻执行的一个快照。调度系统中的任务,经过调度系统、手动触发运行后,会生成一个实例。实例中会有任务运行时间、运行状态和运行日志等信息。

    例如:设置每天2:00运行Task1实例,调度系统会在每天23:30根据周期节点定义好的时间,自动生成一个快照,即Task1第二天2:00运行的实例。到第二天2:00时,如果判断上游实例已经完成,Task1实例便会如期启动运行。(就是在你的task运行之前做一个快照,在一些情况问题后可以去恢复)。

    可以在DataWorks的运维中心 > 周期任务运维页面,查询实例。

 

  提交(Submit)

    你所开发的任务节点、业务流程,从DataWorks开发环境发布至调度系统就叫提交。相应的代码、调度配置全部合并至调度系统中,调度系统根据相关配置进行调度操作。

 

  脚本开发(Script)

    这部分代码无法进行调度参数配置,也无法发布到调度系统中,仅可进行部分数据查询分析的工作。

 

  元数据

    元数据是数据的描述数据,可以为数据说明其属性(名称、大小、数据类型等),或结构(字段、类型、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等)。DataWorks中元数据主要指库、表相关的信息,元数据管理对应的主要应用是数据地图

 

  补数据

    完成周期任务的开发,将任务提交发布之后,任务会按照调度配置定时运行。如果您希望对历史时间段内的数据进行计算,您可以使用补数据功能。补数据操作生成的补数据实例将按照指定的业务日期运行。

 

简单流程:

  进入DataWorks控制台后:

   1.创建工作空间:

      基本配置中勾选MaxCompute;

   2.采集数据:创建数据源(通过DataWorks采集数据至MaxCompute)

      工作空间  >  数据集成  >  左侧导航栏选择数据源  >  数据源管理  >  右上角新增数据源;

   3.新建业务流程和数据同步节点:

      创建虚拟节点  >  其他节点 (拖拽连接上下游) >  配置节点信息;

   4.新建表:

      右键单击MaxCompute,选择新建 > 表  >  在新建表的编辑页面完成表结构信息  >  提交到开发环境和生产环境;

   5.同步数据:

      双击第3步创建好的数据同步节点,进入节点配置界面,输入第2步的数据源和第4步的数据去向; 

参数 描述 
任务期望最大并发数  数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线
程数。向导模式通过界面化配置并发数,指定任务所使用的并行度
同步速率   设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库
造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置
抽取速率
错误记录数 错误记录数,表示脏数据的最大容忍条数
任务资源组 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源
的情况,建议购买独享数据集成资源或添加自定义资源组

推荐阅读