详情页标题前

阿里云大数据开发治理平台 DataWorks数据质量概述-云淘科技

详情页1

数据质量帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本、避免任务重新运行带来的资源费用浪费。

费用说明

数据质量规则运行产生的费用由两部分组成:

  • DataWorks相关收费

    根据数据质量规则实例数进行按量收费,详情请参见:数据质量计费说明。

  • 非DataWorks收费

    数据质量规则校验会产生校验SQL并下推到引擎执行,数据质量规则运行将会产生引擎费用,各引擎计费细则请参考各引擎计费文档。例如,假设您使用MaxCompute引擎按量付费模式时,数据质量规则校验将会产生MaxCompute引擎费用,此费用由MaxCompute引擎侧收取,不在DataWorks账单中体现。

功能介绍

数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助您第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。

数据质量各模块功能介绍如下:

名称 描述
概览 数据质量概览页面为您展示数据质量报警与阻塞情况。包括:

  • 当前登录账号及当前工作空间下离线数据和流式数据的报警和阻塞情况。
  • 当前工作空间下各数据源中任务的报警与阻塞趋势图。
我的订阅 我的订阅页面为您展示当前登录账号下通过短信,邮件接收报警的数据质量校验规则。此外,数据质量还支持通过钉钉群机器人、企业微信机器人和飞书群机器人等方式发送报警信息。
规则配置 数据质量支持按表配置或按模板配置质量监控规则,详情请参见:配置规则:按表(单表)、配置规则:按模板(批量)。
任务查询 在任务查询页面您可以通过表或节点搜索表历史校验记录及校验详情。
配置数据质量规则去噪 去噪管理功能支持对当前工作空间某一时间内,数据质量规则校验异常的数据不触发报警,且不阻塞任务运行。
报告模板管理 报告模板管理页面支持您创建报告模板,添加规则配置和规则运行的各项指标,根据设置的统计周期、发送时间和订阅信息,定时生成并发送报告。
规则模板库 数据质量支持自建规则模板库,对通用的自定义监控规则进行统一管理,形成自建的规则模板库,帮助您提升规则配置的效率。

注意事项

  • EMR、Hologres、analyticDB for PostgreSQL、CDH在进行数据质量规则配置前,需要先进行元数据采集,详情请参见元数据采集。
  • EMR、Hologres、analyticDB for PostgreSQL、CDH配置表数据质量规则后,产出表数据的调度节点需要使用网络已经连通的独享调度资源组执行才可以正常触发数据质量规则校验。
  • 一个表可以配置多个数据质量规则。

使用场景

在离线数据校验场景下,数据质量通过表配置的分区表达式来匹配节点每天产出的表分区,数据质量规则关联产出该表数据的调度节点,当任务运行完成便会触发质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大,并支持通过报警配置第一时间接收报警信息并处理。阿里云大数据开发治理平台 DataWorks数据质量概述-云淘科技

配置规则

  • 创建规则:数据质量支持您按表创建数据质量规则,同时,也支持您通过内置规则模板来快速为一批表批量创建数据质量规则。详情请参见:按表配置监控规则、配置规则:按模板(批量)。
  • 订阅规则:规则创建完成后,您可以通过规则订阅的方式接收数据质量规则校验报警信息,支持邮件通知、邮件和短信通知、钉钉群机器人、钉钉群机器人@ALL、飞书群机器人、企业微信机器人和自定义Webhook等方式进行报警。说明 仅DataWorks企业版版本支持使用自定义Webhook方式。

触发规则校验

在运维中心中,当表关联的调度节点运行(执行节点代码逻辑)完成后,将会触发数据质量校验(将会产生一条校验sql在底层执行)。DataWorks平台将会根据数据质量规则强弱和数据质量规则校验结果决定任务是否由于质量规则校验失败退出,并阻塞下游节点执行,防止脏数据影响范围进一步扩大。

查看校验结果

您可以通过运维中心节点运行日志和数据质量任务查询页面查看数据质量校验结果。

  • 通过运维中心节点运行日志查看
    1. 查看实例状态。当实例状态为质量监控校验失败时,可能是代码运行成功但节点产出的表数据不符合预期,数据质量强规则校验未通过导致任务失败退出并阻塞下游实例运行。阿里云大数据开发治理平台 DataWorks数据质量概述-云淘科技
    2. 打开实例运行日志中的DQC日志,查看数据质量校验结果。详情请参见查看周期实例。阿里云大数据开发治理平台 DataWorks数据质量概述-云淘科技
  • 通过数据质量任务查询界面查看。

    在任务查询界面通过表或节点搜索校验记录及校验详情。详情请参见:查看监控任务。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/166093.html

(0)
上一篇 2023年12月10日 上午8:26
下一篇 2023年12月10日 上午8:28
详情页2

相关推荐

  • 阿里云大数据开发治理平台 DataWorks数据质量教程概述-云淘科技

    数据质量是数据分析结论有效性和准确性的基础。本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。 前提条件 在开始本教程前,请您首先完成搭建互联网在线运行分析平台教程,详情请参见业务场景与开发流程。 业务场景 要保证业务数据质量,首先您需要明确数据的消费场景和加工链路。 本教程使用的数据来源于某网站上的HTTP访问日志。基于这份网站日志,您可以…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。