详情页标题前

阿里云大数据开发治理平台 DataWorks实时同步能力说明-云淘科技

详情页1

DataWorks为您提供的实时数据同步功能,方便您使用单表或整库同步方式,将源端数据库中部分或全部表的数据变化实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。

使用限制

  • 实时同步不支持在数据开发界面运行任务,您需要保存、提交实时同步节点后,在生产环境运维中心运行该节点。
  • 实时同步仅支持运行在独享数据集成资源组上,详情请参见独享数据集成资源组。
  • 实时同步任务不支持同步视图。

注意事项

目前除迪拜、英国(伦敦)、马来西亚(吉隆坡)地域,其余地域均已开通实时同步能力。说明 马来西亚(吉隆坡)地域正在建设中,敬请期待。

功能概述

实时同步支持的能力如下图所示:阿里云大数据开发治理平台 DataWorks实时同步能力说明-云淘科技

功能 描述
多种数据源间的数据同步 实时同步支持多种数据源星型链路组合,您可以将多种输入及输出数据源搭配组成同步链路进行数据同步。详情请参见实时同步支持的数据源。
复杂网络环境下的数据同步 支持云数据库、本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。您可以根据数据库所在网络环境,选择合适的同步解决方案来实现数据源与资源组的网络连通。在配置同步任务前,您需要确保数据集成资源组与您将同步的数据来源端与目标端网络环境已经连通,对应数据库环境与网络连通配置详情请参见:配置资源组与网络连通。
数据同步场景 实时同步支持单表实时增量数据同步至目标端单表、分库分表实时增量数据同步至目标端单表、整库(多表)实时增量数据同步至目标多表。

  • 单表增量数据实时同步:支持单表ETL实时同步。
  • 整库增量数据实时同步:
    • 支持将整个数据库的变化日志同步到目标端中,一般用作纯实时日志的收集。
    • 支持一次性配置一个实例下多个库的多个表,一个任务中最多支持3000个目标表。

说明 实时同步模块仅进行增量数据实时同步,若您希望全增量数据实时同步,即一次性将全量数据至目标端,然后增量数据进行实时同步,您可选择同步解决方案模块,将源端库持续不停地同步到目标端中,实现目标端对于源端的镜像效果。更多关于同步方案选择请参见:选择同步方案概述。

实时同步任务配置实时同步任务配置时支持的能力如下,您无需编写代码,通过简单的任务配置即可实现单表ETL实时同步,整库实时数据的收集。详情请参见:配置单表实时同步任务、配置整库实时同步任务。

  • 单表增量数据实时同步:
    • 支持图形化开发。无需编写代码,直接通过拖拽的方式即可进行任务的开发,业务新手也能够轻松上手。
    • 单表ETL实时同步。您可以对输入的数据源进行数据过滤、字符串替换和数据脱敏处理,再将处理后的数据输出至目标数据库。
      • 数据过滤:可以对数据进行规则过滤,例如过滤字段的大小等,符合规则的数据才会被保留。
      • 字符串替换:可以通过字符串替换节点替换字符串类型的字段。
      • 数据脱敏:可以对实时同步的单表数据进行脱敏,将脱敏后的数据输出至目标数据库。
  • 整库增量数据实时同步:
    • 自定义目标schema名或表名

      实时同步默认将增量数据写入到目标端的同名schema或同名表中,如果schema或表不存在,将默认新建,并支持您自定义目标schema或表名。

    • 为目标字段赋值实时同步默认同名映射,将源端字段写入目标端同名字段中,未映射成功的字段将无法同步。同时,支持您为目标表新增字段并为字段赋值常量或变量。说明 数据集成实时同步在同步MySQL、Oracle、Loghub和PolarDB类型的数据至DataHub或Kafka时,会在同步的目标端添加5个附加列,以便进行元数据管理、排序、去重等操作。详情请参见实时同步字段格式。
    • 定义DDL/DML消息处理策略来源数据源会包含许多DDL操作,进行实时同步时,您可以根据业务需求,对不同的DDL消息设置同步至目标端的处理策略。说明 关于实时同步各目标端支持的DML与DDL操作详情请参见:支持的DML及DDL操作。
实时同步任务运维
  • 支持对同步任务设置监控报警
    • 支持断点续传。
    • 支持对业务延迟、Failover、DDL策略、心跳检查设置监控报警。详情请参见:实时同步任务运维。
    • 并通过邮件、短信、电话和钉钉等方式将报警信息发送给报警接收人,方便您及时发现并处理任务异常。
    • 支报警疲劳度控制。为了避免短时间内产生大量报警,DataWorks支持您设置当前规则在指定时间间隔内只发送一次报警信息。
  • 支持定义脏数据及对任务的影响
    • 当不允许脏数据产生时,则同步任务执行过程中如果产生脏数据,任务将失败退出。
    • 当允许脏数据并设置其阈值时,同步任务将忽略脏数据(即不会写入目标端),并正常执行。

    说明 脏数据相关介绍详情请参见:基本概念。

常见问题

实时同步任务常见问题请参见实时同步常见问题。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/166032.html

(0)
上一篇 2023年12月10日 上午8:24
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云大数据开发治理平台 DataWorks实时同步任务运维-云淘科技

    当您在DataStudio中完成任务开发,并发布至生产环境后,您可以进入运维中心运行实时同步任务,同时,您还可以在运维中心监控任务运行状态、查看任务运行指标等。本文列举实时同步任务的常见运维操作。 前提条件 已完成实时同步任务的创建、发布。详情请参见:配置单表增量数据实时同步任务、配置整库增量数据实时同步任务。 运行与管理实时同步任务 任务配置完成后,您可以…

    2023年12月10日
  • 阿里云大数据开发治理平台 DataWorks数据集成概述-云淘科技

    数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。 使用限制 数据同步: 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步OSS中存放完全非…

  • 阿里云大数据开发治理平台 DataWorks数据集成-云淘科技

    DataWorks数据集成支持复杂网络环境下的数据同步,您可在数据开发(DataStudio)界面直接创建离线同步节点,用于离线(批量)数据周期性同步;实时同步任务运维,用于单表或整库增量数据实时同步。本文为您介绍数据同步的相关内容。 背景信息 除数据开发(DataStudio)的数据同步节点外,数据集成模块还支持多种类型同步方案,例如,全增量数据实时同步,…

  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云大数据开发治理平台 DataWorks数据集成概述-云淘科技

    数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。 使用限制 数据同步: 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步OSS中存放完全非…

    2023年12月10日
  • 阿里云大数据开发治理平台 DataWorksDataStudio侧实时同步任务配置-云淘科技

    完成数据源、网络、资源的准备配置后,您可创建实时同步节点,将多种输入及输出数据源搭配组成同步链路,进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务,并在创建完成后查看任务运行情况。 前提条件 已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。