详情页标题前

阿里云大数据开发治理平台 DataWorks场景:配置增量数据离线同步任务-云淘科技

详情页1

离线同步任务支持您通过配置类似数据过滤的功能来决定同步全量数据还是增量数据,配置过滤条件时,将只同步满足过滤条件的数据。同时,过滤条件可以结合调度参数使用,实现过滤条件随任务调度时间的动态变化,进而实现增量数据的同步。为您介绍如何配置增量数据同步任务。

使用说明

  • 部分数据源暂无增量同步方案,例如HBase、OTSStream数据源等。具体数据源是否支持增量同步可以看具体的Reader插件文档。
  • 每个插件实现增量同步的所配置的参数可能不同,具体参数配置可以参考对应的Reader插件文档,详情可参考:支持的数据源与读写插件。例如:
    数据库类型 增量同步需配置的参数 支持的语法
    MySQL Reader where说明 向导模式配置时,需要配置的界面参数名为:数据过滤。 数据库语法说明 可与调度参数结合实现每日读取指定时间区间的数据。
    MongoDB Reader query说明 向导模式配置时,需要配置的界面参数名为:检索查询条件。 基本与数据库一致说明 可与调度参数结合实现每日读取指定时间区间的数据。
    OSS Reader Object 指定路径说明 与调度参数结合实现每日读取指定文件数据。

配置增量同步

数据集成离线同步任务中,可以使用调度参数来指定同步源表及目标表的数据路径以及数据范围,调度参数的配置方式与其他类型任务一致,没有特殊限制。

在同步任务运行时,任务中配置的占位符参数都会被替换为调度参数表达式所表达的实际值,然后再执行数据同步。

以同步MySQL数据为例:

  • 当不配置数据过滤时,默认同步全量数据至目标表中。
  • 当配置数据过滤时,将只同步满足过滤条件的数据至目标表中。

目标MaxCompute表分区名称以调度参数的方式指定,$bizdate表示业务日期,定时任务执行时,任务配置的分区表达式会替换为调度参数所表达的业务日期。调度参数表达式的详细配置说明请参考文档:配置并使用调度参数。阿里云大数据开发治理平台 DataWorks场景:配置增量数据离线同步任务-云淘科技配置增量数据同步时:

  • 时间类型增量字段同步:可以通过调度参数来实现时间类型数据的动态替换,调度参数将在任务调度时自动根据业务时间替换为具体的值。关于调度参数的使用,详情请参见:调度参数支持的格式。
  • 非时间类型增量字段同步:可以通过赋值节点将字段处理为目标数据类型后,再传入数据集成进行数据同步。关于赋值节点的使用详情请参见:赋值节点。

场景示例

  • 同步历史数据:如果您需要将历史增量数据同步至目标表对应时间分区,您可以使用运维中心补数据功能。补数据功能使用详情请参见:执行补数据并查看补数据实例。阿里云大数据开发治理平台 DataWorks场景:配置增量数据离线同步任务-云淘科技
  • RDS增量数据同步至MaxCompute

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/172157.html

(0)
上一篇 2023年12月10日 下午3:36
下一篇 2023年12月10日 下午3:37
详情页2

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。