详情页标题前

阿里云云原生大数据计算服务 MaxCompute通过DataWorks数据集成迁移日志数据至MaxCompute-云淘科技

详情页1

本文为您介绍如何通过数据集成功能同步LogHub数据至MaxCompute。

背景信息

日志服务支持以下数据同步场景:

  • 跨地域的LogHub与MaxCompute等数据源的数据同步。

  • 不同阿里云账号下的LogHub与MaxCompute等数据源间的数据同步。

  • 同一阿里云账号下的LogHub与MaxCompute等数据源间的数据同步。

  • 公共云与金融云账号下的LogHub与MaxCompute等数据源间的数据同步。

以B账号进入数据集成配置同步任务,将A账号的LogHub数据同步至B账号的MaxCompute为例,跨阿里云账号的特别说明如下:

  1. 使用A账号的AccessKey ID和AccessKey Secret创建LogHub数据源。

    此时B账号可以同步A账号下所有日志服务项目的数据。

  2. 使用A账号下的RAM用户A1的AccessKey ID和AccessKey Secret创建LogHub数据源。

    • A账号为RAM用户A1赋予日志服务的通用权限,即AliyunLogFullAccessAliyunLogReadOnlyAccess,详情请参见创建RAM用户及授权。

    • A账号给RAM用户A1赋予日志服务的自定义权限。

      主账号A进入RAM控制台 > 权限管理 > 权限策略页面,单击创建权限策略

      相关的授权请参见简介和概览。

      根据下述策略进行授权后,B账号通过RAM用户A1只能同步日志服务project_name1以及project_name2的数据。

      {
      "Version": "1",
      "Statement": [
      {
      "Action": [
      "log:Get*",
      "log:List*",
      "log:CreateConsumerGroup",
      "log:UpdateConsumerGroup",
      "log:DeleteConsumerGroup",
      "log:ListConsumerGroup",
      "log:ConsumerGroupUpdateCheckPoint",
      "log:ConsumerGroupHeartBeat",
      "log:GetConsumerGroupCheckPoint"
      ],
      "Resource": [
      "acs:log:*:*:project/project_name1",
      "acs:log:*:*:project/project_name1/*",
      "acs:log:*:*:project/project_name2",
      "acs:log:*:*:project/project_name2/*"
      ],
      "Effect": "Allow"
      }
      ]
      }

新建LogHub数据源

  1. 登录DataWorks控制台,单击左侧导航栏的数据集成,在下拉框中选择对应工作空间后单击进入数据集成

  2. 单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。

  3. 数据源管理页面,单击右上角的新增数据源

  4. 新增数据源对话框中,选择数据源类型为LogHub

  5. 填写新增LogHub数据源对话框中的配置。

    参数

    描述

    数据源名称

    数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。

    数据源描述

    对数据源进行简单描述,不得超过80个字符。

    LogHub Endpoint

    LogHub的Endpoint,格式为http://example.com。详情请参见服务入口。

    Project

    输入项目名称。

    AccessKey ID

    访问密钥中的AccessKey ID,您可以进入控制台的用户信息管理页面进行复制。

    AccessKey Secret

    访问密钥中的AccessKey Secret,相当于登录密码。

  6. 单击测试连通性

  7. 连通性测试通过后,单击完成

新建离线同步节点

  1. 数据源页面,单击左上角的图标,选择全部产品 > DataStudio(数据开发)

  2. 数据开发页面,鼠标悬停至阿里云云原生大数据计算服务 MaxCompute通过DataWorks数据集成迁移日志数据至MaxCompute-云淘科技图标,单击业务流程

  3. 新建业务流程对话框中,输入业务流程名称描述,单击新建

  4. 展开业务流程,右键单击数据集成,选择新建节点 > 离线同步

  5. 新建节点对话框中,输入节点名称,并选择路径

  6. 单击确认,进入离线节点编辑页面。

通过向导模式配置同步任务

  1. 在离线节点编辑页面,选择数据来源。

    阿里云云原生大数据计算服务 MaxCompute通过DataWorks数据集成迁移日志数据至MaxCompute-云淘科技

    参数

    描述

    数据源

    输入LogHub数据源的名称。

    Logstore

    目标日志库的名称。

    日志开始时间

    数据消费的开始时间位点,为时间范围(左闭右开)的左边界,为yyyyMMddHHmmss格式的时间字符串(例如20180111013000)。该参数可以和DataWorks的调度时间参数配合使用。

    日志结束时间

    数据消费的结束时间位点,为时间范围(左闭右开)的右边界,为yyyyMMddHHmmss格式的时间字符串(例如20180111013010)。该参数可以和DataWorks的调度时间参数配合使用。

    批量条数

    一次读取的数据条数,默认为256。

    说明

    您可以进行数据预览,此处仅选择LogHub中的几条数据展现在预览框。由于您在进行同步任务时,会指定开始时间和结束时间,会导致预览结果和实际的同步结果不一致。

  2. 选择MaxCompute数据源及目标表。

  3. 选择字段的映射关系。

  4. 通道控制中配置作业速率上限和脏数据检查规则。

  5. 确认当前节点的配置无误后,单击左上角的保存

  6. 运行离线同步节点。

    您可以通过以下两种方式运行离线同步节点:

    • 直接运行(一次性运行)

      单击节点编辑页面工具栏中的运行图标,直接在页面运行。

      说明

      运行之前需要配置自定义参数的具体取值。

    • 调度运行

      单击节点编辑页面工具栏中的提交图标,提交离线同步节点至调度系统,调度系统会根据配置的属性,从第2天开始自动定时运行。阿里云云原生大数据计算服务 MaxCompute通过DataWorks数据集成迁移日志数据至MaxCompute-云淘科技

      如上图所示,设置开始时间为系统前10分钟,结束时间为系统前5分钟:startTime=$[yyyymmddhh24miss-10/24/60] endTime=$[yyyymmddhh24miss-5/24/60]。阿里云云原生大数据计算服务 MaxCompute通过DataWorks数据集成迁移日志数据至MaxCompute-云淘科技

      如上图所示,设置离线同步节点的调度周期为分钟,从00:00~23:59每5分钟调度一次。

通过脚本模式配置离线同步节点

  1. 成功创建离线同步节点后,单击工具栏中的转换脚本

    阿里云云原生大数据计算服务 MaxCompute通过DataWorks数据集成迁移日志数据至MaxCompute-云淘科技

  2. 单击提示对话框中的确认,即可进入脚本模式进行开发。

  3. 单击工具栏中的导入模板

    阿里云云原生大数据计算服务 MaxCompute通过DataWorks数据集成迁移日志数据至MaxCompute-云淘科技

  4. 导入模板对话框中,选择从来源端的LogHub数据源同步至目标端的ODPS数据源的导入模板,单击确认

  5. 导入模板后,根据自身需求编辑代码,示例脚本如下。

    {
    "type": "job",
    "version": "1.0",
    "configuration": {
    "reader": {
    "plugin": "loghub",
    "parameter": {
    "datasource": "loghub_lzz",//数据源名,需要和您添加的数据源名一致。
    "logstore": "logstore-ut2",//目标日志库的名字,LogStore是日志服务中日志数据的采集、存储和查询单元。
    "beginDateTime": "${startTime}",//数据消费的开始时间位点,为时间范围(左闭右开)的左边界。
    "endDateTime": "${endTime}",//数据消费的结束时间位点,为时间范围(左闭右开)的右边界。
    "batchSize": 256,//一次读取的数据条数,默认为256。
    "splitPk": "",
    "column": [
    "key1",
    "key2",
    "key3"
    ]
    }
    },
    "writer": {
    "plugin": "odps",
    "parameter": {
    "datasource": "odps_first",//数据源名,需要和您添加的数据源名一致。
    "table": "ok",//目标表名。
    "truncate": true,
    "partition": "",//分区信息。
    "column": [//目标列名。
    "key1",
    "key2",
    "key3"
    ]
    }
    },
    "setting": {
    "speed": {
    "mbps": 8,//作业速率上限,此处1mbps = 1MB/s。
    "concurrent": 7//并发数。
    }
    }
    }
    }

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/158784.html

(0)
上一篇 2023年12月10日 上午1:26
下一篇 2023年12月10日 上午1:27
详情页2

相关推荐

  • 阿里云云原生大数据计算服务 MaxCompute欠费预警消息设置-云淘科技

    本文为您介绍欠费预警消息接收人设置,避免因MaxCompute欠费预警消息未及时接收到,而对您的业务造成影响。 背景信息 阿里云账户平台提供了欠费预警消息设置功能,在MaxCompute即将欠费时,阿里云平台会以邮箱或短信方式通知您。 说明 MaxCompute欠费后的影响,请参见欠费与停服说明。 MaxCompute欠费后,为避免对您的业务造成影响,请及时…

    2023年12月10日
  • 阿里云云原生大数据计算服务 MaxCompute通过Tunnel迁移日志数据至MaxCompute-云淘科技

    本文为您介绍如何通过Tunnel上传日志数据至MaxCompute。 前提条件 安装MaxCompute客户端,详情请参见安装并配置MaxCompute客户端。 将日志数据保存至本地。本文使用的示例数据为loghub.csv。 背景信息 Tunnel是MaxCompute的批量上传数据工具,适用于离线计算场景。Tunnel详细信息请参见Tunnel使用说明。…

    2023年12月10日
  • 阿里云日志服务SLSLogstash消费-云淘科技

    日志服务支持通过Logstash消费数据,您可以通过配置日志服务的Input插件对接Logstash获取日志服务中的数据并写入到其他系统中,例如Kafka、HDFS等。 功能特性 分布式协同消费:可配置多台服务器同时消费某一个Logstore。 高性能:基于Java ConsumerGroup实现,单核消费速度可达20 MB/s(压缩前)。 高可靠性:消费进…

    阿里云日志服务SLS 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云人工智能平台PAI通用视频预测-云淘科技

    对于通过视频训练类组件获得的视频模型,您可以使用通用视频预测组件对其进行离线推理。本文介绍通用视频预测组件的配置方法及使用示例。 前提条件 已开通OSS并完成授权,详情请参见开通OSS服务和PAI访问云产品授权:OSS。 使用限制 仅PAI-Designer提供该算法组件。 算法简介 通用视频预测组件位于组件库视觉算法文件夹下的离线模型预测子文件夹,可以对所…

    2023年12月10日
  • 阿里云日志服务SLS时序数据查询和分析简介-云淘科技

    本文介绍时序数据的查询和分析语法及使用限制。 日志服务提供如下三种时序数据查询和分析方式: PromQL语法:使用PromQL(Prometheus的查询语言)语法简化对时序数据的查询和分析。更多信息,请参见Prometheus官方文档。 SQL语法:根据时序数据的编码方式进行查询和分析。 SQL+PromQL语法:使用SQL语法与日志服务提供5个PromQ…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。