详情页标题前

阿里云大数据开发治理平台 DataWorksLogHub(SLS)数据源-云淘科技

详情页1

LogHub(SLS)数据源为您提供读取和写入LogHub(SLS)双向通道的功能,本文为您介绍DataWorks的LogHub(SLS)数据同步的能力支持情况。

使用限制

数据集成离线写LogHub(SLS)时,由于LogHub(SLS)无法实现幂等,FailOver重跑任务时会引起数据重复。

支持的字段类型

数据集成支持读写的LogHub(SLS)字段类型如下。

字段类型

离线读(LogHub(SLS) Reader)

离线写(LogHub(SLS) Writer)

实时读

STRING

支持

支持

支持

其中:

  • 离线写LogHub(SLS)时

    会将支持同步的各类型数据均转换成STRING类型后写入LogHub(SLS)。LogHub(SLS) Writer针对LogHub(SLS)类型的转换列表,如下所示。

    支持的数据集成内部类型

    写入LogHub(SLS)时的数据类型

    LONG

    STRING

    DOUBLE

    STRING

    STRING

    STRING

    DATE

    STRING

    BOOLEAN

    STRING

    BYTES

    STRING

  • 实时读LogHub(SLS)时

    会自带以下元数据字段。

    LogHub(SLS)实时同步字段

    数据类型

    说明

    __time__

    STRING

    SLS保留字段:__time__写入日志数据时指定的日志时间,unix时间戳,单位为秒。

    __source__

    STRING

    SLS保留字段:__source__日志来源设备。

    __topic__

    STRING

    SLS保留字段:__topic__topic名称。

    __tag__:__receive_time__

    STRING

    日志到达服务端的时间。开启记录外网IP功能后,服务端接收日志时为原始日志追加该字段。unix时间戳,单位为秒。

    __tag__:__client_ip__

    STRING

    日志来源设备的公网IP。开启记录外网IP功能后,服务端接收日志时为原始日志追加该字段。

    __tag__:__path__

    STRING

    Logtail采集的日志文件路径,Logtail为日志自动追加该字段。

    __tag__:__hostname__

    STRING

    Logtail采集数据的来源机器主机名,Logtail为日志自动追加该字段。

数据同步任务开发:LogHub(SLS)同步流程引导

LogHub(SLS)数据同步任务的配置入口和通用配置流程指导可参见下文的配置指导,详细的配置参数解释可在配置界面查看对应参数的文案提示。

创建数据源

在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见创建与管理数据源。

单表离线同步任务配置指导

  • 操作流程请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。

  • 脚本模式配置的全量参数和脚本Demo请参见下文的附录:LogHub(SLS)脚本Demo与参数说明。

单表实时同步任务配置指导

操作流程请参见配置单表增量数据实时同步、DataStudio侧实时同步任务配置。

整库离线、整库(实时)全增量、整库(实时)分库分表等整库级别同步配置指导

操作流程请参见数据集成侧同步任务配置。

常见问题

  • 读取Loghub同步某字段有数据但是同步过来为空

  • 读取Loghub同步少数据

  • 读取Loghub字段映射时读到的字段不符合预期

更多其他数据集成常见问题请参见数据集成常见问题。

附录:LogHub(SLS)脚本Demo与参数说明

附录:离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置,您需要在任务脚本中按照脚本的统一格式要求编写脚本中的reader参数和writer参数,脚本模式的统一要求请参见通过脚本模式配置离线同步任务,以下为您介绍脚本模式下的数据源的Reader参数和Writer参数的指导详情。

LogHub(SLS) Reader脚本Demo

{
 "type":"job",
 "version":"2.0",//版本号。
 "steps":[
     {
         "stepType":"LogHub",//插件名。
         "parameter":{
             "datasource":"",//数据源。
             "column":[//字段。
                 "col0",
                 "col1",
                 "col2",
                 "col3",
                 "col4",
                 "C_Category",
                 "C_Source",
                 "C_Topic",
                 "C_MachineUUID", //日志主题。
                 "C_HostName", //主机名。
                 "C_Path", //路径。
                 "C_LogTime" //事件时间。
             ],
             "beginDateTime":"",//数据消费的开始时间位点。
             "batchSize":"",//一次从日志服务查询的数据条数。
             "endDateTime":"",//数据消费的结束时间位点。
             "fieldDelimiter":",",//列分隔符。
             "logstore":""//:目标日志库的名字。
         },
         "name":"Reader",
         "category":"reader"
     },
     { 
         "stepType":"stream",
         "parameter":{},
         "name":"Writer",
         "category":"writer"
     }
 ],
 "setting":{
     "errorLimit":{
         "record":"0"//错误记录数。
     },
     "speed":{
         "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1 //作业并发数。
            "mbps":"12",//限流,此处1mbps = 1MB/s。
     }
 },
 "order":{
     "hops":[
         {
             "from":"Reader",
             "to":"Writer"
         }
     ]
 }
}

LogHub(SLS) Reader脚本参数

参数

描述

是否必选

默认值

endPoint

日志服务入口endPoint是访问一个项目(Project)及其内部日志数据的URL。它和Project所在的阿里云地域(Region)及Project名称相关。各地域的服务入口请参见服务入口。

accessId

访问日志服务的访问密钥,用于标识用户。

accessKey

访问日志服务的访问密钥,用来验证用户的密钥。

project

目标日志服务的项目名称,是日志服务中的资源管理单元,用于隔离和控制资源。

logstore

目标日志库的名称,logstore是日志服务中日志数据的采集、存储和查询单元。

batchSize

一次从日志服务查询的数据条数。

128

column

每条数据中的列名,此处可以配置日志服务中的元数据作为同步列。日志服务支持日志主题、采集机器唯一标识、主机名、路径和日志时间等元数据。

说明

列名区分大小写。元数据的写法请参见日志服务机器组。

beginDateTime

数据消费的开始时间位点,即日志数据到达LogHub(SLS)的时间。该参数为时间范围(左闭右开)的左边界,yyyyMMddHHmmss格式的时间字符串(例如20180111013000),可以和DataWorks的调度时间参数配合使用。

例如,您在节点编辑页面右侧的调度配置,在参数中配置beginDateTime=${yyyymmdd-1},则在日志开始时间处配置为${beginDateTime}000000,表示获取的日志开始时间为业务日期的0点0分0秒。详情请参见调度参数支持的格式。

说明

beginDateTime和endDateTime需要互相组合配套使用。

endDateTime

数据消费的结束时间位点,为时间范围(左闭右开)的右边界,yyyyMMddHHmmss格式的时间字符串(例如20180111013010),可以和DataWorks的调度时间参数配合使用。

例如,您在节点编辑页面右侧的调度配置,在参数中配置endDateTime=${yyyymmdd},则在日志结束时间处配置为${endDateTime}000000,表示获取的日志结束时间为业务日期后一天的0点0分0秒。详情请参见调度参数支持的格式。

说明

上一周期的endDateTime需要和下一周期的beginDateTime保持一致,或晚于下一周期的beginDateTime。否则,可能无法拉取部分区域的数据。

LogHub(SLS) writer脚本Demo

{
    "type": "job",
    "version": "2.0",//版本号。
    "steps": [
        { 
            "stepType": "stream",
            "parameter": {},
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "LogHub",//插件名。
            "parameter": {
                "datasource": "",//数据源。
                "column": [//字段。
                    "col0",
                    "col1",
                    "col2",
                    "col3",
                    "col4",
                    "col5"
                ],
                "topic": "",//选取topic。
                "batchSize": "1024",//一次性批量提交的记录数大小。
                "logstore": ""//目标LogService LogStore的名称。
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": ""//错误记录数。
        },
        "speed": {
            "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":3, //作业并发数。
            "mbps":"12"//限流,此处1mbps = 1MB/s。
        }
    },
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    }
}

LogHub(SLS) Writer脚本参数

说明

LogHub(SLS) Writer通过数据集成框架获取Reader生成的数据,然后将数据集成支持的类型通过逐一判断转换成STRING类型。当达到您指定的batchSize时,会使用LogService Java SDK一次性推送至LogHub(SLS)。

参数

描述

是否必选

默认值

endpoint

日志服务入口endPoint是访问一个项目(Project)及其内部日志数据的URL。它和Project所在的阿里云地域(Region)及Project名称相关。各地域的服务入口请参见:服务入口。

accessKeyId

访问日志服务的AccessKeyId

accessKeySecret

访问日志服务的AccessKeySecret。

project

目标日志服务的项目名称。

logstore

目标日志库的名称,logstore是日志服务中日志数据的采集、存储和查询单元。

topic

目标日志服务的topic名称。

空字符串

batchSize

LogHub(SLS)一次同步的数据条数,默认1,024条,最大值为4,096。

说明

一次性同步至LogHub(SLS)的数据大小不要超过5M,请根据您的单条数据量大小调整一次性推送的条数。

1,024

column

每条数据中的column名称。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/171565.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云RDS数据库RebuildDBInstance – 将RDS主机组内实例的备实例重建-云淘科技

    调用RebuildDBInstance接口重建专属集群中的RDS备实例。 接口说明 专属集群功能以集群形式批量管理实例,一个地域可以创建多个专属集群,一个专属集群包含多个主机,一个主机包含多个实例。详情请参见专属集群简介。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自…

    阿里云数据库 2023年12月9日
  • 阿里云人工智能平台PAI读数据表-云淘科技

    读数据表组件用于读取MaxCompute表数据,默认读取本项目的表数据。如果跨项目读取表数据,则需要在表名前添加项目名。 说明 目前Designer(原PAI-Studio)算法组件支持读取的数据类型为DOUBLE、BIGINT、STRING、BOOLEAN、DATETIME。读数据表组件支持读取所有类型数据,为了避免在后续算法组件中报错,您可以在读数据表下…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云日志服务SLS使用Java SDK管理消费组-云淘科技

    通过消费组(ConsumerGroup)消费日志数据有显著优点,您无需关注日志服务的实现细节和消费者之间的负载均衡、Failover等,只需关注业务逻辑。本文通过代码示例介绍如何创建、修改、查询、删除消费组等。 前提条件 已创建RAM用户并完成授权。具体操作,请参见创建RAM用户并完成授权。 已配置环境变量ALIBABA_CLOUD_ACCESS_KEY_I…

    阿里云日志服务SLS 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云对象存储OSS圆角矩形-云淘科技

    您可以通过圆角矩形参数,将存储在OSS内矩形图片的4个角切成圆角。本文介绍使用圆角矩形裁剪图片时所用到的参数及示例。 参数说明 操作名称:rounded-corners 参数说明如下: 参数 描述 取值范围 r 将图片切出圆角,指定圆角的半径。 [1,4096] 注意事项 如果图片的最终格式是PNG、WebP、BMP等支持透明通道的图片,那么图片圆角外的区域…

    2023年12月10日
  • 阿里云容器服务ACK通用数据结构-云淘科技

    addon 集群组件配置。 参数名称 类型 示例值 描述 name String nginx-ingress-controller 组件名称。 config String {\”IngressSlbNetworkType\”:\”internet\”} 组件配置。 disabled Boolean false …

    阿里云容器服务 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。