详情页标题前

阿里云大数据开发治理平台 DataWorksClickHouse数据源-云淘科技

详情页1

ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能,本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。

支持的版本

  • 支持阿里云ClickHouse的20.8、21.8内核版本。

  • 您需要确认驱动和您的ClickHouse服务之间的兼容能力,数据库驱动使用如下版本。

    
        ru.yandex.clickhouse
        clickhouse-jdbc
        0.2.4
    

使用限制

离线读写

  • 仅支持使用独享数据集成资源组。

  • 支持使用JDBC连接ClickHouse,且仅支持使用JDBC Statement读取数据。

  • 支持筛选部分列、列换序等功能,您可以自行填写列。

  • 考虑到ClickHouse负载问题,ClickHouse Writer使用INSERT模式时,建议您限流系统吞吐量(TPS)最高为1,000。

支持的字段类型

支持阿里云ClickHouse以下常见的数据类型,阿里云ClickHouse的数据类型全集请参见数据类型,开源ClickHouse官方数据类型集合中的其他类型暂不支持,开源ClickHouse数据类型全集请参见ClickHouse Doc。

数据类型

ClickHouse Reader

ClickHouse Writer

Int8

支持

支持

Int16

支持

支持

Int32

支持

支持

Int64

支持

支持

UInt8

支持

支持

UInt16

支持

支持

UInt32

支持

支持

UInt64

支持

支持

Float32

支持

支持

Float64

支持

支持

Decimal

支持

支持

String

支持

支持

FixedString

支持

支持

Date

支持

支持

DateTime

支持

支持

DateTime64

支持

支持

Boolean

支持

说明

ClickHouse没有单独的Boolean类型,可使用UInt8、Int8

支持

Array

部分支持。

数组元素类型是整型、浮点数、字符串类型、DateTime64毫秒精度时支持。

支持

Tuple

支持

支持

Domain(IPv4,IPv6)

支持

支持

Enum8

支持

支持

Enum16

支持

支持

Nullable

支持

支持

Nested

部分支持。

Nested内嵌套数据类型是整型、浮点数、字符串类型、DateTime64毫秒精度时支持。

支持

数据同步任务开发

ClickHouse数据同步任务的配置入口和通用配置流程指导可参见下文的配置指导,详细的配置参数解释可在配置界面查看对应参数的文案提示。

创建数据源

在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见创建与管理数据源。

单表离线同步任务配置指导

  • 操作流程请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。

  • 脚本模式配置的全量参数和脚本Demo请参见下文的附录:脚本Demo与参数说明。

整库离线读同步配置指导

操作流程请参见数据集成侧同步任务配置。

附录:脚本Demo与参数说明

附录:离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置,您需要在任务脚本中按照脚本的统一格式要求编写脚本中的reader参数和writer参数,脚本模式的统一要求请参见通过脚本模式配置离线同步任务,以下为您介绍脚本模式下的数据源的Reader参数和Writer参数的指导详情。

ClickHouse Reader脚本Demo

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "clickhouse", //插件名。
            "parameter": {
                "fetchSize":1024,//该配置项定义了插件和数据库服务器端每次批量数据获取条数。
                "datasource": "example",
                "column": [   //列名。
                    "id",
                    "name"
                ],
                "where": "",    //过滤条件。
                "splitPk": "",  //切分键。
                "table": ""    //表名。
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "clickhouse",
            "parameter": {
                "postSql": [
                    "update @table set db_modify_time = now() where db_id = 1"
                ],
                "datasource": "example",    //数据源。
                "batchByteSize": "67108864",
                "column": [
                    "id",
                    "name"
                ],
                "writeMode": "insert",
                "encoding": "UTF-8",
                "batchSize": 1024,
                "table": "ClickHouse_table",
                "preSql": [
                    "delete from @table where db_id = -1"
                ]
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "executeMode": null,
        "errorLimit": {
            "record": "0"  //同步过程中的错误记录限流数。
        },
        "speed": {
         "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1 //作业并发数。
            "mbps":"12",//限流,此处1mbps = 1MB/s。
        }
    },
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    }
}

ClickHouse Reader脚本参数

参数

描述

是否必选

默认值

datasource

数据源名称,脚本模式支持添加数据源,此配置项填写的内容必须要与添加的数据源名称保持一致。

table

所选取的需要同步的表。使用JSON数据进行描述。

说明

table必须包含在connection配置单元中。

fetchSize

该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了数据同步系统和服务器端的网络交互次数,能够提升数据抽取性能。

说明

fetchSize值过大会造成数据同步进程OOM,需要根据ClickHouse负载情况递增。

1,024

column

需要读取的ClickHouse数据,字段之间用英文逗号分隔。例如”column”: [“id”, “name”, “age”]。

说明

column配置项必须指定,不能为空。

jdbcUrl

到源端数据库的JDBC连接信息,jdbcUrl包含在connection配置单元中。

  • 在一个数据库上只能配置一个值。

  • jdbcUrl的格式和ClickHouse官方一致,并可以连接附加参数信息。例如:jdbc:clickhouse://localhost:3306/test?user=root&password=&useUnicode=true&characterEncoding=gbk &autoReconnect=true&failOverReadOnly=false。

username

数据源的用户名。

password

数据源指定用户名的密码。

splitPk

ClickHouse进行数据抽取时,如果指定splitPk,表示您希望使用splitPk代表的字段进行数据分片,数据同步因此会启动并发任务进行数据同步,提高数据同步的效能。

说明

当配置了splitPk时,fetchSize参数为必填项。

where

筛选条件,在实际业务场景中,往往会选择当天的数据进行同步,将where条件指定为gmt_create>$bizdate

where条件可以有效地进行业务增量同步。如果不填写where语句,包括不提供where的key或value,数据同步均视作同步全量数据。

ClickHouse writer脚本Demo

{
    "type":"job",
    "version":"2.0",//版本号。
    "steps":[
        {
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"clickhouse",//插件名。
            "parameter":{
                "username": "",
                "password": "",
                "column": [//字段。
                    "id",
                    "name"
                ],
                "connection": [
                    {
                        "table": [//表名。
                            "ClickHouse_table"
                        ],
                        "jdbcUrl": "jdbc:clickhouse://ip:port/database"
                    }
                ],
                "preSql": [ //执行数据同步任务之前率先执行的SQL语句。
                    "TRUNCATETABLEIFEXISTStablename"
                ],
                "postSql": [//执行数据同步任务之后率先执行的SQL语句。
                    "ALTERTABLEtablenameUPDATEcol1=1WHEREcol2=2"
                ],
                "batchSize": "1024",
                "batchByteSize": "67108864",
                "writeMode": "insert"
            },
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0"//错误记录数。
        },
        "speed":{
            "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1, //作业并发数。
            "mbps":"12"//限流,此处1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

ClickHouse Writer脚本参数

参数

描述

是否必选

默认值

jdbcUrl

到对端数据库的JDBC连接信息,jdbcUrl包含在connection配置单元中。

  • 在一个数据库上只能配置一个值。

  • jdbcUrl的格式和ClickHouse官方一致,并可以连接附加参数信息。例如,jdbc:clickhouse://127.0.0.1:3306/database

username

数据源的用户名。

password

数据源指定用户名的密码。

table

需要同步写出的表名称,使用JSON的数组进行描述。

说明

table必须包含在connection配置单元中。

column

目标表需要写入数据的字段,字段之间用英文所逗号分隔。例如"column": ["id", "name", "age"]

说明

column配置项必须指定,不能为空。

preSql

写入数据至目标表前,会先执行此处的标准语句。

postSql

写入数据至目标表后,会执行此处的标准语句。

batchSize

一次性批量提交的记录数大小,该值可以极大减少数据同步系统与ClickHouse的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。

1,024

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/172398.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云ECS云服务器AssignPrivateIpAddresses-云淘科技

    调用AssignPrivateIpAddresses为一块弹性网卡分配一个或多个辅助私网IP地址。可以为网卡指定在所属交换机(vSwitch)的空闲私网IP地址,或者通过指定私网地址数量自动分配私网IP地址。 接口说明 只支持可用(Available)或者已附加(InUse)状态下的弹性网卡。 操作主网卡时,网卡附加的实例必须处于运行中(Running)或者…

    阿里云服务器 2023年12月9日
  • 阿里云RDS数据库一键上云-云淘科技

    本文介绍如何通过RDS PostgreSQL的一键上云功能将ECS或IDC自建PostgreSQL数据库迁移到RDS PostgreSQL。该功能采用物理流复制方式,具有速度快、操作简单、稳定性好、场景覆盖全等特点,能够有效提高迁移效率。 前提条件 RDS PostgreSQL实例需满足以下条件。 实例大版本与自建PostgreSQL相同,当前支持Postg…

    2023年12月9日
  • 阿里云大数据开发治理平台 DataWorksDataWorks增值版本到期降级功能变化清单-云淘科技

    您购买使用DataWorks增值版本后,如果因为没有及时续费等一些原因导致增值版本DataWorks到期,则到期后增值版DataWorks会降级为基础版DataWorks,对您使用的DataWorks功能可能会有影响。本文为您介绍DataWorks增值版本到期降级后功能变化清单。 如您需要专业的售前购买指导,请前往查看DataWorks购买指引。可以使用钉钉…

  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLSPullData-云淘科技

    调用PullData接口获取指定游标(Cursor)位置的日志数据。 接口说明 获取日志时必须指定Shard。 目前仅支持读取Protocol Buffer格式数据。 请求语法中Host由Project名称和日志服务Endpoint构成,您需要在Host中指定Project。 已创建并获取AccessKey。更多信息,请参见访问密钥。 阿里云账号Access…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云大数据开发治理平台 DataWorksGetDataServiceApplication-云淘科技

    调用GetDataServiceApplication查询数据服务App的详情。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 请求参数 名称 类型 是否必选 示例值 描述 Action String 是 GetDataServiceApplic…

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。