详情页标题前

阿里云大数据开发治理平台 DataWorksClickHouse数据源-云淘科技

详情页1

ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能,本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。

支持的版本

  • 支持阿里云ClickHouse的20.8、21.8内核版本。

  • 您需要确认驱动和您的ClickHouse服务之间的兼容能力,数据库驱动使用如下版本。

    
        ru.yandex.clickhouse
        clickhouse-jdbc
        0.2.4
    

使用限制

离线读写

  • 仅支持使用独享数据集成资源组。

  • 支持使用JDBC连接ClickHouse,且仅支持使用JDBC Statement读取数据。

  • 支持筛选部分列、列换序等功能,您可以自行填写列。

  • 考虑到ClickHouse负载问题,ClickHouse Writer使用INSERT模式时,建议您限流系统吞吐量(TPS)最高为1,000。

支持的字段类型

支持阿里云ClickHouse以下常见的数据类型,阿里云ClickHouse的数据类型全集请参见数据类型,开源ClickHouse官方数据类型集合中的其他类型暂不支持,开源ClickHouse数据类型全集请参见ClickHouse Doc。

数据类型

ClickHouse Reader

ClickHouse Writer

Int8

支持

支持

Int16

支持

支持

Int32

支持

支持

Int64

支持

支持

UInt8

支持

支持

UInt16

支持

支持

UInt32

支持

支持

UInt64

支持

支持

Float32

支持

支持

Float64

支持

支持

Decimal

支持

支持

String

支持

支持

FixedString

支持

支持

Date

支持

支持

DateTime

支持

支持

DateTime64

支持

支持

Boolean

支持

说明

ClickHouse没有单独的Boolean类型,可使用UInt8、Int8

支持

Array

部分支持。

数组元素类型是整型、浮点数、字符串类型、DateTime64毫秒精度时支持。

支持

Tuple

支持

支持

Domain(IPv4,IPv6)

支持

支持

Enum8

支持

支持

Enum16

支持

支持

Nullable

支持

支持

Nested

部分支持。

Nested内嵌套数据类型是整型、浮点数、字符串类型、DateTime64毫秒精度时支持。

支持

数据同步任务开发

ClickHouse数据同步任务的配置入口和通用配置流程指导可参见下文的配置指导,详细的配置参数解释可在配置界面查看对应参数的文案提示。

创建数据源

在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见创建与管理数据源。

单表离线同步任务配置指导

  • 操作流程请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。

  • 脚本模式配置的全量参数和脚本Demo请参见下文的附录:脚本Demo与参数说明。

整库离线读同步配置指导

操作流程请参见数据集成侧同步任务配置。

附录:脚本Demo与参数说明

附录:离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置,您需要在任务脚本中按照脚本的统一格式要求编写脚本中的reader参数和writer参数,脚本模式的统一要求请参见通过脚本模式配置离线同步任务,以下为您介绍脚本模式下的数据源的Reader参数和Writer参数的指导详情。

ClickHouse Reader脚本Demo

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "clickhouse", //插件名。
            "parameter": {
                "fetchSize":1024,//该配置项定义了插件和数据库服务器端每次批量数据获取条数。
                "datasource": "example",
                "column": [   //列名。
                    "id",
                    "name"
                ],
                "where": "",    //过滤条件。
                "splitPk": "",  //切分键。
                "table": ""    //表名。
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "clickhouse",
            "parameter": {
                "postSql": [
                    "update @table set db_modify_time = now() where db_id = 1"
                ],
                "datasource": "example",    //数据源。
                "batchByteSize": "67108864",
                "column": [
                    "id",
                    "name"
                ],
                "writeMode": "insert",
                "encoding": "UTF-8",
                "batchSize": 1024,
                "table": "ClickHouse_table",
                "preSql": [
                    "delete from @table where db_id = -1"
                ]
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "executeMode": null,
        "errorLimit": {
            "record": "0"  //同步过程中的错误记录限流数。
        },
        "speed": {
         "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1 //作业并发数。
            "mbps":"12",//限流,此处1mbps = 1MB/s。
        }
    },
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    }
}

ClickHouse Reader脚本参数

参数

描述

是否必选

默认值

datasource

数据源名称,脚本模式支持添加数据源,此配置项填写的内容必须要与添加的数据源名称保持一致。

table

所选取的需要同步的表。使用JSON数据进行描述。

说明

table必须包含在connection配置单元中。

fetchSize

该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了数据同步系统和服务器端的网络交互次数,能够提升数据抽取性能。

说明

fetchSize值过大会造成数据同步进程OOM,需要根据ClickHouse负载情况递增。

1,024

column

需要读取的ClickHouse数据,字段之间用英文逗号分隔。例如”column”: [“id”, “name”, “age”]。

说明

column配置项必须指定,不能为空。

jdbcUrl

到源端数据库的JDBC连接信息,jdbcUrl包含在connection配置单元中。

  • 在一个数据库上只能配置一个值。

  • jdbcUrl的格式和ClickHouse官方一致,并可以连接附加参数信息。例如:jdbc:clickhouse://localhost:3306/test?user=root&password=&useUnicode=true&characterEncoding=gbk &autoReconnect=true&failOverReadOnly=false。

username

数据源的用户名。

password

数据源指定用户名的密码。

splitPk

ClickHouse进行数据抽取时,如果指定splitPk,表示您希望使用splitPk代表的字段进行数据分片,数据同步因此会启动并发任务进行数据同步,提高数据同步的效能。

说明

当配置了splitPk时,fetchSize参数为必填项。

where

筛选条件,在实际业务场景中,往往会选择当天的数据进行同步,将where条件指定为gmt_create>$bizdate

where条件可以有效地进行业务增量同步。如果不填写where语句,包括不提供where的key或value,数据同步均视作同步全量数据。

ClickHouse writer脚本Demo

{
    "type":"job",
    "version":"2.0",//版本号。
    "steps":[
        {
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"clickhouse",//插件名。
            "parameter":{
                "username": "",
                "password": "",
                "column": [//字段。
                    "id",
                    "name"
                ],
                "connection": [
                    {
                        "table": [//表名。
                            "ClickHouse_table"
                        ],
                        "jdbcUrl": "jdbc:clickhouse://ip:port/database"
                    }
                ],
                "preSql": [ //执行数据同步任务之前率先执行的SQL语句。
                    "TRUNCATETABLEIFEXISTStablename"
                ],
                "postSql": [//执行数据同步任务之后率先执行的SQL语句。
                    "ALTERTABLEtablenameUPDATEcol1=1WHEREcol2=2"
                ],
                "batchSize": "1024",
                "batchByteSize": "67108864",
                "writeMode": "insert"
            },
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0"//错误记录数。
        },
        "speed":{
            "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1, //作业并发数。
            "mbps":"12"//限流,此处1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

ClickHouse Writer脚本参数

参数

描述

是否必选

默认值

jdbcUrl

到对端数据库的JDBC连接信息,jdbcUrl包含在connection配置单元中。

  • 在一个数据库上只能配置一个值。

  • jdbcUrl的格式和ClickHouse官方一致,并可以连接附加参数信息。例如,jdbc:clickhouse://127.0.0.1:3306/database

username

数据源的用户名。

password

数据源指定用户名的密码。

table

需要同步写出的表名称,使用JSON的数组进行描述。

说明

table必须包含在connection配置单元中。

column

目标表需要写入数据的字段,字段之间用英文所逗号分隔。例如"column": ["id", "name", "age"]

说明

column配置项必须指定,不能为空。

preSql

写入数据至目标表前,会先执行此处的标准语句。

postSql

写入数据至目标表后,会执行此处的标准语句。

batchSize

一次性批量提交的记录数大小,该值可以极大减少数据同步系统与ClickHouse的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。

1,024

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/171446.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云负载均衡【20210824】私网CLB全面支持私网连接(PrivateLink)功能-云淘科技

    在支持私网连接的地域和可用区,所有私网类型的传统型负载均衡CLB(Classic Load Balancer)实例都已经支持私网连接(PrivateLink)功能,您均可以添加CLB作为私网连接的服务资源。 注意事项 只有私网类型的CLB实例支持作为私网连接(PrivateLink)的服务资源。 在创建私网CLB实例时,无需再指定支持PrivateLink功…

    阿里云负载均衡 2023年12月10日
  • 阿里云大数据开发治理平台 DataWorks配置HBase数据源网络连通-云淘科技

    如果您使用的是EMR引擎中的HBase数据库,您需要参考本文进行HBase数据源与独享数据服务资源组之间的网络连通。 注意事项 HBase数据源仅支持使用独享数据服务资源组,且当前仅支持配置EMR中的HBase与独享数据服务资源组网络连通。 HBase和独享数据服务资源组在同一VPC中 当Hbase和独享数据服务资源在同一VPC中时,您需要通过配置Hbase…

    2023年12月10日
  • 阿里云负载均衡DescribeRegions – 查询可用地域-云淘科技

    查询可用地域。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 调试调试授权信息当前API暂无授权信息透出。请求参数名称类型必填描述示例值AcceptLanguagestring否支持的语言。取值: zh-CN:中文 en-US:英文 ja:日文 …

    阿里云负载均衡 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS功能特性-云淘科技

    本文介绍日志服务主要的功能。 数据采集 日志服务提供50多种数据接入方案。具体说明如下: 支持采集服务器与应用相关的日志、时序数据和链路数据。 支持采集物联网设备日志。 支持采集阿里云产品日志。 支持采集移动端数据。 支持采集Logstash、Flume、Beats、FluentD、Telegraf等开源软件中的数据。 支持通过HTTP、HTTPS、Sysl…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云ECS云服务器ModifyInstanceAttachmentAttributes-云淘科技

    调用ModifyInstanceAttachmentAttributes修改实例的私有池的属性。 接口说明 私有池是弹性保障服务或容量预定服务在创建后生成的,关联了与私有池匹配的实例信息。您可以在创建实例时设置是否使用私有池启动,实例将会与弹性保障服务或容量预定服务进行匹配。 调用该接口修改实例的私有池的属性后,实例不需要重启。 当您调用以下接口时,系统会重…

    阿里云服务器 2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。