若您想在DataWorks操作您的数据库或数据仓库(例如,MaxCompute项目数据),需先在DataWorks的数据源管理页面,将数据库或数据仓库创建为DataWorks的数据源,并将该数据源绑定至DataWorks相应的功能模块使用。例如,同步MaxCompute数据前,需先创建MaxCompute数据源,创建完成后可在数据集成模块选择该数据源,控制同步任务读取或写入的数据库或数据仓库。
背景信息
为了给您带来更为统一的产品使用体验,DataWorks于2023年10月20日开始逐步将MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、ClickHouse计算引擎合并至数据源管理;将E-MapReduce(简称EMR)、CDH/CDP引擎合并至开源集群管理。合并后,原计算引擎的相关操作(例如,创建、编辑)将通过数据源/开源集群界面执行。
-
旧版数据源:分为引擎绑定时自动生成的引擎数据源(例如,绑定MaxCompute引擎时,将在数据源管理页面默认新增名为odps_first的数据源),以及您在数据源管理页面通过新增数据源方式添加至DataWorks的数据源。
-
新版数据源:仅拥有在数据源管理页面通过新增数据源/注册集群方式添加至DataWorks的数据源。
数据源环境隔离
标准模式的工作空间支持数据源隔离功能。您可以分别创建开发环境和生产环境的数据源,使测试与生产调度操作的数据源隔离,以保护您的生产数据安全。详情请参见附录:数据源环境介绍。
支持的数据源类型
以下为DataWorks现阶段支持的数据源,但DataWorks不同功能模块可使用的数据源存在差异,具体请以实际界面为准。
-
新版数据源:目前仅支持MaxCompute、EMR集群、CDH/CDP集群。
-
旧版数据源:支持的数据源,详情请参见数据源列表。
部分数据源主要用于调度任务使用,例如,MaxCompute、Hologres、EMR。
进入数据源管理页面
-
进入管理中心页面。
登录DataWorks控制台,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心。
-
单击左侧导航栏的数据源,进入数据源管理页面。
创建数据源
在数据源管理页面,您可根据需要选择新增数据源或批量新增数据源。DataWorks支持创建的数据源类型请参见支持的数据源类型。
说明
对于CDH/CDP、EMR集群:
-
如您需使用集群的某个组件(例如,Hive),则可在数据源管理页面单独将该组件创建为相应数据源。
-
如您需在DataWorks上调度集群任务,则要将整个集群注册到DataWorks中。详情请参见注册EMR集群至DataWorks、注册CDH/CDP集群。
-
新增数据源:在弹出的新增数据源窗口,选择需要创建的数据源类型并配置数据源信息。不同数据源的配置存在差异,详情请参见数据源配置。
-
开发环境可用的数据源:可以在新建数据同步节点时选择,并在开发环境运行,但无法提交到生产环境或在生产环境运行。
-
生产环境可用的数据源:只允许在生产环境运行时使用,不可以在新建数据同步节点时选择。
-
-
批量新增数据源:如您需创建多个数据源时,可使用该方式。目前仅支持批量新增MySQL、PolarDB、SQLServer和Oracle数据源。
-
选择相应数据源并下载该数据源的配置信息模板。
创建数据源的方式不同(连接串模式或实例模式),则模板配置信息不同,具体请以实际界面为准。
-
根据模板格式填写数据源信息。
-
填写完后上传模板文件并启动创建数据源。
创建数据源时,您可根据界面文本框提示,查看数据源的创建进度及详情。若创建失败,可基于相应报错解决处理。
-
说明
-
DataWorks支持通过连接串模式或实例模式创建数据源,不同创建方式的配置信息存在差异,请根据需要选择。
当使用连接串模式配置数据源时,DataWorks会对数据源的JDBC URL进行解析。若JDBC URL中包含DataWorks暂不支持的参数,DataWorks会将该参数移除。若您希望在JDBC URL中继续使用DataWorks不支持的参数,则请提交工单联系技术支持人员咨询。
-
同一个开发环境和生产环境的数据源名称必须一致。
管理数据源
在数据源管理页面,您可根据数据源类型、数据源名称筛选需要查看的数据源。同时,支持您对目标数据源执行如下管理操作:
-
编辑:可根据需要修改数据源的配置信息。数据源的名称及适用环境无法更改。
-
删除:可根据需要删除无需使用的数据源。不同环境的数据源,删除操作的影响如下。
说明
若数据源已授权跨工作空间的用户使用,则删除数据源后,跨工作空间使用该数据源的任务会执行失败。
删除不同环境数据源
操作影响
开发环境和生产环境
需确认是否存在生产环境关联的同步任务,操作不可逆。若此数据源配置的同步任务已在生产环境使用,删除后:
-
生产环境的任务将无法正常运行。请删除同步任务后再删除此数据源。
-
在开发环境配置同步任务时此数据源不可见。
仅开发环境
需确认是否存在生产环境关联的同步任务,操作不可逆。若此数据源配置的同步任务已在生产环境使用,删除后:
-
生产环境的任务可以正常运行,但任务编辑时将不能获取到元数据信息。
-
在开发环境配置同步任务时此数据源不可见。
仅生产环境
需确认是否存在生产环境关联的同步任务。若此数据源配置的同步任务已在生产环境使用,删除后:
-
生产环境的任务无法正常运行。请删除同步任务后再删除此数据源。
-
在开发环境使用此数据源配置的同步任务时,该任务将不能提交生产发布。
-
-
克隆:可通过克隆功能,快速生成一个与当前数据源配置信息相同的新数据源。
说明
新数据源的名称需要重新定义,不能与当前数据源名称相同。
-
权限管理:您可通过数据源的权限管理功能,授权其他工作空间下的某用户使用当前数据源。授权后,该用户拥有数据源的查看及使用权限,但无法编辑数据源。详情请参见管理数据源权限。
说明
若授权某个工作空间拥有数据源权限,则工作空间中的所有成员均拥有该数据源的查看及使用权限。
附录:数据源环境介绍
标准模式工作空间下,同一个名称的数据源存在开发环境和生产环境两套配置,两套配置可对应底层两个数据库/数据仓库,针对不同环境您可设置不同的数据源信息,使测试与生产调度操作的数据源隔离,以保护生产数据的安全。例如,执行离线同步任务时,可由运行环境控制任务所访问的数据库地址(配置生产、开发数据源对应不同数据库),使开发环境和生产环境的数据隔离。
说明
-
简单模式工作空间仅拥有一个环境,无法做到开发、生产隔离。关于工作空间模式的介绍,详情请参见必读:简单模式和标准模式的区别。
-
若简单模式升级为标准模式,会将原有的一个数据源拆分为生产环境和开发环境隔离的两个数据源。详情请参见场景:工作空间模式升级(简单模式升级标准模式)。
标准模式工作空间中,任务在不同环境执行时所访问的数据源如下:
-
在数据开发(DataStudio)模块与开发环境运维中心执行,默认访问开发环境的数据源。
-
在生产环境运维中心执行,默认访问生产环境的数据源。
说明
-
配置数据源时,请确认开发环境、生产环境的数据源分别对应的数据库/数据仓库是否符合业务现状。当开发环境和生产环境数据源的配置不同时(例如,数据库账号密码不同),可能出现如下问题:
-
任务在数据开发(DataStudio)执行成功,在生产调度时执行失败。
-
任务在数据开发(DataStudio)与在生产调度执行时产生的数据量不一致。
上述问题您可对比开发环境与生产环境的运行日志排查解决。
-
-
若数据源开发环境与生产环境配置不同,请确保任务运行时使用的资源组可分别与开发环境、生产环境的数据源连通。
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/166763.html