详情页标题前

阿里云大数据开发治理平台 DataWorksCDH Hive数据抽样采集器-云淘科技

详情页1

您可以通过DataWorks的数据抽样采集器功能,从CDH Hive表中随机抽取表的部分数据用于数据保护伞的敏感数据识别。如果您在数据保护伞中配置了脱敏规则,那么在数据地图表详情页面进行数据预览时,命中的敏感字段将会被脱敏。本文为您介绍如何新建CDH Hive数据抽样采集器

前提条件

  • 已购买并创建DataWorks的独享调度资源组。详情请参见:新增和使用独享调度资源组。

  • 在工作空间绑定CDH引擎后,您才可以进行CDH数据抽样采集操作,详情请参见绑定CDH计算引擎。

  • 已经开通数据保护伞服务,并配置数据识别规则,详情请参见数据保护伞概述、通过内置规则识别。

使用限制

  • 目前仅上海和成都地域可以使用数据抽样采集器功能。

  • 支持基于集群按照数据库进行数据抽样采集。一个集群仅支持新建一个采集器,一个采集器中可以选择一个或多个需要进行数据抽样采集的数据库。

  • 选择集群后,如果不选择数据库,默认对所有数据库下的表进行数据抽样。

  • 阿里云主账号,拥有AliyunDataWorksFullAccess权限的子账号可以进行采集。

  • CDH Hive新增、变更、删除表后需要重新进行数据抽样采集。

  • 目前仅支持手动采集。

新建采集器

  1. 进入数据地图。

  2. 在左侧菜单栏,单击数据发现

  3. 数据源视角找到CDH Hive(仅限数据抽样使用)采集器。

    阿里云大数据开发治理平台 DataWorksCDH Hive数据抽样采集器-云淘科技

  4. 单击右上角的管理,默认进入已采集列表

    您可以单击进入未采集列表页面,查看未创建数据抽样采集器的列表详情。

  5. 单击右上角的新建数据抽样采集器进行配置。

    阿里云大数据开发治理平台 DataWorksCDH Hive数据抽样采集器-云淘科技

    参数

    描述

    集群

    下拉列表中展示当前Region下DataWorks已进行引擎绑定的CDH集群。您可以选择需要采集数据的CDH集群。详情请参见:对接使用CDH与CDP。

    数据库

    选择需要进行数据抽样采集的数据库。如果不选择,默认对该集群内所有数据库的表数据进行抽样采集。

    独享资源组

    选择在绑定CDH引擎时,网络已连通的独享调度资源组。

    抽样采集服务

    选择需要进行数据抽样采集的服务。详情请参见:对接使用CDH与CDP。

    采集账号

    为您展示用于此次数据抽样采集的账号,该账号将自动根据工作空间引擎绑定页面配置的账号映射关系进行读取。详情请参见:创建并管理工作空间

    执行计划

    定义该采集器多久进行一次数据抽样采集,目前仅支持按需采集。

  6. 单击确认,采集器创建完成。

管理采集器

您可以在已采集列表页面,查看相应采集器的运行状态执行计划上次运行时间上次消耗时间平均运行耗时等信息,同时,您还可以对目标采集器执行如下操作:

  • 详情:查看目标采集器所配置的详细信息。

  • 编辑:修改目标采集器所配置的集群独享资源组等信息。

  • 删除:删除目标采集器。

  • 运行:运行采集器,根据目标采集器的配置信息采集数据。运行后,识别出的敏感字段会展示在数据保护伞页面,当您在数据保护伞中配置脱敏规则后,命中的敏感字段在数据地图中预览时将会被脱敏。

  • 停止:停止运行中的采集器。

后续步骤

CDH Hive数据抽样采集成功,如果您已在数据保护伞中配置脱敏规则,那么在数据地图表详情页面进行表数据预览时,命中脱敏规则的敏感字段将会被脱敏。详情请参见:数据保护伞、查看表详情。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/170755.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。