本实验采用DataWorks+MaxCompute产品组合,为您介绍DataWorks的基本使用。
实验背景
以网站用户画像分析为背景,通过使用DataWorks完成以下场景。
-
数据采集
-
数据加工
-
配置数据质量监控
-
数据可视化展现
目标人群
开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。
涉及产品
本案例涉及以下产品:
-
一站式大数据开发治理DataWorks
本案例通过DataWorks实现数据采集,加工,质量监控,与数据可视化展现,您需提前开通该服务。详情请参见开通DataWorks服务。
-
云原生大数据计算服务MaxCompute
实现底层加工计算,您需提前开通该服务。详情请参见开通MaxCompute。
-
云数据库RDS MySQL版
本案例中用于存储用户信息数据。案例已默认提供该MySQL数据源基本信息,您无需单独开通该服务。
-
对象存储OSS
本案例中用于存储网站访问记录数据,案例已默认提供该OSS数据源基本信息,您无需单独开通该服务。
涉及模块
本案例使用以下DataWorks模块共同完成。
步骤 |
操作内容 |
阶段性目标 |
数据采集 |
通过DataWorks数据集成模块,将存储在MySQL中的用户信息数据及存储在OSS中采集的用户访问日志数据同步至MaxCompute,并提交调度系统,结合DataWorks调度参数实现周期性增量同步。 |
学习如下内容:
|
数据加工 |
使用DataWorks数据开发(DataStudio)模块,将日志数据通过函数正则等方式拆解为可分析字段,并与用户信息表加工汇总产出基本的用户画像数据,并提交调度系统,结合DataWorks调度参数实现周期性数据清洗操作。 |
学习如下内容:
|
数据质量监控 |
通过DataWorks数据质量模块,对周期性ETL(Extract Transformation Load)操作过程中产生的脏数据进行监控,监控不通过则阻断任务执行,避免影响扩大。 |
学习如何基于DataWorks为任务产出的表,配置数据质量的监控规则,以保障第一时间感知ETL过程中产生的脏数据,有效阻断脏数据向下游蔓延。 |
数据可视化展示 |
通过DataWorks数据分析模块,对最终结果表进行用户画像分析。例如,访问用户中地域分布分析、城市注册人数排行榜分析。 |
学习如何基于DataWorks将数据进行可视化展示。 |
实验预期
-
实操该实验后,可对DataWorks的主要功能有所了解。
-
实操该实验后,可在DataWorks独立完成数据采集 、数据开发和任务运维等数据岗位常见任务。
实验时长
采用在线学习的方式,预计耗时1小时。
实验费用
本案例运行可能会产生一定的费用。为避免产生过多费用,本案例在创建相关表时,生命周期已默认设置为14天,为避免长期调度产生费用,您可以在实操结束后配置任务的调度有效期,或者对任务执行冻结业务流程根节点(虚拟节点Workshop_Start)的操作。
学习答疑
如果您在学习过程中遇到问题,请申请加入钉钉群进行咨询。
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/166247.html