详情页标题前

阿里云大数据开发治理平台 DataWorks数据分析场景实践-云淘科技

详情页1

DataWorks为您提供在线数据分析能力,以下通过对MaxCompute的公共数据集进行分析为例,为您介绍如何端到端操作实践在线数据分析。

实践背景与目的

本实践的操作流程与目的:

  1. 环境准备:进行实践操作前所需的环境,便于了解数据查询分析所需的环境要求。

  2. 数据查询:以查询MaxCompute的公共数据集的两张表的数据为例,示例数据查询的操作入口和流程。

  3. 数据分析与分享:以典型的排序分析和透视分析为例,示例web excel的线上数据分析能力与操作入口。

环境准备

本实践以使用同一地域的MaxCompute和DataWorks进行数据查询与分析为例,在进行实践操作前,您需提前通同一地域的MaxCompute与DataWorks,并创建好用于实践操作的DataWorks项目空间与MaxCompute项目,做好数据查询分析前的环境准备。如果您已有符合要求的环境,可跳过此步骤。

  1. 开通MaxCompute与DataWorks。

    1. 登录并进入阿里云MaxCompute产品首页,单击立即开通

    2. 选择开通地域等开通产品的信息,勾选服务协议,根据界面引导完成付款开通。

  2. 创建DataWorks工作空间与MaxCompute项目。

    1. 创建MaxCompute项目,详情请参见创建MaxCompute项目。

    2. 创建DataWorks工作空间并绑定MaxCompute项目,详情请参见创建工作空间、为工作空间绑定引擎。

数据查询

此部分实践操作会以使用MaxCompute公共数据集为例,示例如何通过DataWorks的在线分析服务进行数据查询操作。

MaxCompute的公共数据集中提供了多种公共数据用于验证功能操作,本实践使用2017年电影票房相关信息表(maxcompute_public_data.dwd_product_movie_basic_info和maxcompute_public_data.ods_product_movie_box),统计当年春节档期每日票房排行榜。阿里云大数据开发治理平台 DataWorks数据分析场景实践-云淘科技

  • maxcompute_public_data.dwd_product_movie_basic_info:电影基本信息,包含影片名、导演、编剧、主演、影片类型等基础信息。

  • maxcompute_public_data.ods_product_movie_box:电影票房基本信息,包含影片名、当日票房、累计票房等信息。

统计当年春节档期每日票房排行榜时,需关联上述两张表获取信息。操作步骤与示例代码如下。

  1. 在MaxCompute控制台单击查询编辑,进入DataWorks的数据分析的查询模式页面。

  2. 选择数据源。

    选择MaxCompute数据源类型,工作空间选择环境准备中创建的空间。

  3. 找到公共数据集里的表maxcompute_public_data.dwd_product_movie_basic_info和maxcompute_public_data.ods_product_movie_box,了解数据表的基本内容。

    1. 展开数据集后,鼠标悬浮在字段名称上即可了解各个字段的描述。

    2. 右键数据表,单击数据预览,会随机显示20条数据进行预览。

  4. 在右侧代码编辑框中编辑代码,进行数据查询。

    本实践取2017年1月28日至2月3日作为春节假日档期,查询这期间每日上映的影片票房以及影片关键信息,并将查询结果保存为查询结果表,用于后续在线分析。

    1. 在右侧代码编辑框中编辑查询代码。

      示例代码如下。

      WITH 
          a as(select ds,moviename,sumboxoffice,DENSE_RANK() OVER (PARTITION BY ds ORDER BY CAST(sumboxoffice AS DOUBLE) DESC) AS srank,boxoffice,irank from maxcompute_public_data.ods_product_movie_box WHERE ds>='20170128' and ds='20170128' and ds<='20170203' ),
          c as (select b.movie_name,b.dirctor,b.type ,b.area, b.actors,b.movie_language from b where b.nums=1)
          select a.ds as 放映日期,a.moviename as 影片名,a.irank as 当日票房排名,a.boxoffice as 当日票房_万 ,a.srank as 总票房排名,a.sumboxoffice as 总票房_万,c.dirctor as 导演,c.type as 电影类型,c.area as 制片地区,c.actors as 主演,c.movie_language as 影片时长 from a LEFT join c on a.moviename=c.movie_name;
    2. 单击运行图标运行查询代码。

    3. 运行成功后,单击保存查询图标,保存查询代码。

      阿里云大数据开发治理平台 DataWorks数据分析场景实践-云淘科技

    4. 单击左上角的模式切换按钮,切换到分析模式后,单击右上角的保存按钮,保存结果表,便于后续分析和分享。

      阿里云大数据开发治理平台 DataWorks数据分析场景实践-云淘科技

数据分析与分享

可以通过数据分析的分析模式使用Web Excel进行一些简单的二次分析统计,并直接分享。

  1. 数据分析

    • 查看每日放映的电影当日票房排行榜阿里云大数据开发治理平台 DataWorks数据分析场景实践-云淘科技

      1. 随机选择结果集中某个单元格,单击筛选和排序功能。

      2. 选择当日票房排名列,右键选择将该列转成数值型以便对排名进行排序。

      3. 先对当日票房排名列进行升序,再对放映日期列进行降序,既可直观查看每日放映的电影当日票房排行榜。

    • 统计整个春节档期放映的影片票房分布,此操作主要用到透视功能。选择需要透视的结果列,单击透视阿里云大数据开发治理平台 DataWorks数据分析场景实践-云淘科技

      1. 行维度选择“影片名”,指标选择“当日票房(万)”,并对指标编辑将汇总方式改成sum。

      2. 选择列表使用饼图进行透视。

    您还可以根据业务需求,对数据进行更多样化的分析统计,所有统计分析结果不要忘记进行保存。

  2. 数据分享。

    保存好的图表可以通过分享功能将分析结果共享给主账号下其他子账号,被分享的子账号可以通过URL或提取码访问到该结果表。您可以根据需求指定对方是否可编辑或仅可以查看。阿里云大数据开发治理平台 DataWorks数据分析场景实践-云淘科技

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/170876.html

(0)
上一篇 2023年12月10日 下午1:43
下一篇 2023年12月10日 下午1:46
详情页2

相关推荐

  • 阿里云日志服务SLS使用CloudLens for SLS分析资源用量-云淘科技

    本文介绍在CloudLens for SLS中自定义分析日志服务资源用量的常用场景。 背景信息 CloudLens for SLS推出账单数据(免费),用于监控计费用量。账单数据来源于费用中心,日志服务使用账单拉取加工任务将数据拉取到表格存储中进行存储(账单数据所使用的表格存储实例免费),并通过日志服务外部数据关联能力,提供账单数据的查询分析能力。基于账单数…

    2023年12月10日
  • 阿里云大数据开发治理平台 DataWorksMaxCompute数据源-云淘科技

    MaxCompute数据源作为数据中枢,为您提供读取和写入MaxCompute双向通道的功能。 使用限制 离线读 MaxCompute Reader支持读取分区表、非分区表,不支持读取虚拟视图、不支持同步外部表。 离线读MaxCompute分区表时,不支持直接对分区字段进行字段映射配置,需要在配置数据来源时指定待同步数据的分区信息。 例如,分区表t0其字段包…

  • 阿里云RDS数据库创建数据库和账号-云淘科技

    本文介绍如何为RDS MariaDB实例创建数据库和账号。 账号类型 RDS MariaDB实例支持两种数据库账号:高权限账号和普通账号。您可以在控制台管理所有账号和数据库。 账号类型 说明 高权限账号 只能通过控制台或API创建和管理。 一个实例中只能创建一个高权限账号,可以管理所有普通账号和数据库。 开放了更多权限,可满足个性化和精细化的权限管理需求,例…

    阿里云数据库 2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云ECS云服务器授权RAM用户使用实例RAM角色-云淘科技

    如果您需要通过RAM用户授予、更换、收回实例RAM角色,您需要通过阿里云账号授权RAM用户允许使用实例RAM角色。本文操作仅适用于阿里云账号。 背景信息 当您授权RAM用户使用实例RAM角色时,您必须授权RAM用户对该实例RAM角色的PassRole权限。其中,PassRole决定该RAM用户能否直接执行角色策略赋予的权限。 操作步骤 使用阿里云账号登录RA…

    阿里云服务器 2023年12月9日
  • 阿里云大数据开发治理平台 DataWorksMaxCompute数据源-云淘科技

    MaxCompute数据源作为数据中枢,为您提供读取和写入MaxCompute双向通道的功能。 使用限制 离线读 MaxCompute Reader支持读取分区表、非分区表,不支持读取虚拟视图、不支持同步外部表。 离线读MaxCompute分区表时,不支持直接对分区字段进行字段映射配置,需要在配置数据来源时指定待同步数据的分区信息。 例如,分区表t0其字段包…

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。