详情页标题前

阿里云人工智能平台PAI人口普查统计案例(旧版)-云淘科技

详情页1

本文以人口普查数据为例,根据人物年龄、工作类型及教育程度等属性,快速构建学历对收入影响的统计模型。

数据集

本实验数据为UCI开源数据集Adult,详情请参见Adult Data Set。该数据集为某地域的人口普查结果,共32561条数据,具体的字段如下。

字段名

含义

类型

age

年龄

DOUBLE

workclass

工作类型

STRING

fnlwgt

序号

STRING

education

教育程度

STRING

education_num

受教育时间

DOUBLE

maritial_status

婚姻状况

STRING

occupation

职业

STRING

relationship

关系

STRING

capital_gain

资本收益

STRING

capital_loss

资本损失

STRING

hours_per_week

每周工作小时数

DOUBLE

native_country

原籍

STRING

income

收入

STRING

统计学历对收入的影响

  1. 进入PAI-Designer页面。

    1. 登录PAI控制台。

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 可视化建模(Designer)页面右上方,单击前往旧版可视化建模(Studio)
  3. 构建实验。

    1. 在原PAI-Studio控制台的左侧导航栏,单击首页

    2. 模板列表,单击人口普查统计案例下的从模板创建

    3. 新建实验对话框,配置参数(可以全部使用默认参数)。

      参数

      描述

      名称

      输入人口普查统计案例。

      项目

      不支持修改。

      描述

      输入结合人口普查数据搭建实验,统计学历和收入的关系。。

      位置

      选择我的实验。

    4. 单击确定

    5. 可选:等待大约十秒钟,在原PAI-Studio控制台的左侧导航栏,单击实验

    6. 可选:在我的实验下,单击人口普查统计案例_XX。

      其中我的实验为已配置的实验位置,人口普查统计案例_XX为已配置的实验名称(_XX为系统自动添加的实验序号)。

    7. 系统根据预置的模板,自动构建实验,如下图所示。

      阿里云人工智能平台PAI人口普查统计案例(旧版)-云淘科技

      区域

      描述

      使用读数据表组件(数据源-人口统计)读取MaxCompute中的数据集。

      通过全表统计和数值分布(数据视图直方图组件)统计结果,可以判断数据是否符合泊松分布或高斯分布及数据为连续或离散数据。原PAI-Studio为组件提供了可视化显示结果的功能,实验运行完成后,您可以右键单击画布中的直方图(多字段)-1,在快捷菜单,单击查看分析报告,查看输入数据的分布情况,如下图所示。阿里云人工智能平台PAI人口普查统计案例(旧版)-云淘科技

      统计学历对收入的影响:

      1. 数据预处理

        通过SQL脚本组件,将STRING类型的income字段转换为二值型的0(表示年收入小于5万元)和1(表示年收入大于5万元)。

      2. 过滤与映射

        通过过滤与映射组件将数据按照学历分为博士、硕士及学士。过滤与映射组件支持SQL语句,您可以结合实际需要配置过滤条件。例如,单击画布中的过滤-博士,在右侧字段设置面板,配置过滤条件education='Doctorate',即可过滤学历为博士的人员。

      3. 统计结果

        通过百分位组件可以获得每个分类对应的收入比例。

  4. 运行实验并查看输出结果。

    1. 单击画布上方的运行

    2. 实验运行结束后,右键单击画布中的百分位-1,在快捷菜单,单击查看分析报告

    3. 百分位对话框,单击右上方的阿里云人工智能平台PAI人口普查统计案例(旧版)-云淘科技图标,即可查看博士收入分布的折线图。

      阿里云人工智能平台PAI人口普查统计案例(旧版)-云淘科技如上图所示,博士年收入小于5万(折线图中取值为0的点)的比例约为25%。

      说明

      通过拖动折线图下方的滑块,可以查看博士的整体收入分布。

    4. 参见以上步骤,分别查看硕士和学士的收入比例,汇总的结果如下。

      学历

      年收入大于5万的比例

      博士

      75%

      硕士

      56%

      学士

      42%

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/165235.html

(0)
上一篇 2023年12月10日 上午7:13
下一篇 2023年12月10日 上午7:15
详情页2

相关推荐

  • 阿里云日志服务SLS日志可视化特性:直方图-云淘科技

    本视频介绍日志服务可视化直方图的相关特性。 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯云限时活动1折起,即将结束: 马上收藏同尘科技为腾讯云授权服务中心。 购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    阿里云日志服务SLS 2023年12月10日
  • 阿里云日志服务SLS直方图-云淘科技

    本文介绍直方图的相关配置。 简介 直方图用于展示一组数据的频数分布,有助于您了解数据的分布情况。日志服务直方图包括时序模式和非时序模式。如果X轴是时间,建议开启时序模式。在时序模式下,日志服务会自动格式化时间,并展示数据在时间维度上的分布情况。关于时序模式的更多信息,请参见时序模式。 与柱状图相比,直方图更具有统计学意义。直方图和柱状图的主要区别如下: 直方…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS直方图-云淘科技

    本文介绍直方图的相关配置。 简介 直方图用于展示一组数据的频数分布,有助于您了解数据的分布情况。日志服务直方图包括时序模式和非时序模式。如果X轴是时间,建议开启时序模式。在时序模式下,日志服务会自动格式化时间,并展示数据在时间维度上的分布情况。关于时序模式的更多信息,请参见时序模式。 与柱状图相比,直方图更具有统计学意义。直方图和柱状图的主要区别如下: 直方…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。