详情页标题前

阿里云人工智能平台PAI数据视图-云淘科技

详情页1

通过数据视图组件,您可以可视化地了解特征与标签列的分布情况及特征的特点,以便后续进行数据分析。该组件支持稀疏和稠密数据格式。本文为您介绍Designer(原PAI-Studio)提供的数据视图算法的参数配置方式及使用示例。

组件配置

您可以使用以下任意一种方式,配置数据视图组件参数。

方式一:可视化方式

在Designer(原PAI-Studio)工作流页面配置组件参数。

页签

参数

描述

字段设置

选择特征列

用来表现训练样本数据特征的列。

选择目标列

用来进行训练样本数据的目标列。

枚举特征

勾选的特征将被视作枚举特征处理。

k:v,k:v稀疏数据格式

是否采用KV格式的稀疏数据。

参数设置

连续特征离散区间数

连续性特征等距离划分最大区间数。

执行调优

计算核心数

计算的核心数,取值范围为正整数。

每个核心内存

每个核心的内存,取值范围为1 MB~65536 MB。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。

PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;

参数名称

是否必选

描述

默认值

inputTable

输入表的名称。

inputTablePartitions

输入表中,参与训练的分区。系统支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级分区

说明

指定多个分区时,分区之间使用英文逗号(,)分隔。

outputTable

输出表名称。

mapTable

输出映射表,数据视图对String类字符串会做一个统计,映射成数字(转换成Int方便机器学习识别和训练)

selectedCols

输入表选择列名类型。

labelCol

标签列。

categoryCols

把Int或者Double字段当做枚举特征。

maxBins

连续性特征等距离划分最大区间数。

100

isSparse

输入数据是否为稀疏格式,取值范围为{true,false}。

false

itemSpliter

当输入表数据为稀疏格式时,KV对之间的分隔符。

英文逗号(,)

kvSpliter

当输入表数据为稀疏格式时,key和value之间的分隔符。

英文冒号(:)

lifecycle

表的生命周期。

28

coreNum

计算的核心数,取值范围为正整数。取值范围[1, 9999]。

系统自动分配

memSizePerCore

每个核心的内存,取值范围为1 MB~65536 MB。

系统自动分配

示例

  • 输入数据

    age

    workclass

    fwlght

    edu

    edu_num

    married

    c

    family

    race

    sex

    gail

    loss

    work_year

    country

    income

    39

    State-gov

    77516

    Bachelors

    13

    Never-married

    Adm-clerical

    Not-in-family

    White

    Male

    2174.0

    0.0

    40.0

    United-States

    <=50K

    50

    Self-emp-not-inc

    83311

    Bachelors

    13

    Married-civ-spouse

    Exec-managerial

    Husband

    White

    Male

    0.0

    0.0

    13.0

    United-States

    <=50K

    38

    Private

    215646

    HS-grad

    9

    Divorced

    Handlers-cleaners

    Not-in-family

    White

    Male

    0.0

    0.0

    40.0

    United-States

    <=50K

    53

    Private

    234721

    11th

    7

    Married-civ-spouse

    Handlers-cleaners

    Husband

    Black

    Male

    0.0

    0.0

    40.0

    United-States

    <=50K

    28

    Private

    338409

    Bachelors

    13

    Married-civ-spouse

    Prof-specialty

    Wife

    Black

    Female

    0.0

    0.0

    40.0

    Other

    <=50K

    37

    Private

    284582

    Masters

    14

    Married-civ-spouse

    Exec-managerial

    Wife

    White

    Female

    0.0

    0.0

    40.0

    United-States

    <=50K

    49

    Private

    160187

    9th

    5

    Married-spouse-absent

    Other-service

    Not-in-family

    Black

    Female

    0.0

    0.0

    16.0

    Jamaica

    <=50K

    52

    Self-emp-not-inc

    209642

    HS-grad

    9

    Married-civ-spouse

    Exec-managerial

    Husband

    White

    Male

    0.0

    0.0

    45.0

    United-States

    >50K

    31

    Private

    45781

    Masters

    14

    Never-married

    Prof-specialty

    Not-in-family

    White

    Female

    14084.0

    0.0

    50.0

    United-States

    >50K

    42

    Private

    159449

    Bachelors

    13

    Married-civ-spouse

    Exec-managerial

    Husband

    White

    Male

    5178.0

    0.0

    40.0

    United-States

    >50K

  • 建模DAG阿里云人工智能平台PAI数据视图-云淘科技

    数据视图字段设置页签,选择income为目标列,其他14个字段为特征列,其中BIGINT类型的edu_num字段作为枚举值处理。阿里云人工智能平台PAI数据视图-云淘科技

  • 建模效果

    • 右键单击数据视图,选择查看数据 > 输出,为了方便数据被机器学习算法训练,将STRING字段的family、race、sex及income等映射成数值(某种程度有数据格式转换的功能)。阿里云人工智能平台PAI数据视图-云淘科技

    • 右键单击数据视图,选择查看数据 > String字段特征值映射表

      说明

      如果没有选择STRING类型的特征列,则输出结果中String字段特征值映射表内容为空。

      阿里云人工智能平台PAI数据视图-云淘科技

    • 右键单击数据视图,选择查看数据 > 输出Meta表阿里云人工智能平台PAI数据视图-云淘科技其中:distribute_info表示将最大值和最小值区间等距划分,然后统计每个区间里的数据条数。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/162651.html

(0)
上一篇 2023年12月10日 上午4:28
下一篇 2023年12月10日
详情页2

相关推荐

  • DMS数据分析里面的数据在数据可视化老里面能看到吗?-云小二-阿里云

    DMS数据分析里面的数据在数据可视化老里面能看到吗? 以下为热心网友提供的参考意见 不能,看不到 ,此回答整理自钉群“阿里云DMS数据管理用户交流群”

    阿里云 2023年12月27日
  • 请问一下Datav,旧版的本地部署现在怎么下载呢?-云小二-阿里云

    请问一下Datav,旧版的本地部署现在怎么下载呢?没有找到菜单呀 以下为热心网友提供的参考意见 这个需要用有本地部署权限的账号 到大屏编辑页中去下载 ,此回答整理自钉群“云效客户服务权益4群” 以下为热心网友提供的参考意见 进入DataV产品购买页面,选择购买DataV尊享版本。登录DataV控制台。在我的可视化页面中,选择一个可视化应用,单击编辑。在PC端…

    2023年12月27日
  • 这个是Datav企业版?-云小二-阿里云

    这个是Datav企业版? 以下为热心网友提供的参考意见 企业版是不支持本地部署的 ,此回答整理自钉群“云效客户服务权益4群”

    2023年12月27日
  • DMS这个类别自定义我在仪表管理里面没找到?-云小二-阿里云

    DMS这个类别自定义我在仪表管理里面没找到?数据可视化 老 打不开了是为什么? 以下为热心网友提供的参考意见 在这里自由操作实例有登录时效限制,现在重新登录实例,然后查询,保存数据库,就可以了 ,此回答整理自钉群“阿里云DMS数据管理用户交流群”

    2023年12月27日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 请问Datav是哪种账号有权限支持本地部署呢?-云小二-阿里云

    请问Datav是哪种账号有权限支持本地部署呢? 以下为热心网友提供的参考意见 尊享版支持本地部署 ,此回答整理自钉群“云效客户服务权益4群” 以下为热心网友提供的参考意见 私有部署又称本地部署,是指将DataV开发的页面整个打包下载到本地环境,并安装部署到您的企业内网中运行。两者属于同一个产品功能的不同称呼。https://help.aliyun.com/z…

    阿里云 2023年12月27日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。