详情页标题前

阿里云人工智能平台PAI模型训练-云淘科技

详情页1

该组件实现的EasyRec模型训练功能。

前提条件

已开通OSS并完成授权,详情请参见开通OSS服务和云产品依赖与授权:Designer。

组件配置

您可以使用以下任意一种方式,配置模型训练组件参数。

可视化配置参数

  • 输入桩

输入桩(从左到右)

建议上游组件

对应PAI命令参数

是否必选

负采样item特征表

说明

一般在DSSM等特定算法中使用负采样参数。

  • 数据类型:MaxCompute表

  • 支持的组件:SQL脚本、读数据表

data_config.negative_sampler.input_path

easyrec配置文件

  • 数据类型:OSS文件

  • 支持的组件:更新EasyRec配置文件

说明

需要配置文件所在的完整的OSS路径。

config

训练表

  • 数据类型:MaxCompute表

  • 支持的组件:SQL脚本、读数据表

train_tables

评估表

  • 数据类型:MaxCompute表

  • 支持的组件:SQL脚本、读数据表

eval_tables

fine_tune_checkpoint

说明

模型基于该Checkpoint继续训练。

  • 数据类型:OSS存储的模型

  • 支持的组件:读OSS数据

edit_config_json中的train_config.fine_tune_checkpoint

分箱表

  • 数据类型:MaxCompute表

  • 支持的组件:SQL脚本、读数据表

boundary_table

  • 组件参数

页签

参数

是否必选

描述

对应PAI命令参数

默认值

参数设置

模型路径

模型存储路径。

model_dir

工作流数据存储路径

EasyRec配置文件

如果不从输入桩输入config文件,可参考model_config,在下方编辑框填写config配置,保存至指定的OSS路径下。

config

选择用于训练和评估的目标列

选中是否是RTP FG模式时,支持配置该参数。

指定选择用于训练和评估的目标列。

拼装成selected_cols参数

用于训练和评估的权重列

选中是否是RTP FG模式时,支持配置该参数。

指定选择用于训练和评估的权重列。

用于训练和评估的特征列

选中是否是RTP FG模式时,支持配置该参数。

指定选择用于训练和评估的特征列。

指定算法版本

选中高级选项后,可以自定义EasyRec的执行版本。

  1. 首先参考文档EasyRec版本更新,生成一个EasyRec的TAR包。

  2. 上传对应版本的TAR包到OSS路径,具体操作,请参见控制台上传文件。

  3. 在这个参数中选中上传的TAR文件。

script

超参配置edit_config_json

选中高级选项后,将需要添加到EasyRec配置文件里的内容写到超参配置里,组件会将超参配置的内容,添加到EasyRec配置文件中。

edit_config_json

执行调优

ps数量

PS节点的数量。

完整的执行调优参数会拼装成cluster参数

2

ps CPU数量

PS申请的CPU数量,取值为1表示一个CPU核。

10

ps Memory数量(MB)

PS申请的内存,取值为100表示100 MB。

40000

Worker数量

Worker节点的数量。

6

Worker CPU数量

Worker申请的CPU数量,取值为1表示一个CPU核。

8

Worker Memory用量(单位为MB)

Worker申请的内存,取值为100表示100 MB。

40000

Worker GPU卡数

在EasyRec训练中,一般不需要使用GPU。

0

PAI命令及说明

PAI -project algo_public -name easy_rec_ext 
    -Darn="acs:ram::xxxx:role/aliyunodpspaidefaultrole" 
    -Dbuckets="oss://rec_sln_demo/" 
    -Dcluster="{\"ps\": {\"count\": 2, \"cpu\": 1000, \"memory\": 40000}, \"worker\": {\"count\": 6, \"cpu\": 800, \"gpu\": 0, \"memory\": 40000}}" 
    -Dcmd="train" 
    -Dconfig="oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/rec_sln_demo_dssm_recall_v1.config" 
    -Deval_tables="odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_39w13qw9osm9rdbu0h_outputTable" 
    -Dlifecycle="28" 
    -Dmodel_dir="oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/20230425" 
    -DossHost="oss-cn-hangzhou-internal.aliyuncs.com" 
    -Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz" 
    -Dselected_cols="is_click,features" 
    -Dtables="odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_4ijqwcg7upzteu5036_outputTable,odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_39w13qw9osm9rdbu0h_outputTable,odps://pai_hangzhou/tables/pai_temp_flow_fty24i21e9dzvzj6a0_node_svxd0bqu2x7ep8furu_outputTable" 
    -Dtrain_tables="odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_4ijqwcg7upzteu5036_outputTable"
    -Dedit_config_json="{\"train_config.fine_tune_checkpoint\": \"oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/20230405/\", \"data_config.negative_sampler.input_path\": \"odps://pai_hangzhou/tables/pai_temp_flow_fty24i21e9dzvzj6a0_node_svxd0bqu2x7ep8furu_outputTable\"}" ;

参数名称

是否必选

描述

cmd

cmd配置为train时,表示执行模型训练。

config

训练用的EasyRec配置文件,配置文件所在的OSS全路径。

train_tables

训练表,格式为odps://{project}/tables/{表名},多个训练表之间使用半角逗号(,)分隔。

eval_tables

评估表,格式为odps://{project}/tables/{表名},多个评估表之间使用半角逗号(,)分隔。

arn

指定资源组授权,您可以登录PAI控制台,在开通和授权>全部云产品依赖页面的Designer区域,单击操作列下的查看授权信息,获取arn。

ossHost

OSS各地域Endpoint。如何获取Endpoint,请参见访问域名和数据中心。

buckets

config所在的Bucket和保存模型的Bucket。如果有多个bucket,使用半角逗号(,)分隔,例如oss://xxxx/,oss://xxxx/

model_dir

模型目录,如果指定了model_dir将会覆盖Config里面的model_dir,一般在周期性调度的时候使用。

edit_config_json

使用JSON的方式对config的一些字段进行修改,例如:edit_config_json="{\"train_config.fine_tune_checkpoint\": \"oss://xxx/\"}"

script

指定EasyRec算法TAR文件。

selected_cols

表里面用于训练和评估的列, 有助于提高训练速度。

使用示例

  1. 准备以下数据集:

    • train: pai_online_project.easyrec_demo_taobao_train_data

    • test: pai_online_project.easyrec_demo_taobao_test_data

    说明

    原则上这两张表是您自己的ODPS表,为了方便测试,以上提供的两张表在任何地方都可以访问。

  2. 创建如下工作流。阿里云人工智能平台PAI模型训练-云淘科技

    区域

    描述

    配置读数据表-1表名参数为pai_online_project.easyrec_demo_taobao_train_data训练表

    配置读数据表-2表名参数为pai_online_project.easyrec_demo_taobao_test_data测试表

    • 上传config到OSS上,并在参数EasyRec配置文件上选择该文件。

    • 在参数模型路径上选择模型存储路径。

  3. 运行工作流结束后,您可以查看输出的模型文件。

    您可以在模型路径参数配置的OSS路径下查看输出的模型文件。

  4. 查看Logview并进行日志分析。

    运行EasyRec命令时,Designer会打印Logview。您可以右键单击模型训练组件,在快捷菜单,单击查看日志,通过Logview快速查看模型训练效果或定位错误。

阿里云人工智能平台PAI模型训练-云淘科技

在Worker运行页面,可以根据需要选择查看的Task实例及Worker对应的实例。

阿里云人工智能平台PAI模型训练-云淘科技

其中:

  • worker 0为训练worker(worker 0、worker 2~worker 7均为训练worker),单击StdErr列下的图标,即可查看训练进程。

  • worker1为评估worker,单击StdErr列下的图标,即可查看模型在评估集上的指标。

更完整的使用方式参考推荐算法定制-排序节点8_rec_sln_demo_rec_sln_demo_sorting_v2_train和推荐算法定制-向量召回节点12_rec_sln_demo_dssm_recall_v1_train。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/165001.html

(0)
上一篇 2023年12月10日 上午6:59
下一篇 2023年12月10日 上午7:01
详情页2

相关推荐

  • 阿里云人工智能平台PAI模型训练-云淘科技

    创建完成工作流后,您可以进入工作流,根据创建工作流方式的不同,灵活的进行构建模型,然后调试模型、周期性调度模型,最终完成模型训练。本文为您介绍模型训练的具体操作步骤。 前提条件 已创建工作流。您可以根据业务需要创建空白工作流或模板工作流,详情请参见工作流概述。 已准备好训练模型需要的数据集,详情请参见概述。 背景信息 模型训练的操作步骤如下: 步骤一:构建模…

    2023年12月10日
  • 阿里云人工智能平台PAI通用计算资源计费说明-云淘科技

    通用计算资源的计费项由公共资源组、专有资源组和自运维资源组三部分组成。本文为您介绍通用计算资源各个资源组的计费详情。 计费项 通用计算资源的计费项组成如下图: 计费方式 自运维资源组、公共资源组和专有资源组的计费方式如下。 计费项 计费主体 计费规则 计费方式 停止计费 自运维资源组 ACK集群相关的资源、网络和存储费用。 详情请参见ACK计费说明。 详情请…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云人工智能平台PAI模型训练-云淘科技

    创建完成工作流后,您可以进入工作流,根据创建工作流方式的不同,灵活的进行构建模型,然后调试模型、周期性调度模型,最终完成模型训练。本文为您介绍模型训练的具体操作步骤。 前提条件 已创建工作流。您可以根据业务需要创建空白工作流或模板工作流,详情请参见工作流概述。 已准备好训练模型需要的数据集,详情请参见概述。 背景信息 模型训练的操作步骤如下: 步骤一:构建模…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云人工智能平台PAIFlink全托管资源管理-云淘科技

    机器学习PAI新增了Flink全托管资源,您可以购买Flink全托管资源,并关联到工作空间,用于PAI大规模分布式模型训练。本文为您介绍如何开通购买Flink全托管资源及使用该资源进行模型训练。 Flink全托管资源 阿里云实时计算Flink版是阿里云基于Apache Flink构建的一站式实时大数据分析平台,提供端到端亚秒级实时数据分析能力,有关Flink…

    2023年12月10日
  • 阿里云人工智能平台PAIswing训练-云淘科技

    swing是一种Item召回算法,您可以使用swing训练组件基于User-Item-User原理衡量Item的相似性。本文为您介绍swing训练的参数配置。 使用限制 支持运行的计算资源为MaxCompute和Flink。 组件配置 您可以通过以下任意一种方式,配置swing训练组件参数。 方式一:可视化方式 在Designer工作流页面配置组件参数。 页…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。