详情页标题前

阿里云人工智能平台PAI特征工程-云淘科技

详情页1

通过推荐算法定制生成的特征工程,对原始数据集(包括用户表、物料表和行为表等)进行处理,并生成新的特征表,以供后续的召回和排序使用。

前提条件

  • 已开通PAI(Designer),并创建默认工作空间。具体操作,请参见开通PAI并创建默认工作空间。

  • 已为工作空间绑定MaxCompute资源。具体操作,请参见管理工作空间计算资源。

  • 已创建MaxCompute数据源,并将该数据源绑定为工作空间的引擎。具体操作,请参见创建MaxCompute数据源。

数据集

为了演示以下特征工程,本数据使用脚本模拟构造生成用户(user)表、物料(item)表和行为(behavior)表,并非真实数据集。

用户表:pai_online_project.rec_sln_demo_user_table

字段名

类型

描述

user_id

bigint

用户唯一ID

gender

string

性别

age

bigint

年龄

city

string

城市

item_cnt

bigint

创作内容数

follow_cnt

bigint

关注数

follower_cnt

bigint

粉丝数

register_time

bigint

注册时间

tags

string

用户标签

ds

string

表分区列名

物料表:pai_online_project.rec_sln_demo_item_table

字段名

类型

描述

item_id

bigint

物料ID

duration

double

视频时长

title

string

标题

category

string

一级标签

author

bigint

作者

click_count

bigint

累计点击数

praise_count

bigint

累计点赞数

pub_time

bigint

发布时间

ds

string

表分区列名

行为表:pai_online_project.rec_sln_demo_behavior_table

字段名

类型

描述

request_id

bigint

埋点ID/请求ID

user_id

bigint

用户唯一ID

exp_id

string

实验ID

page

string

页面

net_type

string

网络类型

event_time

bigint

行为事件发生的时间

item_id

bigint

物品ID

event

string

行为事件类型

playtime

double

播放时长/阅读时长

ds

string

表分区列名

特征工程

步骤一:进入Designer页面

  1. 登录PAI控制台。

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

  3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

步骤二:构建工作流

  1. 在Designer页面,单击预置模板页签。

  2. 在模板列表的推荐解决方案-特征工程区域,单击创建

  3. 新建工作流对话框,配置参数(可以全部使用默认参数)。

    其中: 工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。

  4. 单击确定

    您需要等待大约十秒钟,工作流可以创建成功。

  5. 在工作流列表,双击推荐解决方案-特征工程工作流,进入工作流。

  6. 系统根据预置的模板,自动构建工作流,如下图所示。阿里云人工智能平台PAI特征工程-云淘科技

    节点

    描述

    1

    物料表预处理

    • 将Tag特征分隔符替换为chr(29)供后续特征生成步骤(FG)使用。

    • 产出是否是新上架物料的特征。

    2

    行为表预处理:产出day_h、week_day等行为时间的衍生特征。

    3

    用户表预处理:

    • 产出是否是新注册用户的特征。

    • 将Tag特征分隔符替换为chr(29)供后续特征生成步骤(FG)使用。

    4

    关联行为表、用户表和物料表,形成带统计属性的行为日志宽表。

    5

    生成物料特征表,包含一段时间的物料统计特征:

    • item__{event}_cnt_{N}d:N天内该物料上发生某行为的数目,表征物料热门程度。

    • item__{event}_{itemid}_dcnt_{N}d:N天内该物料上发生某行为的唯一用户数,表征物料热门程度。

    • item__{min|max|avg|sum}_{field}_{N}d:N天内发生在该物料的正向行为中,用户某数值属性上的统计分布,表征物料被那哪种数值属性的用户偏好。

    • item__kv_{cate}_{event}_{N}d:N天内发生在该物料上的某行为中,用户某类目属性的统计,表征物料被哪种类目属性的用户偏好。

    6

    生成用户特征表,包含一段时间的用户统计特征。

步骤三:添加函数

  1. 新建业务流程。具体操作,请参见创建业务流程。

  2. 右键单击新建的业务流程下的MaxCompute,选择新建资源 > Python,新建一个名称为count_cates_kvs.py的python脚本资源具体操作,请参见创建并使用MaxCompute资源。

  3. 右键单击新建的业务流程下的MaxCompute,选择新建函数。新建一个名称为COUNT_CATES_KVS的MaxCompute函数。其中类名配置为count_cates_kvs.CountCatesKVS资源列表配置为count_cates_kvs.py。具体操作,请参见创建并使用自定义函数。

步骤四:运行工作流并查看输出结果

说明

本数据集默认使用的是45天的数据,将会运行较长时间。如果希望更快的完成运行,需要进行如下操作:

  • 更新执行时间窗口参数,使用更少时间内的数据。

    • 分别单击以下节点,将右侧参数设置页签的执行时间窗口参数由默认的(-45,0]改为(-9,0]

      • 1_rec_sln_demo_item_table_preprocess_v2

      • 2_rec_sln_demo_behavior_table_preprocess_ v2

      • 3_rec_sln_demo_user_table_preprocess_v2

      • 4_rec_sln_demo_behavior_table_preprocess_wide_v2

    • 分别单击以下节点,将右侧参数设置页签的执行时间窗口参数由默认的(-31,0]改为(-8,0]

      • 5_rec_sln_demo_item_table_preprocess_all_feature_v2

      • 6_rec_sln_demo_user_table_preprocess_all_feature_v2

  • 修改SQL脚本代码,选取一部分用户。

    • 单击节点2_rec_sln_demo_behavior_table_preprocess_ v2,将右侧参数设置页签的SQL脚本参数配置代码的第32行由WHERE ds = '${pai.system.cycledate}' 改为WHERE ds = '${pai.system.cycledate}' and user_id %10=1

    • 单击节点3_rec_sln_demo_user_table_preprocess_v2,将右侧参数设置页签的SQL脚本参数配置代码的第38行由WHERE ds = '${pai.system.cycledate}' 改为WHERE ds = '${pai.system.cycledate}' and user_id %10=1

  1. 单击Designer工作流画布上方的运行按钮阿里云人工智能平台PAI特征工程-云淘科技

  2. 工作流运行结束后,查看以下MaxCompute表是否有30天的数据:

    • 物料特征表:rec_sln_demo_item_table_preprocess_all_feature_v2

    • 行为日志宽表:rec_sln_demo_behavior_table_preprocess_v2

    • 用户特征表:rec_sln_demo_user_table_preprocess_all_feature_v2

    您可以在SQL查询页面,查询上述表数据。具体操作,请参见使用DataWorks连接。

    说明

    表所属项目禁止了分区表全表扫描,需要指定分区条件。如果查询表数据的SQL需要进行全表扫描,您可以在SQL语句前加set odps.sql.allow.fullscan=true; 语句并一起提交运行。全表扫描会导致输入量增加从而使成本增加。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/163681.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云日志服务SLS日志数据预处理与投递-云淘科技

    本视频介绍如何对日志数据进行预处理与投递。 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯云限时活动1折起,即将结束: 马上收藏同尘科技为腾讯云授权服务中心。 购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    阿里云日志服务SLS 2023年12月10日
  • 阿里云人工智能平台PAI归一化-云淘科技

    本文为您介绍Designer(原PAI-Studio)提供的归一化组件。 组件配置 您可以使用以下任意一种方式,配置归一化组件参数。 方式一:可视化方式 在Designer(原PAI-Studio)工作流页面配置组件参数。 页签 参数 描述 字段设置 默认全选 默认全选,多余列不影响预测结果。 保留原始列 处理过的列增加“stdized_”前缀。支持DOUB…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云人工智能平台PAIKV2Table-云淘科技

    您可以使用KV2Table转化KV(Key:Value)格式的表为普通表格式。Key转换成表的某列名,Value转成该列在对应行的值。 背景信息 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在该组件中可以输入用户定义的key_map表,是列名和Key的映射,但无论是否输入key_map表,该组件都会输…

    阿里云人工智能平台PAI 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云人工智能平台PAI使用EasyRec构建推荐模型-云淘科技

    EasyRec可以帮助您快速构建推荐模型。本文以读取MaxCompute表数据为例,介绍如何使用EasyRec进行模型训练、配置任务例行化及部署模型。 前提条件 开通OSS,并创建Bucket,详情请参见开通OSS服务和控制台创建存储空间。 重要 创建Bucket时,不要开通版本控制,否则同名文件无法覆盖。 开通PAI,并完成OSS访问授权,详情请参见开通和…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云人工智能平台PAI类型转换-云淘科技

    本文为您介绍Designer(原PAI-Studio)提供的类型转换组件。您可以将任意类型特征转成STRING、DOUBLE和INT特征,并支持转换异常时的缺失值填充。 背景信息 支持将表的字段类型转成另一个类型。 支持多个字段同时转换成不同的类型。 支持ODPS2.0数值类型字段的转换,例如decimal,float,int。 说明 该功能仅支持在华北2(…

    阿里云人工智能平台PAI 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。