详情页标题前

阿里云人工智能平台PAI离线调度-云淘科技

详情页1

工作流广告CTR预测场景为例,为您介绍如何使用PAI提供的数据挖掘组件进行离线调度。

背景信息

本工作流流程如下:

  1. 通过历史数据,在阿里云机器学习平台上进行模型训练。
  2. 通过大数据开发套件对模型进行调度。
  3. 每天凌晨对广告投放进行CTR预测,甄选出符合标准的广告进行推送。

本工作流数据集是通过Random算法随机生成的,因此不对工作流结果进行评估,仅介绍如何构建工作流及大数据开发套件调度。

数据集

本工作流训练数据集包括2016年09月19日和2016年09月20日的历史数据,针对2016年09月21日的数据进行预测,使用MaxCompute分区表。数据集的具体字段如下。

字段名 类型 描述
id STRING 广告的唯一标识。
age DOUBLE 广告投放人群的年龄。
sex DOUBLE 广告投放人群的性别。1表示男性,0表示女性。
duration DOUBLE 广告在界面的停留时长,单位为秒。
place DOUBLE 广告投放位置,按照投放位置从上到下的顺序依次为0~4。
ctr DOUBLE 广告CTR。如果广告点击量除以展现量的结果大于0.03,则该参数取值为1,反之为0。
dt STRING 年月日,格式为YYYYMMDD。

本工作流数据表ad的示例如下。阿里云人工智能平台PAI离线调度-云淘科技

步骤一:创建工作流

  1. 新建自定义工作流,并进入工作流,详情请参见新建自定义工作流。
  2. 构建工作流的流程。
    1. 在左侧组件列表,将源/目标下的读数据表组件向画布中拖入两个,并分别重命名为ad-1和ad-2。
    2. 在左侧组件列表,将数据预处理下的归一化组件向画布中拖入两个。
    3. 在左侧组件列表,将机器学习 > 二分类下的逻辑回归二分类组件拖入画布中。
    4. 在左侧组件列表,将机器学习下的预测组件拖入画布中。
    5. 在左侧组件列表,将源/目标下的写数据表组件拖入画布中,并重命名为ad_result-1。
    6. 将以上组件拼接为如下工作流。阿里云人工智能平台PAI离线调度-云淘科技
      序号描述
      数据源导入。
      数据预处理。
      模型训练。
      预测。
  3. 配置组件参数。
    1. 分别单击画布中的ad-2(训练数据源)和ad-1(预测数据源)组件,在右侧面板,配置工作流数据源。
      页签参数描述
      表选择表名输入ad。
      分区选中分区复选框。
      参数配置为 dt=@@{yyyyMMdd},确定预测数据为每天的增量数据。
      字段信息源表字段信息配置表选择后,系统会自动同步该数据表的源表字段信息,无需手动配置。
    2. 单击画布中的逻辑回归二分类组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
      页签参数描述
      字段设置训练特征列选择age、sex、duration及place列。
      目标列选择ctr列。
    3. 单击画布中的预测组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
      页签参数描述
      字段设置特征列选择age、sex、duration及place列。
      原样输出列选择ctr列。
  4. 单击画布左上方的运行。
  5. 工作流运行结束后,右键单击画布中的ad_result-1,在快捷菜单,单击查看数据即可查看预测生成的结果表,如下图所示。阿里云人工智能平台PAI离线调度-云淘科技其中prediction_result表示每个广告ID是否被点击(1表示被点击,0表示未被点击),prediction_score表示对应被点击的概率。

步骤二:离线调度

  1. 使用DataWorks创建、配置并提交PAI任务,详情请参见机器学习(PAI)节点。配置调度任务时,将具体时间配置为每日凌晨0点进行训练和推送信息,详情请参见时间属性配置说明。
  2. 在提交任务页面,单击右上方的运维,即可进入运维中心查看任务日志,详情请参见查看并管理周期任务。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/161652.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云日志服务SLS投递-对接数据仓库-云淘科技

    日志服务日志投递(LogShipper)功能可以便捷地将日志数据投递到OSS、Table Store、MaxCompute等存储类服务,配合E-MapReduce(Spark、Hive)、MaxCompute进行离线计算。 数据仓库(离线计算) 数据仓库(离线计算)是实时计算的补充,两者针对目标不同: 模式 优势 劣势 使用领域 实时计算 快速 计算较为简单…

    2023年12月10日
  • 阿里云大数据开发治理平台 DataWorksHive数据源-云淘科技

    Hive数据源为您提供读取和写入Hive双向通道的功能,本文为您介绍DataWorks的Hive数据同步的能力支持情况。 背景信息 Hive是基于Hadoop的数据仓库工具,用于解决海量结构化日志的数据统计。Hive可以将结构化的数据文件映射为一张表,并提供SQL查询功能。Hive的本质是一个SQL解析引擎,其底层通过MapReduce实现数据分析,使用HD…

  • 阿里云RDS数据库秒级闪回实时容灾-云淘科技

    基于ZFS(Zettabyte File System)的快照功能,您可以设置一个ECS实例作为备节点,通过Cron定期创建快照(秒级快照),就可以实现数据的秒级闪回,从而达到实时容灾的目的。 背景信息 ZFS是一款动态文件管理系统,与其他文件系统的管理方式不同,ZFS采用存储池的概念来管理物理存储空间,把所有设备集中到一个存储池中来进行管理。存储池描述了存…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云大数据开发治理平台 DataWorksRestAPI(HTTP形式)数据源-云淘科技

    RestAPI数据源为您提供读取和写入RestAPI双向通道的功能,本文为您介绍DataWorks的RestAPI数据同步的能力支持情况。 使用限制 目前该数据源仅支持独享数据集成资源组。 目前不支持设置超时参数,当前DataWorks内置的请求超时时间是60s, 如果您的API查询返回时间超过60s将导致任务失败。 支持的字段类型 类型分类 数据集成col…

  • 阿里云日志服务SLS正则表达式-云淘科技

    本文介绍正则表达式的匹配方式以及特殊字符的转义处理。 完全匹配 正则表达式的值与字符串完全一致,则是完全匹配。例如1234与\d+完全匹配。 有些函数支持部分匹配,您可以在开头与结尾添加^与$将部分匹配的场景变成完全匹配。例如正则表达式为^正则表达式$。更多信息,请参见正则表达式操作。 不同函数的匹配模式如表格所示。 分类 函数 匹配模式 全局操作函数 e_…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。