详情页标题前

抛一个机器学习PAI问题:假设每条训练样本有数量不等的一些兴趣tags,是我miss了哪一个地方吗?-云小二-阿里云

详情页1

抛一个机器学习PAI问题:
假设每条训练样本有数量不等的一些兴趣tags,例如A样本有”电影 | 电视剧”,B样本有”书籍 | 电视剧 | 汽车 | 新闻”。easyrec提供了TagFeature来parse这样的输入特征,但是parse后A样本有2个tag embedding向量,B样本有4个tag embedding向量,理想情况下应该有个mean或者max的pooling来合一,但是我读了读tag feature预处理的源码

(https://github.com/alibaba/EasyRec/blob/1fb889d756a90212a7c0333470428ba3ad95ce95/easy_rec/python/input/input.py#L414)
,以及看一下模型的计算图,似乎并没有找到类似的操作的地方。是我miss了哪一个地方吗?请教一下TagFeature进了DSSM模型是怎么处理的呢?

以下为热心网友提供的参考意见

可以设置combiner ,此回答整理自钉群“【EasyRec】推荐算法交流群”

以下为热心网友提供的参考意见

在PAI中,TagFeature的处理方式是在DSSM模型中进行平均池化(mean pooling)或最大池化(max pooling)。具体来说,对于每个样本的多个标签特征,我们可以通过以下步骤进行处理:

  1. 将每个标签特征转换为embedding向量。
  2. 对每个样本的所有标签特征的embedding向量进行平均池化或最大池化。
  3. 将池化后的向量作为输入传递给DSSM模型。

在EasyRec的源代码中,TagFeature的处理过程如下:

class TagFeature(FeatureBase):
    def __init__(self, field_name, field_type, feature_size):
        super(TagFeature, self).__init__(field_name, field_type, feature_size)
        self.feature_size = feature_size

    def transform(self, data):
        # 将标签特征转换为embedding向量
        tag_embs = [self._get_tag_emb(tag) for tag in data]
        # 对每个样本的所有标签特征的embedding向量进行平均池化或最大池化
        pooled_embs = np.mean(tag_embs, axis=0) if self.pooling == 'mean' else np.max(tag_embs, axis=0)
        return pooled_embs

在这个例子中,TagFeature类首先将每个标签特征转换为embedding向量,然后根据指定的池化方法(self.pooling)对所有的embedding向量进行平均池化或最大池化。最后,将池化后的向量作为输入传递给DSSM模型。

转转请注明出处:https://www.yunxiaoer.com/177607.html

(0)
上一篇 2023年12月5日
下一篇 2023年12月5日
详情页2

相关推荐

  • Serverless 应用引擎关于调用的问题请教一下?-云小二-阿里云

    Serverless 应用引擎我python的rest服务,java去调用,java服务注册在nacos上的,python服务注册在k8s上的,feign或者其他方式是不是不能调的通?如果可以的话,通过什么调用?k8的服务名? 以下为热心网友提供的参考意见 在您的场景中,Python 的 REST 服务注册在 K8s 上,而 Java 服务注册在 Nacos…

    阿里云 2024年1月5日
  • 机器学习PAI如何排查哪一步造成了内存增加啊?-云小二-阿里云

    机器学习PAI如何排查哪一步造成了内存增加啊? 以下为热心网友提供的参考意见 在使用阿里云机器学习PAI平台进行机器学习训练时,如果遇到内存增加的问题,可以通过以下步骤进行排查: 数据准备阶段:检查导入的数据量是否过大,因为大数据量的导入可能会导致内存占用增加。 模型搭建与训练阶段:检查模型的复杂度和规模,以及训练数据集的大小,这两个因素都可能导致内存使用量…

    阿里云 2023年12月10日
  • 阿里云日志服务SLS安装CLI-云淘科技

    日志服务命令行工具CLI支持大部分日志服务功能操作,包括Project管理、Logstore管理、日志查询、自动分页和多账户跨域复制等场景。本文介绍如何安装日志服务命令行工具CLI。 安装之前必读 日志服务CLI工具基于Python开发,需要安装Python。安装方法,请参见Python官网。 说明项 说明 当前CLI版本 0.2.6 说明 您可以执行安装命…

    阿里云日志服务SLS 2023年12月10日
  • 函数计算中,云函数里面绑定了OSS,正常读取OSS里面的json没问题,突然报错说不是正确,为什么?-云小二-阿里云

    “函数计算中,python新手想问一个问题,云函数里面绑定了OSS,之前运行的好好的,正常读取OSS里面的json是没问题的,现在突然报错说不是正确的json文件“ 以下为热心网友提供的参考意见 这个问题可能有多种原因,以下是一些可能导致该错误的原因和解决方法: 文件编码问题:如果OSS中的JSON文件的编码格式不正确,可能会导致读取…

    2024年1月3日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 请问机器学习PAI easyrec是否支持文本特征输入?-云小二-阿里云

    请问机器学习PAI easyrec是否支持文本特征输入?可有教程参考。这里separator是代表文本的分隔符吗? 以下为热心网友提供的参考意见 阿里云机器学习PAI的EasyRec算法库支持文本特征输入,可以读取MaxCompute数据或HDFS数据,其中MaxCompute表中的每一列或CSV文件中的某一列,都需要与data_config中的一个inpu…

    阿里云 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。