抛一个机器学习PAI问题：假设每条训练样本有数量不等的一些兴趣tags，是我miss了哪一个地方吗？-云小二-阿里云

抛一个机器学习PAI问题：
假设每条训练样本有数量不等的一些兴趣tags，例如A样本有”电影 | 电视剧”，B样本有”书籍 | 电视剧 | 汽车 | 新闻”。easyrec提供了TagFeature来parse这样的输入特征，但是parse后A样本有2个tag embedding向量，B样本有4个tag embedding向量，理想情况下应该有个mean或者max的pooling来合一，但是我读了读tag feature预处理的源码

（https://github.com/alibaba/EasyRec/blob/1fb889d756a90212a7c0333470428ba3ad95ce95/easy_rec/python/input/input.py#L414）
，以及看一下模型的计算图，似乎并没有找到类似的操作的地方。是我miss了哪一个地方吗？请教一下TagFeature进了DSSM模型是怎么处理的呢？

以下为热心网友提供的参考意见

可以设置combiner ，此回答整理自钉群“【EasyRec】推荐算法交流群”

以下为热心网友提供的参考意见

在PAI中，TagFeature的处理方式是在DSSM模型中进行平均池化（mean pooling）或最大池化（max pooling）。具体来说，对于每个样本的多个标签特征，我们可以通过以下步骤进行处理：

将每个标签特征转换为embedding向量。
对每个样本的所有标签特征的embedding向量进行平均池化或最大池化。
将池化后的向量作为输入传递给DSSM模型。

在EasyRec的源代码中，TagFeature的处理过程如下：

class TagFeature(FeatureBase):
    def __init__(self, field_name, field_type, feature_size):
        super(TagFeature, self).__init__(field_name, field_type, feature_size)
        self.feature_size = feature_size

    def transform(self, data):
        # 将标签特征转换为embedding向量
        tag_embs = [self._get_tag_emb(tag) for tag in data]
        # 对每个样本的所有标签特征的embedding向量进行平均池化或最大池化
        pooled_embs = np.mean(tag_embs, axis=0) if self.pooling == 'mean' else np.max(tag_embs, axis=0)
        return pooled_embs

在这个例子中，TagFeature类首先将每个标签特征转换为embedding向量，然后根据指定的池化方法（self.pooling）对所有的embedding向量进行平均池化或最大池化。最后，将池化后的向量作为输入传递给DSSM模型。

转转请注明出处：https://www.yunxiaoer.com/177607.html

抛一个机器学习PAI问题：假设每条训练样本有数量不等的一些兴趣tags，是我miss了哪一个地方吗？-云小二-阿里云

联系我们

400-800-8888

抛一个机器学习PAI问题：假设每条训练样本有数量不等的一些兴趣tags，是我miss了哪一个地方吗？-云小二-阿里云

相关推荐

Serverless 应用引擎关于调用的问题请教一下？-云小二-阿里云

机器学习PAI如何排查哪一步造成了内存增加啊？-云小二-阿里云

阿里云日志服务SLS安装CLI-云淘科技

函数计算中，云函数里面绑定了OSS，正常读取OSS里面的json没问题，突然报错说不是正确，为什么？-云小二-阿里云

请问机器学习PAI easyrec是否支持文本特征输入？-云小二-阿里云

联系我们

400-800-8888