详情页标题前

阿里云人工智能平台PAI高斯混合模型预测-云淘科技

详情页1

您可以使用高斯混合模型预测组件基于训练好的高斯混合模型进行聚类预测。本文为您介绍高斯混合模型预测组件的配置方法。

使用限制

支持的计算引擎为MaxCompute和Flink。

可视化配置组件参数

Designer支持通过可视化的方式,配置组件参数。

页签

参数

描述

字段设置

向量列名

向量列对应的列名。

算法保留列名

选择算法保留的列名称。

参数设置

预测结果列名

预测结果列的列名称。

预测详细信息列名

预测详细信息列的列名。

组件多线程现成个数

组件多线程的线程个数,默认为1。

执行调优

节点个数

单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。具体配置方法,详情请参见附录:如何预估资源的使用量。

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB,具体配置方法,详情请参见附录:如何预估资源的使用量。

通过代码方式配置组件

您也可以通过配置代码的方式,来实现高斯混合模型训练组件的相关功能,具体配置方法如下。

  • Python代码

    df_data = pd.DataFrame([
        ["-0.6264538 0.1836433"],
        ["-0.8356286 1.5952808"],
        ["0.3295078 -0.8204684"],
        ["0.4874291 0.7383247"],
        ["0.5757814 -0.3053884"],
        ["1.5117812 0.3898432"],
        ["-0.6212406 -2.2146999"],
        ["11.1249309 9.9550664"],
        ["9.9838097 10.9438362"],
        ["10.8212212 10.5939013"],
        ["10.9189774 10.7821363"],
        ["10.0745650 8.0106483"],
        ["10.6198257 9.9438713"],
        ["9.8442045 8.5292476"],
        ["9.5218499 10.4179416"],
    ])
    
    data = BatchOperator.fromDataframe(df_data, schemaStr='features string')
    dataStream = StreamOperator.fromDataframe(df_data, schemaStr='features string')
    
    gmm = GmmTrainBatchOp() \
        .setVectorCol("features") \
        .setEpsilon(0.)
    
    model = gmm.linkFrom(data)
    
    predictor = GmmPredictBatchOp() \
        .setPredictionCol("cluster_id") \
        .setVectorCol("features") \
        .setPredictionDetailCol("cluster_detail")
    
    predictor.linkFrom(model, data).print()
    
    predictorStream = GmmPredictStreamOp(model) \
        .setPredictionCol("cluster_id") \
        .setVectorCol("features") \
        .setPredictionDetailCol("cluster_detail")
    
    predictorStream.linkFrom(dataStream).print()
    
    StreamOperator.execute()
  • Java代码

    import org.apache.flink.types.Row;
    
    import com.alibaba.alink.operator.batch.BatchOperator;
    import com.alibaba.alink.operator.batch.clustering.GmmPredictBatchOp;
    import com.alibaba.alink.operator.batch.clustering.GmmTrainBatchOp;
    import com.alibaba.alink.operator.batch.source.MemSourceBatchOp;
    import com.alibaba.alink.operator.stream.StreamOperator;
    import com.alibaba.alink.operator.stream.clustering.GmmPredictStreamOp;
    import com.alibaba.alink.operator.stream.source.MemSourceStreamOp;
    import org.junit.Test;
    
    import java.util.Arrays;
    import java.util.List;
    
    public class GmmPredictBatchOpTest {
        @Test
        public void testGmmPredictBatchOp() throws Exception {
            List  df_data = Arrays.asList(
                Row.of("-0.6264538 0.1836433"),
                Row.of("-0.8356286 1.5952808"),
                Row.of("0.3295078 -0.8204684"),
                Row.of("0.4874291 0.7383247"),
                Row.of("0.5757814 -0.3053884"),
                Row.of("1.5117812 0.3898432"),
                Row.of("-0.6212406 -2.2146999"),
                Row.of("11.1249309 9.9550664"),
                Row.of("9.9838097 10.9438362"),
                Row.of("10.8212212 10.5939013"),
                Row.of("10.9189774 10.7821363"),
                Row.of("10.0745650 8.0106483"),
                Row.of("10.6198257 9.9438713"),
                Row.of("9.8442045 8.5292476"),
                Row.of("9.5218499 10.4179416")
            );
            BatchOperator  data = new MemSourceBatchOp(df_data, "features string");
            StreamOperator  dataStream = new MemSourceStreamOp(df_data, "features string");
            BatchOperator  gmm = new GmmTrainBatchOp()
                .setVectorCol("features")
                .setEpsilon(0.);
            BatchOperator  model = gmm.linkFrom(data);
            BatchOperator  predictor = new GmmPredictBatchOp()
                .setPredictionCol("cluster_id")
                .setVectorCol("features")
                .setPredictionDetailCol("cluster_detail");
            predictor.linkFrom(model, data).print();
            StreamOperator  predictorStream = new GmmPredictStreamOp(model)
                .setPredictionCol("cluster_id")
                .setVectorCol("features")
                .setPredictionDetailCol("cluster_detail");
            predictorStream.linkFrom(dataStream).print();
            StreamOperator.execute();
        }
    }

附录:如何预估资源的使用量

您可以参考以下内容,来预估资源的使用量。

  • 如何预估每个节点使用的内存大小?

    将模型的大小乘以30,即为每个节点使用的内存大小。

    例如:输入数据(模型)的大小为1 GB,则每个节点使用的内存大小可以配置为30 GB。

  • 如何预估使用的节点个数?

    由于存在通信开销,随着节点数量的增加,分布式训练任务速度会先变快,后变慢。如果您观测到训练任务随着节点数量增加之后,速度变慢,则应该停止增加节点数量。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/162798.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云人工智能平台PAI文本分类预测(MaxCompute)-云淘科技

    文本分类预测(MaxCompute)用来加载训练好的模型,对输入数据表进行预测,并产出预测结果。该组件可以和文本分类训练(MaxCompute)组合使用。本文为您介绍文本分类预测(MaxCompute)组件的参数配置和使用示例。 前提条件 已开通OSS并完成授权,详情请参见开通OSS服务和云产品依赖与授权:Designer。 已添加MaxCompute计算资…

    2023年12月10日
  • 阿里云人工智能平台PAI什么是机器学习PAI-云淘科技

    机器学习PAI(Platform of Artificial Intelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案。本文为您介绍什么是机器学习PAI。 什么是机器学习 机器学习是指机器通过统计学算法对大量历史数据进行学习,进而利用生成的经验模型指导业务。目前,机器学习主要应用在以下场景: 营销类场景:商品推荐、用户群体画像或广告精准投…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云人工智能平台PAIPAI图像分类预测-云淘科技

    PAI-EasyVision提供图像分类的训练和预测能力,支持多机分布式训练和预测。本文为您介绍如何通过PAI-EasyVision使用已有的训练模型完成图像分类离线任务。 数据格式 请参见输入数据格式。 图像分类预测 基于已有的文件列表,您可以通过PAI命令启动图像分类预测任务,示例如下。 pai -name ev_predict_ext -Dmodel_…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云人工智能平台PAI机器阅读理解预测-云淘科技

    您可以使用该组件对生成的机器阅读理解训练模型进行离线预测。本文为您介绍该组件的参数配置和使用示例。 使用限制 支持运行的计算资源为MaxCompute和DLC。 可视化配置组件参数 输入桩 输入桩(从左到右) 限制数据类型 建议上游组件 是否必选 输入模型 OSS 机器阅读理解训练 是 验证数据 OSS 读OSS数据 是 组件参数 在Designer工作流页…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云人工智能平台PAI序列标注预测(MaxCompute)-云淘科技

    序列标注预测(MaxCompute)用来加载训练好的模型,对输入数据表进行预测,并产出预测结果。该组件可以和序列标注训练(MaxCompute)组合使用。本文为您介绍序列标注预测(MaxCompute)组件的参数配置和使用示例。 前提条件 已开通OSS并完成授权,详情请参见开通OSS服务和PAI访问云产品授权:OSS。 已添加MaxCompute计算资源并开…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。