详情页标题前

阿里云人工智能平台PAI全表统计-云淘科技

详情页1

全表统计用于统计全表,或某些选中的列。

组件配置

您可以使用以下任意一种方式,配置全表统计组件参数。

方式一:可视化方式

在Designer(原PAI-Studio)工作流页面配置组件参数。

页签

参数

描述

参数设置

输入列

选择输入列的字段,系统默认选择全部列。

执行调优

核数目

节点个数。

内存数

单个节点内存大小。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

参数名称

参数描述

是否必选

inputTableName

输入表名。

outputTableName

输出表名。

inputTablePartitions

输入表的分区,系统默认选择所有分区。

selectColNames

需要统计的列名。

lifecycle

输出结果表的生命周期,系统默认不设置生命周期。

说明

仅支持输入正整数。

coreNum

节点数量。

说明

仅支持输入正整数。

memSizePerCore

每个节点的内存数,取值范围[1024, 64*1024],单位MB。

说明

仅支持输入正整数。

输出格式

输出统计结果的全部字段,如下表所示。

列名

描述

colname

列名

datatype

类型

totalcount

总数

count

非NULL数量

missingcount

NULL数量

nancount

NAN数量

positiveinfinitycount

正无穷数量

negativeinfinitycount

负无穷数量

min

最小值

max

最大值

mean

平均值

variance

方差

standarddeviation

标准差

standarderror

标准误差

skewness

偏度

kurtosis

峰度

moment2

二阶矩

moment3

三阶矩

moment4

四阶矩

centralmoment2

二阶中心距

centralmoment3

三阶中心距

centralmoment4

四阶中心距

sum

总和

sum2

平方和

sum3

立方和

sum4

四次方和

示例

  • 输入数据

    drop table if exists summary_test_input;
    create table summary_test_input as
    select
      *
    from
    (
      select 'a' as col1, 1 as col2, 0.001 as col3 from dual
        union all
      select 'b' as col1, 2 as col2, 100.01 as col3 from dual
    ) tmp;
  • PAI命令

    PAI -name stat_summary
    -project algo_public
    -DinputTableName=summary_test_input
    -DoutputTableName=summary_test_input_out
    -DselectColNames=col1,col2,col3
    -Dlifecycle=1;
  • 输出结果

        | colname    | datatype   | totalcount | count      | missingcount | nancount   | positiveinfinitycount | negativeinfinitycount | min        | max        | mean       | variance   | standarddeviation | standarderror | skewness   | kurtosis   | moment2    | moment3    | moment4    | centralmoment2 | centralmoment3 | centralmoment4 | sum        | sum2       | sum3       | sum4       |
        | col1       | string     | 2          | 2          | 0            | 0          | 0                     | 0                     | NULL       | NULL       | NULL       | NULL       | NULL              | NULL          | NULL       | NULL       | NULL       | NULL       | NULL       | NULL           | NULL           | NULL           | NULL       | NULL       | NULL       | NULL       |
        | col2       | bigint     | 2          | 2          | 0            | 0          | 0                     | 0                     | 1          | 2          | 1.5        | 0.5        | 0.7071067811865476 | 0.5           | 0          | -2         | 2.5        | 4.5        | 8.5        | 0.25           | 0              | 0.0625         | 3          | 5          | 9          | 17         |
        | col3       | double     | 2          | 2          | 0            | 0          | 0                     | 0                     | 0.001      | 100.01     | 50.0055    | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011    | 10002.000101 | 1000300.030001001 | 100040006.0004 |

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/162655.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云人工智能平台PAI使用EasyVision进行目标检测-云淘科技

    EasyVision(视觉智能增强算法包)提供多种模型的训练及预测功能,旨在帮助计算机视觉应用开发者方便快捷地构建视觉模型并应用于生产。本文以目标检测为例,为您介绍如何在DSW中使用EasyVision。 前提条件 需要准备如下安装环境: Python版本:Python 2.7或Python 3.4及其以上版本。 TensorFlow社区版本:TensorF…

    2023年12月10日
  • 阿里云人工智能平台PAI岭回归训练-云淘科技

    岭回归(Tikhonov regularization)算法是对不适定问题进行回归分析时,最常用的正则化方法。岭回归训练组件基于该算法,支持稀疏、稠密两种数据格式,且支持带权重样本的训练。本文为您介绍岭回归训练组件的配置方法。 使用限制 支持的计算引擎为MaxCompute和Flink。 算法原理 岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是…

    阿里云人工智能平台PAI 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云人工智能平台PAI多模态检索解决方案-云淘科技

    针对多模态检索业务场景,PAI提供了端到端的多模态检索解决方案。该解决方案提供了图像、人脸、文本、文图和图文检索等服务,支持您通过调用EAS服务实现注册多模态数据、提取相关特征、基于ID管理多模态数据、基于特征的多模态数据搜索等功能。本文为您介绍该解决方案的使用流程。 背景信息 功能支持 多模态特征提取能力:您可以使用基于Alibaba PAI EasyCV…

    2023年12月10日
  • 阿里云人工智能平台PAI导出标注结果数据-云淘科技

    处理完成标注任务后,您可以将标注结果导出至指定的OSS目录,也可以将标注结果同步创建为一个数据集,便于后续将其直接用于模型训练。本文介绍如何导出标注结果,及如何查看导出的进度与结果。 前提条件 已处理完成数据标注,详情请参见处理标注任务。 使用限制 仅管理员或标注管理员可以进行标注相关操作。如果您的账号没有权限,请联系管理员为您的账号授予标注管理员权限,操作…

    2023年12月10日
  • 阿里云人工智能平台PAI合并列-云淘科技

    合并列算法组件是将两张表的数据按列合并,需要表的行数保持一致,否则报错。如果两张表只有一张存在分区,则分区表需要连接第二个输入端口。 组件配置 您可以使用以下任意一种方式,配置合并列组件参数。 方式一:可视化方式 选取左表待合并的字段列,生成结果保存到右输入表的指定列。 方式二:PAI命令方式 使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。