主成分分析(PCA)是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。PCA从原始变量中导出少数主成分,使它们尽可能多地保留原始变量的信息,并且彼此间互不相关,作为新的综合指标。
使用限制
主成分分析算法实现了降维和降噪的功能,仅支持稠密数据格式。
组件配置
您可以使用以下任意一种方式,配置主成分分析组件参数。
方式一:可视化方式
在Designer(原PAI-Studio)工作流页面配置组件参数。
页签 |
参数 |
描述 |
字段设置 |
选择特征列 |
输入表中用于分析的列名称。 |
附加列 |
附加在降维数据表后的列。 |
|
参数设置 |
信息量比例 |
降维后数据信息占原来的比例。 |
特征分解方式 |
分解特征的方式,取值如下:
|
|
数据转换方式 |
转换为新数据的处理方式,取值如下:
|
|
执行调优 |
生命周期 |
指定输出表的生命周期,取值为正整数。 |
节点个数 |
与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。 |
|
单个节点内存大小 |
单位为兆。取值范围为[1024, 64*1024]的正整数。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name PrinCompAnalysis
-project algo_public
-DinputTableName=bank_data
-DeigOutputTableName=pai_temp_2032_17900_2
-DprincompOutputTableName=pai_temp_2032_17900_1
-DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
-DtransType=Simple
-DcalcuType=CORR
-DcontriRate=0.9;
参数名称 |
是否必选 |
参数描述 |
默认值 |
inputTableName |
是 |
进行主成分分析的输入表。 |
无 |
selectedColNames |
是 |
输入表中用于分析的列名称。 使用逗号分隔,支持INT和DOUBLE类型。 |
无 |
eigOutputTableName |
是 |
特征向量与特征值的输出表。 |
无 |
princompOutputTableName |
是 |
进行主成分降维降噪后的结果输出表。 |
无 |
transType |
否 |
转换原表为主成分分析表的方式,取值如下:
|
Simple |
calcuType |
否 |
对原表进行特征分解的方式,取值如下:
|
CORR |
contriRate |
否 |
数据信息降维后保留的百分比。取值范围为(0,1)。 |
0.9 |
remainColumns |
否 |
降维表保留原表的字段。 |
无 |
coreNum |
否 |
节点个数,与memSizePerCore参数配对使用。取值范围为[1, 9999]的正整数。 |
系统自动分配。 |
memSizePerCore |
否 |
单个节点的内存大小,单位为兆。取值范围为[1024, 64*1024]的正整数。 |
系统自动分配。 |
lifecycle |
否 |
指定输出表的生命周期,取值为正整数。 |
无 |
示例
PCA输出示例
-
降维后的数据表
-
特征值和特征向量表
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/162544.html