阿里云人工智能平台PAI读CSV文件-云淘科技

读CSV文件支持从OSS、HTTP、HDFS读取CSV类型的文件数据。本文为您介绍读CSV文件的参数配置。

使用限制

通过可视化方式使用时，支持的计算资源为MaxCompute或Flink。
通过PyAlink脚本方式使用时，需要使用PyAlink脚本组件进行代码调用，详情请参见PyAlink脚本。

前提条件

（可选）已完成OSS授权，详情请参见云产品依赖与授权：Designer。

说明

仅文件来源选择OSS时，需要完成此操作。

组件配置

您可以通过以下任意一种方式，配置读CSV文件组件参数。

方式一：可视化方式

在Designer工作流页面配置组件参数。

页签	参数名称	描述
参数设置	文件来源	支持OSS和OTHERS。
	文件路径	读取CSV文件的路径：当文件来源选择OSS时，支持输入或选择OSS文件路径，对于1 GB以内的单文件，支持在选择控件中直接上传至指定的OSS路径。当文件来源选择OTHERS时，支持输入HTTP或HDFS类型的文件地址。
	Schema	配置每一列对应的数据类型，格式为colname0 coltype0[, colname1 coltype1[, …]]。例如：f0 string,f1 bigint,f2 double。重要配置的数据类型需要与CSV文件每一列的数据类型保持一致，否则该列内容会读取失败。
	字段分隔符	字段的分隔符，默认为半角逗号（,）。
	处理无效值的方法	解析Tensor、Vector和MTable类型的数据失败时，处理无效数据的方法。它们是Alink算法框架所定义的数据类型，有固定的解析格式。处理无效值的方法取值如下： ERROR：解析失败时，运行中止。 SKIP：解析失败时，跳过该数据。
	是否忽略第一行数据	是否忽略第一行的数据，当CSV文件首行为表头信息时，需要勾选此参数。
	是否容错	输入数据式与Schema中定义的不一致时，例如类型不一致或列数不一致的容错方法：打开是否容错开关：当解析失败时，丢弃该行数据。关闭是否容错开关：当解析失败时，运行终止，并打印出错行。
	引号字符	默认为半角双引号（”）。
	行分隔符	默认为换行符（）。
	是否忽略空行	是否忽略空行。
执行调优	节点个数	节点个数，与参数单个节点内存大小配对使用，正整数。范围[1, 9999]。
执行调优	单个节点内存大小，单位M	单个节点内存大小，单位MB，正整数。范围[1024, 64*1024]。

方式二：PyAlink脚本方式

使用PyAlink脚本方式，配置该组件参数。您可以使用PyAlink脚本组件进行Python代码调用，组件详情请参见PyAlink脚本。

参数名称	是否必选	描述	默认值
schemaStr	是	格式为colname0 coltype0[, colname1 coltype1[, …]]。例如f0 string,f1 bigint,f2 double。	无
filePath	否	文件路径。	无
fieldDelimiter	否	字段分隔符。	半角逗号（,）
handleInvalidMethod	否	解析Tensor、Vector和MTable类型的数据失败时，处理无效数据的方法。它们是Alink算法框架所定义的数据类型，有固定的解析格式。处理无效值的方法取值如下： ERROR：解析失败时，运行中止。 SKIP：解析失败时，跳过该数据。	ERROR
ignoreFirstLine	否	是否忽略第一行的数据，当CSV文件首行为表头信息时，需要将ignoreFirstLine设为True。	False
lenient	否	输入数据的格式与Schema中定义的不一致时，例如类型不一致或列数不一致的容错方法： true：当解析失败时，丢弃该行数据。 false：当解析失败时，抛异常。	False
quoteString	否	引号字符。	半角双引号（”）
rowDelimiter	否	行分隔符。	换行符（）
skipBlankLine	否	是否忽略空行。	True

PyAlink代码方式的使用示例。

filePath = 'https://alink-test-data.oss-cn-hangzhou.aliyuncs.com/iris.csv'
schema = 'sepal_length double, sepal_width double, petal_length double, petal_width double, category string'
csvSource = CsvSourceBatchOp()\
    .setFilePath(filePath)\
    .setSchemaStr(schema)\
    .setFieldDelimiter(",")
BatchOperator.collectToDataframe(csvSource)

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

阿里云企业补贴进行中：马上申请

腾讯云限时活动1折起，即将结束：马上收藏

 同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折，更有现金返利:同意关联，立享优惠

转转请注明出处：https://www.yunxiaoer.com/162173.html

阿里云人工智能平台PAI读CSV文件-云淘科技

使用限制

前提条件

组件配置

方式一：可视化方式

方式二：PyAlink脚本方式

联系我们

400-800-8888

阿里云人工智能平台PAI读CSV文件-云淘科技

使用限制

前提条件

组件配置

方式一：可视化方式

方式二：PyAlink脚本方式

相关推荐

阿里云人工智能平台PAI文字检测识别组件-云淘科技

阿里云对象存储OSSJava-云淘科技

阿里云对象存储OSS概述-云淘科技

阿里云对象存储OSSOSS小时数据-云淘科技

阿里云对象存储OSS查询账号级别的用量情况-云淘科技

联系我们

400-800-8888