详情页标题前

阿里云人工智能平台PAI读CSV文件-云淘科技

详情页1

CSV文件支持从OSS、HTTP、HDFS读取CSV类型的文件数据。本文为您介绍读CSV文件的参数配置。

使用限制

  • 通过可视化方式使用时,支持的计算资源为MaxCompute或Flink。

  • 通过PyAlink脚本方式使用时,需要使用PyAlink脚本组件进行代码调用,详情请参见PyAlink脚本。

前提条件

(可选)已完成OSS授权,详情请参见云产品依赖与授权:Designer。

说明

文件来源选择OSS时,需要完成此操作。

组件配置

您可以通过以下任意一种方式,配置读CSV文件组件参数。

方式一:可视化方式

在Designer工作流页面配置组件参数。

页签

参数名称

描述

参数设置

文件来源

支持OSS和OTHERS。

文件路径

读取CSV文件的路径:

  • 文件来源选择OSS时,支持输入或选择OSS文件路径,对于1 GB以内的单文件,支持在选择控件中直接上传至指定的OSS路径。

  • 文件来源选择OTHERS时,支持输入HTTP或HDFS类型的文件地址。

Schema

配置每一列对应的数据类型,格式为colname0 coltype0[, colname1 coltype1[, …]]。例如:f0 string,f1 bigint,f2 double

重要

配置的数据类型需要与CSV文件每一列的数据类型保持一致,否则该列内容会读取失败。

字段分隔符

字段的分隔符,默认为半角逗号(,)。

处理无效值的方法

解析Tensor、Vector和MTable类型的数据失败时,处理无效数据的方法。它们是Alink算法框架所定义的数据类型,有固定的解析格式。处理无效值的方法取值如下:

  • ERROR:解析失败时,运行中止。

  • SKIP:解析失败时,跳过该数据。

是否忽略第一行数据

是否忽略第一行的数据,当CSV文件首行为表头信息时,需要勾选此参数。

是否容错

输入数据式与Schema中定义的不一致时,例如类型不一致或列数不一致的容错方法:

  • 打开是否容错开关:当解析失败时,丢弃该行数据。

  • 关闭是否容错开关:当解析失败时,运行终止,并打印出错行。

引号字符

默认为半角双引号(”)。

行分隔符

默认为换行符(
)。

是否忽略空行

是否忽略空行。

执行调优

节点个数

节点个数,与参数单个节点内存大小配对使用,正整数。范围[1, 9999]。

单个节点内存大小,单位M

单个节点内存大小,单位MB,正整数。范围[1024, 64*1024]。

方式二:PyAlink脚本方式

使用PyAlink脚本方式,配置该组件参数。您可以使用PyAlink脚本组件进行Python代码调用,组件详情请参见PyAlink脚本。

参数名称

是否必选

描述

默认值

schemaStr

格式为colname0 coltype0[, colname1 coltype1[, …]]。例如f0 string,f1 bigint,f2 double。

filePath

文件路径。

fieldDelimiter

字段分隔符。

半角逗号(,)

handleInvalidMethod

解析Tensor、Vector和MTable类型的数据失败时,处理无效数据的方法。它们是Alink算法框架所定义的数据类型,有固定的解析格式。处理无效值的方法取值如下:

  • ERROR:解析失败时,运行中止。

  • SKIP:解析失败时,跳过该数据。

ERROR

ignoreFirstLine

是否忽略第一行的数据,当CSV文件首行为表头信息时,需要将ignoreFirstLine设为True。

False

lenient

输入数据的格式与Schema中定义的不一致时,例如类型不一致或列数不一致的容错方法:

  • true:当解析失败时,丢弃该行数据。

  • false:当解析失败时,抛异常。

False

quoteString

引号字符。

半角双引号(”)

rowDelimiter

行分隔符。

换行符(

skipBlankLine

是否忽略空行。

True

PyAlink代码方式的使用示例。

filePath = 'https://alink-test-data.oss-cn-hangzhou.aliyuncs.com/iris.csv'
schema = 'sepal_length double, sepal_width double, petal_length double, petal_width double, category string'
csvSource = CsvSourceBatchOp()\
    .setFilePath(filePath)\
    .setSchemaStr(schema)\
    .setFieldDelimiter(",")
BatchOperator.collectToDataframe(csvSource)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/162173.html

(0)
上一篇 2023年12月10日 上午4:02
下一篇 2023年12月10日 上午4:02
详情页2

相关推荐

  • 阿里云人工智能平台PAI文字检测识别组件-云淘科技

    文字检测识别组件基于PAI团队自研的OCR算法和阿里云大数据,能够对OCR模型进行离线推理。本文介绍文字检测识别组件的配置方法及使用示例。 前提条件 已开通OSS并完成授权,详情请参见开通OSS服务和为PAI-Studio授予OSS访问权限。 使用限制 仅PAI-Designer提供该算法组件。 算法简介 文字检测识别组件位于组件库音视觉算法文件夹下的离线模…

    2023年12月10日
  • 阿里云对象存储OSSJava-云淘科技

    本文以Java语言为例,讲解在服务端通过Java代码完成签名,并且设置上传回调,然后通过表单直传数据到OSS。 前提条件 应用服务器对应的域名可通过公网访问。 确保应用服务器已安装Java 1.6以上版本(执行命令java -version进行查看)。 确保PC端浏览器支持JavaScript。 步骤1:配置应用服务器 下载应用服务器源码(Java版本)。 …

    2023年12月10日
  • 阿里云对象存储OSS概述-云淘科技

    您可以将同一个阿里云账号下的OSS某个存储空间(Bucket)的数据迁移至另一个Bucket,还可以跨不同阿里云账号迁移OSS Bucket之间的数据。 OSS Bucket之间的数据迁移包含以下场景: 同账号下的OSS数据迁移,即同一个阿里云账号下相同或者不同地域Bucket之间的数据迁移。具体步骤,请参见使用数据复制功能迁移同账号下的OSS数据。 跨账号…

    阿里云对象存储 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云对象存储OSSOSS小时数据-云淘科技

    调用QueryUserOmsData查询OSS按小时计量的数据信息。 请求参数 名称 类型 是否必选 示例值 描述 Action String 是 QueryUserOmsData 系统规定参数,取值为QueryUserOmsData。 DataType String 是 Hour 计量数据时间类型,取值为Hour。 Table String 是 OSS 计…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSS查询账号级别的用量情况-云淘科技

    通过用户中心查询的账号级别用量情况,可作为计量数据。如果您希望查看当前账号下OSS的使用记录明细,可以导出OSS的用量明细表。 操作步骤 登录用户中心。 在左侧导航栏,选择账单管理 > 账单详情。 在用量明细页签,按以下要求完成各配置项。 参数 说明 产品 选择对象存储OSS。 计量规格 选择对象存储OSS。 使用时间 选择您希望查询的时间段。查询的开…

    阿里云对象存储 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。