EasyASR离线预测(MaxCompute)算法组件可以调用SavedModel模型进行语音识别预测或语音分类预测。本文介绍EasyASR离线预测(MaxCompute)算法组件的配置方法及使用示例。
前提条件
已开通OSS并完成授权,详情请参见开通OSS服务和为PAI-Studio授予OSS访问权限。
使用限制
仅PAI-Studio 2.0提供该算法组件。
算法简介
EasyASR离线预测(MaxCompute)算法组件支持语音识别和语音分类离线预测功能,您可以通过该组件调用TensorFlow SavedModel进行预测,建议在多机单卡环境下运行该组件。
EasyASR离线预测(MaxCompute)算法组件位于组件库音视觉算法文件夹下的离线模型预测子文件夹。
可视化配置组件
- 输入
EasyASR离线预测(MaxCompute)算法组件需要如下两个输入:- 存储输入音频URL的MaxCompute表
在EasyASR离线预测(MaxCompute)算法组件前面接一个读数据表组件,并将读数据表组件的输出接入EasyASR离线预测(MaxCompute)组件的左侧输入桩。同时,您需要配置读数据表组件的表名参数为存储输入音频URL的MaxCompute表名。
- SavedModel格式的模型
您可以通过以下两种方式配置输入的SavedModel模型:- 方法一:通过输入桩配置
在EasyASR离线预测(MaxCompute)算法组件前面接一个EasyASR语音识别训练组件或EasyASR语音分类训练组件,并将该组件的输出接入EasyASR离线预测(MaxCompute)组件的右侧输入桩,即将训练获得的SavedModel直接用于离线预测,如下图所示。 - 方法二:通过组件参数配置
直接在配置参数中填写SavedModel的OSS路径,即配置模型路径参数,此时您还需要搭配使用自定义模型参数一起使用,详情请参见下文的组件参数。
- 方法一:通过输入桩配置
- 存储输入音频URL的MaxCompute表
- 组件参数
页签 参数 是否必选 描述 默认值 参数设置 Buckets 是 存放待预测音频文件的OSS Bucket,选择Bucket根目录即可。 无 使用模型名称 否 EasyASR离线预测(MaxCompute)算法组件支持使用以下类型的模型进行离线预测: - Wav2Letter ASRwav2Letter类型的语音识别模型。
- Transformer ASRtransformer类型的语音识别模型。
- 音频分类:语音分类模型。
Wav2Letter ASR 使用自定义模型 否 是否使用自定义模型,支持以下取值: - 否:此时您需要通过输入桩为EasyASR离线预测(MaxCompute)算法组件配置输入的SavedModel模型,详情请参见上文的通过输入桩配置。
- 是:此时您需要通过模型路径参数为EasyASR离线预测(MaxCompute)算法组件配置输入的SavedModel模型。
否 模型路径 否 仅使用自定义模型为是时,配置该参数为SavedModel的OSS路径,例如 oss://my_bucket/my_checkpoint_dir/
。无 ASR词汇表 否 当使用模型名称为Wav2Letter ASR或Transformer ASR时,需要配置该参数,表示语音识别词汇表的OSS路径。例如 oss://my_bucket/w2lplus-small/alphabet4k.txt
,其中alphabet4k.txt为词汇表。无 URL列ID 否 在存储待预测音频URL路径的MaxCompute表中,URL所在列的编号,且从零开始编号。例如在第二列,则该参数取值为1。 0 音频特征维度 否 音频LogFBank特征的维度,用于音频信号处理。该参数的取值为正整数。 80 自定义音频分类模型类别集合 否 仅使用模型名称为音频分类时,配置音频分类模型的类别集合,各类别之间使用半角逗号(,)分隔。例如 男声,女声
,表示音频分为男声和女声两类。无 音频分类或回归模型预测片段秒数 否 仅使用模型名称为音频分类时,配置该参数。默认值10表示把音频每10秒切割一次,对其进行预测。 10 执行调优 Worker数量 否 用于计算的Worker数量。 1 计算线程数 否 单个Worker的计算线程数量。 6 下载线程数 否 单个Worker中下载音频的线程数量。 7 内存数 否 单个Worker的内存,单位为MB。 10000 - 输出
EasyASR离线预测(MaxCompute)算法组件的预测结果存储在临时的MaxCompute表中,其中prediction列表示预测结果。您可以右键单击画布中的EasyASR离线预测(MaxCompute)算法组件,在弹出的快捷菜单中选择查看数据,以查看预测结果。此外,您也可以将EasyASR离线预测(MaxCompute)组件的输出桩接入写数据表组件,将预测结果写入MaxCompute表。
示例
本文以语言分类为例,展示EasyASR离线预测(MaxCompute)算法的使用方法。
- 将音频的URL存储在MaxCompute表中。
在进行语音分类(或语音识别)的离线预测时,您需要将待预测的音频URL存储在MaxCompute中,示例如下图所示。 - 构建如下实验。
配置EasyASR离线预测(MaxCompute)算法组件的使用模型名称参数为音频分类,其他参数使用默认值即可,详情请参见上文的组件参数。
- 查看输出的预测结果。
实验运行结束后,语音分类(或语音识别)的预测结果会输出在新的MaxCompute表中。该表在第一步准备的输入表基础上增加了一列prediction,表示预测结果。您可以右键单击画布中的EasyASR离线预测(MaxCompute)算法组件,在弹出的快捷菜单中选择查看数据,以查看预测结果。下图为语音分类的预测结果,每10秒音频片段进行一次预测。
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/163550.html