详情页标题前

阿里云人工智能平台PAI文本摘要预测-云淘科技

详情页1

文本摘要(Text Summarization)旨在从冗长、重复的文本序列中抽取、精炼或总结出其中的要点信息,新闻标题摘要是文本摘要的一个特例。您可以使用文本摘要预测组件,调用指定预训练模型对新闻文本进行预测,从而生成新闻标题。本文为您介绍文本摘要预测组件的配置方法。

前提条件

已开通OSS并完成授权,详情请参见开通OSS服务和云产品依赖与授权:Designer。

使用限制

仅支持DLC计算资源。

可视化配置组件参数

您可以在Designer中,通过可视化的方式配置组件参数。

  • 输入桩

    输入桩(从左到右)

    类型

    建议上游组件

    是否必选

    预测数据

    OSS

    读OSS数据

    预测模型

    组件输出

    文本摘要训练

  • 组件配置

    页签

    参数

    描述

    字段设置

    输入数据格式

    输入文件的文本列。默认值为target:str:1,source:str:1。

    原文列选择

    原文在输入表中对应的列名。默认值为source。

    输出追加列选择

    将输入文件的若干文本列追加到输出文本列之后,多列之间使用半角逗号(,)分隔。默认值为source。

    输出列选择

    配置数据结果表的列名。默认值为predictions,beams。

    预测数据输出

    配置预测结果文件在OSS Bucket中的路径。

    使用自有模型

    是否使用上传至OSS的模型,进行直接预测。取值如下。

    • (默认值)

    是否为Megatron模型

    仅支持文本摘要训练组件中列出的带mg前缀的预训练模型,取值如下。

    • (默认值)

    模型存储路径

    使用自定义模型时,才需要配置该参数。

    自定义模型所在OSS Bucket中的存储路径。

    参数设置

    批次大小

    训练过程中的批处理大小。INT类型,默认值为8。

    如果使用多机多卡,则表示每个GPU上的批处理大小。

    文本最大长度

    表示序列整体最大长度。INT类型,取值范围为(1,512),默认值为512。

    语言

    表示当前文本处理的语言:

    • zh:中文。

    • en:英文。

    是否从原文中拷贝文本

    表示是否采用复制机制,取值如下:

    • false(默认值)

    • true

    解码器最小长度

    表示解码器最小长度,INT类型,默认值为12。模型输出长度大于该值。

    解码器最大长度

    表示解码器最大长度,INT类型,默认值为32。模型输出长度小于该值。

    最小不重复字段

    表示不重复的片段大小,INT类型,默认值为2。

    集束搜索数量

    表示集束搜索大小,INT类型,默认值为5。

    返回候选答案数量

    表示返回结果的数量,INT类型,默认值为5。

    重要

    该参数配置需要与集束搜索数量相同。

    执行调优

    GPU机型类型

    计算资源的GPU机型,默认值为gn5-c8g1.2xlarge

使用示例

您可以使用文本摘要预测组件构建如下工作流,存在以下两种调用方式。

  • 方式一:使用文本摘要训练组件微调过的模型。阿里云人工智能平台PAI文本摘要预测-云淘科技

  • 方式二:使用自定义模型。阿里云人工智能平台PAI文本摘要预测-云淘科技

本示例中,您需要按照以下流程配置组件并运行试验:

  1. 首先准备需要生成摘要的数据(predict_data.txt),并上传至OSS的Bucket。本示例使用的测试数据是通过制表符分隔的TXT文件。同时支持对CSV文件的处理,您可以通过MaxCompute客户端的Tunnel命令,将数据集上传至MaxCompute。关于MaxCompute客户端的安装及配置,详情请参见使用客户端(odpscmd)连接;关于Tunnel命令的更多内容,详情请参见Tunnel命令。

  2. 使用方式一中的读OSS数据-3或方式二中的读OSS数据-1组件读取测试数据集。即配置读OSS数据组件的OSS数据路径参数为存放测试数据集的OSS路径。

  3. 将模型文件和测试数据集接入文本摘要预测组件,并配置具体参数,详情请参见可视化配置组件参数。

    • 当使用文本摘要训练组件微调过的模型时,您需要将文本摘要训练组件的模型输出端连接到文本摘要预测的模型输入端。

    • 当使用自定义的模型时,您可以将字段设置页签的使用自定义模型参数配置为,并配置模型存储路径参数为模型存储的OSS路径。

  4. 运行实验。实验运行成功后,您可以在文本摘要预测预测数据输出参数配置的OSS路径下,查看输出的摘要结果。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/162977.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云人工智能平台PAI文本摘要训练-云淘科技

    文本摘要(Text Summarization)旨在从冗长、重复的文本序列中抽取、精炼或总结出其中的要点信息。新闻标题摘要是文本摘要的一个特例。您可以使用文本摘要训练组件进行模型训练,生成新闻标题,用来概括新闻的中心思想和重点信息。本文为您介绍文本摘要训练组件的配置方法。 使用限制 仅支持DLC计算资源。 模型结构 文本(新闻标题)摘要训练组件的模型结构采用…

    2023年12月10日
  • 阿里云人工智能平台PAI文本摘要-云淘科技

    本文为您介绍Designer(原PAI-Studio)提供的文本摘要算法组件。 文本摘要是文献中简单连贯的短文,能够全面准确地反映该文献的中心思想。自动文摘利用计算机自动从原始文献中提取摘要内容。 本算法基于TextRank,通过提取文档中已存在的句子形成摘要。详情请参见TextRank: Bringing Order into Texts。 组件配置 您可…

    阿里云人工智能平台PAI 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。