本文为您介绍Designer(原PAI-Studio)提供的文本摘要算法组件。
文本摘要是文献中简单连贯的短文,能够全面准确地反映该文献的中心思想。自动文摘利用计算机自动从原始文献中提取摘要内容。
本算法基于TextRank,通过提取文档中已存在的句子形成摘要。详情请参见TextRank: Bringing Order into Texts。
组件配置
您可以使用以下任意一种方式,配置文本摘要组件参数。
方式一:可视化方式
在Designer(原PAI-Studio)工作流页面配置组件参数。
页签 |
参数 |
描述 |
字段设置 |
标识文章ID的列名 |
输入标识文档ID的列名。 |
句子列 |
可指定一列。 |
|
参数设置 |
输出前的关键句个数 |
默认是3。 |
句子相似度的计算方法 |
句子相似度计算方法:
|
|
匹配字符串的权重 |
句子相似度的计算方法取值ssk时,该参数生效。默认为0.5。 |
|
子串的长度 |
句子相似度的计算方法取值ssk/cosine时,该参数生效。默认为2。 |
|
阻尼系数 |
默认为0.85。 |
|
最大迭代次数 |
默认为100。 |
|
收敛系数 |
默认为0.000001。 |
|
执行调优 |
核心数 |
默认自动分配。 |
单个核心的内存 |
默认自动分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name TextSummarization
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DsentenceCol="sentence"
-DtopN=2
-Dlifecycle=30;
参数名称 |
是否必选 |
描述 |
默认值 |
inputTableName |
是 |
输入表名 |
无 |
inputTablePartitions |
否 |
输入表中指定参与计算的分区 |
输入表所有分区 |
outputTableName |
是 |
输出表名 |
无 |
docIdCol |
是 |
标识文章ID的列名 |
无 |
sentenceCol |
是 |
句子列,仅可指定一列。 |
无 |
topN |
否 |
输出前几个关键句 |
3 |
similarityType |
否 |
句子相似度计算方法:
|
lcs_sim |
lambda |
否 |
匹配字符串的权重,ssk中可用。 |
0.5 |
k |
否 |
子串的长度,ssk和cosine中可用。 |
2 |
dampingFactor |
否 |
阻尼系数 |
0.85 |
maxIter |
否 |
最大迭代次数 |
100 |
epsilon |
否 |
收敛系数 |
0.000001 |
lifecycle |
否 |
输入出表的生命周期 |
无 |
coreNum |
否 |
参与计算的核心数 |
系统自动分配 |
memSizePerCore |
否 |
每个核心需要的内存 |
系统自动分配 |
示例
输出表为两列,分别是doc_id和abstract。
doc_id |
abstract |
1000894 |
早在2008年,上交所便发布了上市公司社会责任披露相关指引,强制要求三类公司披露社会责任报告,同时鼓励其他有条件的上市公司进行自愿披露。统计显示,2012年,沪市上市公司共计379家披露社会责任报告,包括强制披露公司305家和自愿披露公司74家,合计占沪市全部上市公司的40%。胡汝银表示,下一步上交所将探索扩大社会责任报告的披露范围,修订细化有关社会责任报告披露的指引,并鼓励更多的机构推进社会责任产品创新。 |
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/163111.html