首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
模型可以生成符合用户偏好的摘要.之前的摘要模型侧重于单独控制某个属性,而不是多个属性的组合.传统的Seq2Seq多属性可控文本摘要模型在满足多个控制属性时,存在无法整合所有控制属性、无法准确再现文本中关键信息和无法处理单词表外单词等问题.为此,本文提出了一种基于扩展Transformer和指针生成网络(pointer generator network, PGN)的模型.模型中的扩展Transformer将Transformer单编码器-单解码器的模型形式扩展成具有双重文本语义信息提取的双编码器和单个可融合指导信号特征的解码器形式.然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表生成新的摘要信息,以解决摘要任务中常出现的OOV (out of vocabulary)问题.此外,为高效完成位置信息编码,模型在注意力层中使用相对位置表示来引入文本的序列信息.模型可以用于控制摘要的许多重要属性,包括长度、主题和具体性等.通过在公开数据集MACSum上的实验表明,相较以往方法,本文提出的模型在确保摘要质量的同时,更加符合用户给定的属性要求.  相似文献   

2.
针对传统Seq2Seq序列模型在文本摘要任务中无法准确地提取到文本中的关键信息、无法处理单词表之外的单词等问题,本文提出一种基于Fastformer的指针生成网络(pointer generator network, PGN)模型,且该模型结合了抽取式和生成式两种文本摘要方法.模型首先利用Fastformer模型高效的获取具有上下文信息的单词嵌入向量,然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表来生成新的摘要信息,以解决文本摘要任务中常出现的OOV(out of vocabulary)问题,同时模型使用覆盖机制来追踪过去时间步的注意力分布,动态的调整单词的重要性,解决了重复词问题,最后,在解码阶段引入了Beam Search优化算法,使得解码器能够获得更加准确的摘要结果.实验在百度AI Studio中汽车大师所提供的汽车诊断对话数据集中进行,结果表明本文提出的FastformerPGN模型在中文文本摘要任务中达到的效果要优于基准模型,具有更好的效果.  相似文献   

3.
为了改进生成式文本的摘要模型,本文提出了一种基于主题的生成对抗与指针网络结合的文本摘要模型.首先通过LDA主题建模方法获取主题词,在获取单词的主题向量后,将结合主题的词向量与传统的序列注意力相结合,形成新的复合注意力共同影响单词的生成,然后通过加入生成对抗网络以在指针生成网络上取得了更好的效果.实验采用gigaword数据集进行训练,采用ROUGE评分机制进行评分,结果证明由于融入主题因素,相比单独采用指针网络我们的模型提升了摘要结果的可读性及准确性,具有更好的表现.  相似文献   

4.
李想  王卫兵  尚学达 《计算机应用》2021,41(6):1647-1651
针对生成式文本摘要应用场景,提出了以Transformer为基础的摘要模型,并在Transformer模型中加入了指针生成(Pointer Generator)网络和覆盖损失(Coverage Loss)进行优化.首先,提出了基于Transformer模型作为基础结构的方法,利用其注意力机制更好地捕捉上下文的语意信息....  相似文献   

5.
6.
针对生成式摘要方法中的序列到序列模型存在准确率不高、 词语重复、 训练时间长等问题,提出一个改进的模型.引入自注意力机制替代原有循环神经网络和卷积神经网络,实现并行训练和损失函数值的快速下降与稳定,减少训练时间;引入指针网络解决未登录词问题,将未登录词直接扩展到字典中,实现将未登录词从输入序列复制到生成序列中;引入输入...  相似文献   

7.
文本摘要的一个迫切需要解决的问题是如何准确地概括文本的核心内容.目前文本摘要的主要方法是使用编码器-解码器架构,在解码过程中利用软注意力获取所需的上下文语义信息.但是,由于编码器有时候会编码过多的信息,所以生成的摘要不一定会概括源文本的核心内容.为此,该文提出一种基于双注意指针网络的文本摘要模型.首先,该模型使用了双注...  相似文献   

8.
针对现有的文本摘要模型词向量表意不全面,且难以对远距离词句进行表征,提出一种融合多层注意力表示的中长文本摘要方法。通过抽取式技术将新闻文本进行分割,得到主体文本和辅助文本;将主体文本进行图卷积神经网络的学习和依存句法分析,得到词向量的图卷积表示和依存词对信息,同时对辅助文本进行高频主题词的挖掘;将这三种信息融合送入Transformer序列模型中,并对编码器和解码器的局部注意力稍作修改,使其能够更多地关注主题相关的部分和依存句法结构;生成文本摘要。在公共文本摘要数据集NLPCC 2017上的实验表明,该方法能够得到较高的ROUGE分数,生成质量更好的文本摘要。  相似文献   

9.
基于Seq2Seq框架的生成式文本摘要模型取得了不错的研究进展,但此类模型大多存在未登录词、生成文本重复、曝光偏差问题。为此,本文提出基于对抗性扰动对比学习的指针生成器网络PGN-CL来建模文本摘要生成过程,该模型以指针生成器网络PGN为基本架构,解决摘要模型存在的未登录词和生成文本重复的问题;采用对抗性扰动对比学习作为一种新的模型训练方式来解决曝光偏差问题。在PGN模型的训练过程中,通过向目标序列添加扰动并建立对比损失函数来生成对抗性正负样本,使负样本与目标序列在嵌入空间相似但语义差别很大,正样本与目标序列在语义空间很相近但嵌入空间差距较大,这些区分困难的正负样本可以引导PGN模型在特征空间更好地学习到正负样本的区分特征,获得更准确的摘要表示。在LCSTS数据集上的实验结果表明,提出的模型在ROUGE评价指标上的表现优于对比基线,证明了融合指针生成器网络和对抗性扰动对比学习对摘要质量提升的有效性。  相似文献   

10.
为解决传统生成式模型在生成摘要的过程中会忽略关键词信息为摘要提供的重要线索,导致关键词信息的丢失,生成的摘要不能很好地契合原文信息,文章提出了一种以指针生成网络为骨架融合BERT预训练模型和关键词信息的摘要生成方法.首先,结合TextRank算法与基于注意力机制的序列模型进行关键词的提取,使得生成的关键词能够包含更多的原文信息.其次,将关键词注意力加入到指针生成网络的注意力机制里,引导摘要的生成.此外,我们使用双指针拷贝机制来替代指针生成网络的拷贝机制,提高拷贝机制的覆盖率.在LCSTS数据集上的结果表明,所设计的模型能够包含更多的关键信息,提高了摘要生成的准确性和可读性.  相似文献   

11.
生成一直是自动摘要领域的难题。现有方法在处理长文本的过程中,存在准确率低、冗余等问题。鉴于主题模型在多文档摘要中的突出表现,将其引入到长文本摘要任务中。另外,目前单一的抽取式或生成式方法都无法应对长文本的复杂情况。结合两种摘要方法,提出了一种针对长文本的基于主题感知的抽取式与生成式结合的混合摘要模型。并在TTNews和CNN/Daily Mail数据集上验证了模型的有效性,该模型生成摘要ROUGE分数与同类型模型相比提升了1~2个百分点,生成了可读性更高的摘要。  相似文献   

12.
文本摘要在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用B...  相似文献   

13.
近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文.探讨自动文本摘要任务的内涵,回顾和分析了自动文本摘要技术的发展,针对目前主要的2种摘要产生形式(抽取式和生成式)的具体工作进行了详细介绍,包括特征评分、分类算法、线性规划、次模函数、图排序、序列标注、启发式算法、深度学习等算法.并对自动文本摘要常用的数据集以及评价指标进行了分析,最后对其面临的挑战和未来的研究趋势、应用等进行了预测.  相似文献   

14.
针对抽取式方法、生成式方法在长文档摘要上的流畅性、准确性缺陷以及在文档编码前截断原始文档造成的重要信息缺失问题,提出一种两阶段长文档摘要模型SFExt-PGAbs,由次模函数抽取式摘要SFExt与指针生成器生成式摘要PGAbs组成。SFExt-PGAbs模拟人类对长文档进行摘要的过程,首先使用SFExt在长文档中抽取出重要句子,过滤不重要且冗余的句子形成过渡文档,然后PGAbs接收过渡文档作为输入以生成流畅且准确的摘要。为获取与原始文档中心思想更为接近的过渡文档,在传统SFExt中拓展出位置重要性、准确性两个子方面,同时设计新的贪心算法。为研究不同特征提取器对生成摘要质量的影响,在PGAbs中应用两种循环神经网络。实验结果显示,在CNNDM测试集上,SFExt-PGAbs相较于基线模型生成了更为流畅、准确的摘要,ROUGE指标有较大提升。同时,子方面拓展后的SFExt也能抽取得到更准确的摘要。  相似文献   

15.
针对新闻文本领域,该文提出一种基于查询的自动文本摘要技术,更加有针对性地满足用户信息需求。根据句子的TF-IDF、与查询句的相似度等要素,计算句子权重,并根据句子指示的时间给定不同的时序权重系数,使得最近发生的新闻内容具有更高的权重,最后使用最大边界相关的方法选择摘要句。通过与基于TF-IDF、Text-Rank、LDA等六种方法的对比,该摘要方法ROUGE评测指标上优于其他方法。从结合评测结果及摘要示例可以看出,该文提出的方法可以有效地从新闻文档集中摘取核心信息,满足用户查询内容的信息需求。  相似文献   

16.
目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器.该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差.从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用.为了使编码器能够获取文本的结构信息,该文提出了基于文本结构信息的编码器,其使用了图...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号