首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
针对现有文本摘要生成方法对源文全局语义信息提取不充分问题,提出了一种融合流注意力机制的并行编码器摘要生成算法模型.首先使用单颗粒的分词方法对源文进行分词;然后在编码阶段引入多头流注意力机制,从而更全面地提取源文的全局语义信息;其次运用并行编码器训练模型,使得输入序列中语义信息获得更大权重;最后将编码得到的全局语义信息送入到融合指针的解码器中,通过指针复制源文词汇,减少生成摘要中未登录词的出现,从而使得解码过程中生成的摘要更加全面准确地匹配源文语义.模型在CLTS和NLPCC两个数据集上进行实验,使用ROUGE-1、ROUGE-2和ROUGE-L作为评价指标.实验结果显示,与基准模型相比在CLTS数据集上分别有2.62%、1.44%和0.87%的提升,在NLPCC数据集上分别有2.82%、1.84%和1.64%的提升,表明所提算法模型在中文摘要生成任务上更加有效.  相似文献   

2.
3.
为了改进生成式文本的摘要模型,本文提出了一种基于主题的生成对抗与指针网络结合的文本摘要模型.首先通过LDA主题建模方法获取主题词,在获取单词的主题向量后,将结合主题的词向量与传统的序列注意力相结合,形成新的复合注意力共同影响单词的生成,然后通过加入生成对抗网络以在指针生成网络上取得了更好的效果.实验采用gigaword数据集进行训练,采用ROUGE评分机制进行评分,结果证明由于融入主题因素,相比单独采用指针网络我们的模型提升了摘要结果的可读性及准确性,具有更好的表现.  相似文献   

4.
文本自动摘要技术在网页搜索和网页内容推荐等多个领域都有着非常广阔的应用前景。经典的文本摘要算法采用统计学的方法来提取文章关键字,进而提取主题句。这种方法在一定程度上忽略了文本的语义和语法信息。近年来,分布式词向量嵌入技术已经应用到文本检索当中,基于该技术提出了一种词向量化的自动文本摘要方法,该方法主要分为4个步骤:词向量生成、基于词向量的段向量生成、关键词提取和主题句抽取,最终实现文本段落的自动摘要。实验结果表明,改进的文本自动摘要方法能够有效提取主题句。  相似文献   

5.
李伯涵  李红莲 《计算机应用研究》2021,38(11):3289-3292,3358
针对生成式文本摘要中模型对文本语义了解不够充分以及生成摘要缺乏关键信息的问题,提出一种融合关键词的中文摘要生成模型KBPM(Key-BERT-Pen model).首先使用TextRank方法将文本中关键词抽取出来,然后将抽取出的关键词与原文一起经过BERT预训练模型得到更加精确的上下文表示,最终将得到的词向量输入到带有双重注意力机制的指针模型中,指针模型从词汇表或原文中取出词汇来生成最终的摘要.实验结果表明,KBPM模型能够生成可读性更好、ROUGE分数更高的文本摘要.通过对比分析也验证了KBPM模型有效解决了生成摘要中缺乏关键信息的问题.  相似文献   

6.
针对传统Seq2Seq序列模型在文本摘要任务中无法准确地提取到文本中的关键信息、无法处理单词表之外的单词等问题,本文提出一种基于Fastformer的指针生成网络(pointer generator network, PGN)模型,且该模型结合了抽取式和生成式两种文本摘要方法.模型首先利用Fastformer模型高效的获取具有上下文信息的单词嵌入向量,然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表来生成新的摘要信息,以解决文本摘要任务中常出现的OOV(out of vocabulary)问题,同时模型使用覆盖机制来追踪过去时间步的注意力分布,动态的调整单词的重要性,解决了重复词问题,最后,在解码阶段引入了Beam Search优化算法,使得解码器能够获得更加准确的摘要结果.实验在百度AI Studio中汽车大师所提供的汽车诊断对话数据集中进行,结果表明本文提出的FastformerPGN模型在中文文本摘要任务中达到的效果要优于基准模型,具有更好的效果.  相似文献   

7.
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本文数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。  相似文献   

8.
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。  相似文献   

9.
基于Seq2Seq框架的生成式文本摘要模型取得了不错的研究进展,但此类模型大多存在未登录词、生成文本重复、曝光偏差问题。为此,本文提出基于对抗性扰动对比学习的指针生成器网络PGN-CL来建模文本摘要生成过程,该模型以指针生成器网络PGN为基本架构,解决摘要模型存在的未登录词和生成文本重复的问题;采用对抗性扰动对比学习作为一种新的模型训练方式来解决曝光偏差问题。在PGN模型的训练过程中,通过向目标序列添加扰动并建立对比损失函数来生成对抗性正负样本,使负样本与目标序列在嵌入空间相似但语义差别很大,正样本与目标序列在语义空间很相近但嵌入空间差距较大,这些区分困难的正负样本可以引导PGN模型在特征空间更好地学习到正负样本的区分特征,获得更准确的摘要表示。在LCSTS数据集上的实验结果表明,提出的模型在ROUGE评价指标上的表现优于对比基线,证明了融合指针生成器网络和对抗性扰动对比学习对摘要质量提升的有效性。  相似文献   

10.
为解决传统生成式模型在生成摘要的过程中会忽略关键词信息为摘要提供的重要线索,导致关键词信息的丢失,生成的摘要不能很好地契合原文信息,文章提出了一种以指针生成网络为骨架融合BERT预训练模型和关键词信息的摘要生成方法.首先,结合TextRank算法与基于注意力机制的序列模型进行关键词的提取,使得生成的关键词能够包含更多的原文信息.其次,将关键词注意力加入到指针生成网络的注意力机制里,引导摘要的生成.此外,我们使用双指针拷贝机制来替代指针生成网络的拷贝机制,提高拷贝机制的覆盖率.在LCSTS数据集上的结果表明,所设计的模型能够包含更多的关键信息,提高了摘要生成的准确性和可读性.  相似文献   

11.
由于大量的游客在社交媒体上记录自己的心情,人们在享受便捷获取网络上大量旅游信息的同时,也淹没在混乱的游记信息海洋里.为了从游记中获取游客关心的景点信息和游客对景点表达的情感信息,该文提出了一个多文档游记的情感摘要生成方法,该方法结合指针生成网络和最大边界相关算法,构建了一个端到端的神经网络摘要生成模型.该模型在进行文本...  相似文献   

12.
文本摘要的一个迫切需要解决的问题是如何准确地概括文本的核心内容.目前文本摘要的主要方法是使用编码器-解码器架构,在解码过程中利用软注意力获取所需的上下文语义信息.但是,由于编码器有时候会编码过多的信息,所以生成的摘要不一定会概括源文本的核心内容.为此,该文提出一种基于双注意指针网络的文本摘要模型.首先,该模型使用了双注...  相似文献   

13.
词语相似度计算中常用的一种方法是基于某种语义词典的计算。首先介绍《知网》中的基本概念和层次体系结构,借鉴刘群、李素建在词语相似度方面的基础理论,利用《知网》的义原层次体系结构计算出其中的义原相似度,再计算出概念的相似度,最后得到词语的相似度。还对其中的计算方法做出适当的改进调整,使其计算出的结果更加符合实际情况。  相似文献   

14.
本文针对实际党建领域中的新闻标题进行自动生成,提出了一种融合指针网络的自动文本摘要模型-Tri-PCN.相比于传统基于编码器-解码器框架的自动文本摘要模型,党建新闻标题生成模型还需要满足1)从更长的文本序列提取特征;2)保留关键的党建信息.针对党建新闻比普通文本摘要任务面临更长文本序列问题,论文使用Transforme...  相似文献   

15.
基于编码器-解码器架构的序列到序列学习模型是近年来主流的生成式自动文摘模型,其在计算每一个词的隐层表示时,通常仅考虑该词之前(或之后)的一些词,无法获取全局信息,从而进行全局优化.针对这个问题,在编码器端引入全局自匹配机制进行全局优化,并利用全局门控单元抽取出文本的核心内容.全局自匹配机制根据文本中每个单词语义和文本整体语义的匹配程度,动态地从整篇文本中为文中每一个词收集与该词相关的信息,并进一步将该词及其匹配的信息有效编码到最终的隐层表示中,以获得包含全局信息的隐层表示.同时,考虑到为每一个词融入全局信息可能会造成冗余,引入了全局门控单元,根据自匹配层获得的全局信息对流入解码端的信息流进行过滤,筛选出原文本的核心内容.实验结果显示,与目前主流的生成式文摘方法相比,该方法在Rouge评价上有显著提高,这表明所提出的模型能有效融合全局信息,挖掘出原文本的核心内容.  相似文献   

16.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

17.
抽取式摘要的核心问题在于合理地建模句子,正确地判断句子重要性。该文提出一种计算句子话题重要性的方法,通过分析句子与话题的语义关系,判断句子是否描述话题的重要信息。针对自动摘要任务缺乏参考摘要作为训练数据的问题,该文提出一种基于排序学习的半监督训练框架,利用大规模未标注新闻语料训练模型。在DUC2004多文档摘要任务上的实验结果表明,该文提出的话题重要性特征能够作为传统启发式特征的有效补充,改进摘要质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号