首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
自动文本摘要是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的摘要方法。同时给出了较为客观和有效的摘要评价方法。实验表明了该方法的有效性。  相似文献   

2.
为了改进生成式文本的摘要模型,本文提出了一种基于主题的生成对抗与指针网络结合的文本摘要模型.首先通过LDA主题建模方法获取主题词,在获取单词的主题向量后,将结合主题的词向量与传统的序列注意力相结合,形成新的复合注意力共同影响单词的生成,然后通过加入生成对抗网络以在指针生成网络上取得了更好的效果.实验采用gigaword数据集进行训练,采用ROUGE评分机制进行评分,结果证明由于融入主题因素,相比单独采用指针网络我们的模型提升了摘要结果的可读性及准确性,具有更好的表现.  相似文献   

3.
基于编码器解码器的序列到序列模型广泛应用于生成式自动文摘,但传统Seq2Seq模型会产生重复、偏离主题等问题。该文提出两点优化:一是全局信息编码,通过卷积和自注意力机制获取原文全局信息并将其传递到解码器;二是主题信息解码,从原文中提取重要实体并将其编码为主题向量,帮助解码器获取值得聚焦的信息,提升文本摘要的真实性和可靠性。在LCSTS上的实验表明,全局编码和主题解码相较之前的模型在各项Rouge指标上均有提升,融合二者的模型提升效果更为明显。  相似文献   

4.
5.
6.
研究自动摘要技术,结合统计与文本关系图并基于复杂网络中的社区划分算法,提出一种多主题文本摘要抽取方法。抽取文本中权重较高的句子,通过句子的相似度计算建立文本关系图,利用社区划分算法解决子主题划分的问题。实验结果表明,该方法对多主题文本摘要的抽取质量较好,能抽取出较多的子主题。  相似文献   

7.
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本文数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。  相似文献   

8.
王凯祥 《计算机科学》2018,45(Z11):12-16
对面向查询的自动文本摘要技术进行系统梳理,分析所用方法的基本思想、优缺点,并总结未来的发展方向。通过分析梳理,总结出了四大类面向查询的自动文本摘要技术:基于图模型的方法、基于机器学习的方法、基于聚类的方法和其他方法。在今后的研究过程中,基于神经网络和多模型融合的方法将成为未来研究的热点,在应用层面上,与实际应用场景相结合的算法研究将成为趋势。  相似文献   

9.
生成一直是自动摘要领域的难题。现有方法在处理长文本的过程中,存在准确率低、冗余等问题。鉴于主题模型在多文档摘要中的突出表现,将其引入到长文本摘要任务中。另外,目前单一的抽取式或生成式方法都无法应对长文本的复杂情况。结合两种摘要方法,提出了一种针对长文本的基于主题感知的抽取式与生成式结合的混合摘要模型。并在TTNews和CNN/Daily Mail数据集上验证了模型的有效性,该模型生成摘要ROUGE分数与同类型模型相比提升了1~2个百分点,生成了可读性更高的摘要。  相似文献   

10.
原始对话中存在的较多无用信息会干扰模型对重要信息的关注。为此,提出一种基于多特征融合过滤的对话摘要模型,通过自适应地融合多种语义特征来过滤无用信息,实现更加准确的摘要生成。在对话摘要数据集CSDS上的实验结果表明,与先进的BART、MV-BART和BART(DALL)等模型相比,该方法在ROUGE分数上最高可提升2.89%。  相似文献   

11.
介绍了XML文本自动摘要的研究现状,对现存的XML文本自动文摘技术进行了分析和评估,论述了目前该研究方向上尚未解决的一些问题和未来的发展趋势。  相似文献   

12.
提出的摘要方法,以句子为基本抽取单位,以兴趣主题词为句子的加权特征。对句子基于潜语义聚类,提出语义结构,这种结构对摘要质量的提高有重要作用,并且提出了较为客观和有效的摘要评价方法。实验表明,本文方法是行之有效的。  相似文献   

13.

在多领域数据的文本生成场景中,不同领域中的数据通常存在差异性,而新领域的引入会同时带来数据缺失的问题. 传统的有监督方法,需要目标领域中大量包含标记的数据来训练深度神经网络文本生成模型,而且训练好的模型无法在新领域中取得良好的泛化效果. 针对多领域场景中数据差异和数据缺失的问题,受到迁移学习方法的启发,设计了一种综合性的迁移式文本生成方法,减少了不同领域之间文本数据的差异性,同时借助已有领域和新领域之间文本数据上的语义关联性,帮助深度神经网络文本生成模型在新领域上进行泛化. 通过在公开数据集上的实验,验证了所提方法在多领域场景下领域迁移的有效性,模型在新领域上进行文本生成时具有较好的表现,对比现有的其他迁移式文本生成方法,在各项文本生成评价指标上均有提升.

  相似文献   

14.
丁建立  李洋  王家亮 《计算机应用》2019,39(12):3476-3481
针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解码器进行了优化研究;然后,在词嵌入生成技术中融合位置嵌入和词嵌入,并新增词频-逆文档频率(TF-IDF)、词性(POS)、关键性得分(Soc),优化词嵌入维度。所提方法对传统序列映射Seq2Seq和词特征表示进行优化,在增强模型对语义的理解的同时,提高了摘要的质量。实验结果表明,该方法在Rouge评价体系中的表现相比传统伴随自注意力机制的递归神经网络方法(RNN+atten)和多层双向伴随自注意力机制的递归神经网络方法(Bi-MulRNN+atten)提高10~13个百分点,其文本摘要语义理解更加准确、生成效果更好,拥有更好的应用前景。  相似文献   

15.
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。  相似文献   

16.
卢玲  杨武  曹琼 《计算机应用》2016,36(2):432-436
传统自动文摘一般对字数没有明确限制,运用传统技术进行短文摘提取时,受字数限制,难以获取均衡的性能。针对该问题,提出一种多重映射的自动短文摘方法。通过计算关联度映射值、长度映射值、标题映射值和位置映射值,分别形成多个候选文摘句子集;再运用多重映射策略,将多个候选子集映射到文摘句子集中,同时使用提取文本中心句的方法提高召回率。实验表明,多重映射可在短文摘提取上获得稳定的性能。在NLP&CC2015评测中,该方法的ROUGE-1测试F值达到0.49,ROUGE-2测试F值达到0.35,均优于评测的平均水平,表明了该方法的有效性。  相似文献   

17.
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。  相似文献   

18.
特征是一切观点挖掘和情感分析任务的关键所在。对于无监督的文本聚类任务,文本特征的优劣直接影响聚类效果。考察三种语义特征(名词、名词短语、语义角色)对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该方法能有效地去除冗余特征,提高聚类精度。同时还提出一种基于语义角色标注的直接定位有效词特征的聚类方法,实验表明该方法是直接的和有效的,并为特征选择方法提供了新思路。  相似文献   

19.
黄丽雯  钱微 《计算机应用》2006,26(11):2626-2627,2630
提出了一种对HITS算法进行改进的新方法,本方法将文档内容与一些启发信息如“短语”,“句子长度”和“首句优先”等结合,用于发现多文档子主题,并且将文档子主题特征转换成图节点进行排序。通过对DUC2004数据的实验,结果显示本方法是一种有效的多文本摘要方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号