共查询到18条相似文献,搜索用时 143 毫秒
1.
针对现有大多数面向查询的多文档抽取式摘要方法通常是将句子的内容显著性及查询相关性分开计算的,且对向量表示的建模不充分的问题,提出一种基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法.首先,通过训练层级BiGRU+Attention神经网络模型,获得具有丰富上下文语义信息的句子、文档向量表示;并在此过程中通过双线性变换注意力机制,使得文档向量表示不仅具有反映文档深层主旨信息的基本特性,还融入句子与用户查询的相关性信息,然后利用句向量与其进行相似度计算获得相应的句子重要性得分;其次,由句子重要性得分、句子中包含的关键词特征、句子的长度特征以及句子的时序权重系数加权组合得到最终的句子综合特征权重得分;最后,利用MMR算法来选择摘要句.实验结果表明,与其他方法相比本文提出的方法能在一定程度上提高面向查询的多文档抽取式摘要的质量,具有一定的有效性及优越性. 相似文献
2.
随着法律文书数据越来越多,信息过载问题日益严重,快速且准确地在海量法律文书中进行检索显得非常必要。法律文本作为一种特殊的文本形式,具有篇幅较长、结构复杂、专业性强等特点,传统基于关键字的文本检索方法不能满足用户查询法律信息的需求,容易出现答非所问、检索不全等问题。此外,基于语义的文本检索方法,大多依赖于对含有大量标注数据的法律文本进行有监督学习,而法律文本数据的人工标注则严重依赖专家知识,导致其需要高昂的人力成本。该文提出一种基于无监督学习的法律文书检索模型,分别从法律概念、词语和词组3个方面进行多粒度无监督文本匹配,避免了没有训练数据导致的冷启动问题。在法律裁判文书数据集上进行检索实验的结果表明,与基准模型相比,该模型在MAP、MRR和NDCG@10指标上均有显著提升,取得了优秀的检索效果,具有有效性和先进性。 相似文献
3.
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 相似文献
4.
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。 相似文献
5.
6.
抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显著提高。 相似文献
7.
8.
文本摘要在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用B... 相似文献
9.
基于语义的单文档自动摘要算法 总被引:1,自引:0,他引:1
单文档自动摘要的目的是在原始的文本中通过摘取、提炼主要信息,提供一篇简洁全面的摘要。自动摘要的主流方法是通过统计和机器学习的技术从文本中直接提取出句子,而单文档由于篇章有限,统计的方法无效。针对此问题,提出了基于语义的单文本自动摘要方法。该方法首先将文档划分为句子,然后计算每一对句子的语义相似度,通过运用改进型K-Medoids聚类算法将相似的句子归类,在每一类中选出最具代表性的句子,最后将句子组成文档摘要。实验结果表明,通过融合语义信息,该方法提高了摘要的质量。 相似文献
10.
深层神经网络在文档摘要方面取得了很好的效果,其优势只有在大数据集下才能显示出来.为了解决在使用深度学习做柬语单文档抽取式摘要时语料标注不足的问题,提出一种将主动学习和深度学习相结合的方法.利用主动学习抽样策略选择出定量的文档,通过专家标注,结合深度学习中编码器解码器模型进行训练模型抽取得到摘要.实验结果表明,在训练语料... 相似文献
11.
12.
13.
14.
15.
俞辉 《计算机工程与科学》2009,31(9)
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。 相似文献
16.
17.