共查询到18条相似文献,搜索用时 62 毫秒
1.
钟琪;王中卿;王红玲 《中文信息学报》2024,(5):107-116
旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。 相似文献
2.
针对现有大多数面向查询的多文档抽取式摘要方法通常是将句子的内容显著性及查询相关性分开计算的,且对向量表示的建模不充分的问题,提出一种基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法.首先,通过训练层级BiGRU+Attention神经网络模型,获得具有丰富上下文语义信息的句子、文档向量表示;并在此过程中通过双线性变换注意力机制,使得文档向量表示不仅具有反映文档深层主旨信息的基本特性,还融入句子与用户查询的相关性信息,然后利用句向量与其进行相似度计算获得相应的句子重要性得分;其次,由句子重要性得分、句子中包含的关键词特征、句子的长度特征以及句子的时序权重系数加权组合得到最终的句子综合特征权重得分;最后,利用MMR算法来选择摘要句.实验结果表明,与其他方法相比本文提出的方法能在一定程度上提高面向查询的多文档抽取式摘要的质量,具有一定的有效性及优越性. 相似文献
3.
随着法律文书数据越来越多,信息过载问题日益严重,快速且准确地在海量法律文书中进行检索显得非常必要。法律文本作为一种特殊的文本形式,具有篇幅较长、结构复杂、专业性强等特点,传统基于关键字的文本检索方法不能满足用户查询法律信息的需求,容易出现答非所问、检索不全等问题。此外,基于语义的文本检索方法,大多依赖于对含有大量标注数据的法律文本进行有监督学习,而法律文本数据的人工标注则严重依赖专家知识,导致其需要高昂的人力成本。该文提出一种基于无监督学习的法律文书检索模型,分别从法律概念、词语和词组3个方面进行多粒度无监督文本匹配,避免了没有训练数据导致的冷启动问题。在法律裁判文书数据集上进行检索实验的结果表明,与基准模型相比,该模型在MAP、MRR和NDCG@10指标上均有显著提升,取得了优秀的检索效果,具有有效性和先进性。 相似文献
4.
多文档摘要抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取.现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息.为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系.针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度.在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系.实验结果表明,与抽取式基准模型相比,该框架在Multi-news数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性. 相似文献
5.
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。 相似文献
6.
7.
抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显著提高。 相似文献
8.
9.
基于语义的单文档自动摘要算法 总被引:1,自引:0,他引:1
单文档自动摘要的目的是在原始的文本中通过摘取、提炼主要信息,提供一篇简洁全面的摘要。自动摘要的主流方法是通过统计和机器学习的技术从文本中直接提取出句子,而单文档由于篇章有限,统计的方法无效。针对此问题,提出了基于语义的单文本自动摘要方法。该方法首先将文档划分为句子,然后计算每一对句子的语义相似度,通过运用改进型K-Medoids聚类算法将相似的句子归类,在每一类中选出最具代表性的句子,最后将句子组成文档摘要。实验结果表明,通过融合语义信息,该方法提高了摘要的质量。 相似文献
10.
深层神经网络在文档摘要方面取得了很好的效果,其优势只有在大数据集下才能显示出来.为了解决在使用深度学习做柬语单文档抽取式摘要时语料标注不足的问题,提出一种将主动学习和深度学习相结合的方法.利用主动学习抽样策略选择出定量的文档,通过专家标注,结合深度学习中编码器解码器模型进行训练模型抽取得到摘要.实验结果表明,在训练语料... 相似文献
11.
反馈文档的质量是制约伪相关反馈方法性能的主要因素.为了提高反馈文档的鲁棒性,提出一种基于最大边缘相关的伪相关反馈方法RMMR(Reorder Maximal Marginal Relevance).该方法通过对查询初检结果进行重调序,使得排序后的前k个文档中,文档间的相似度最小且与查询相关的数目最大.最后,利用查询纯度将影响性能的候选扩展词剔除后进行二次查询.实验结果表明,该方法可以有效地提高反馈文档的鲁棒性. 相似文献
12.
俞辉 《计算机工程与科学》2009,31(9)
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。 相似文献
13.
14.
15.
Mahesh Gangathimmappa Neelakandan Subramani Velmurugan Sambath Rengaraj Alias Muralidharan Ramanujam Naresh Sammeta Maheswari Marimuthu 《Concurrency and Computation》2023,35(2):e7476
Due to the exponential increase in the generation of digital documents and in the online search user diversity, multilingual information is highly available on the Internet. However, the huge amount of multilingual data cannot be analyzed manually. Therefore, cross lingual multi-document summarization (CLMDS) model is introduced to generate a summary of several documents in which the summary language is different from the source document language. This paper presents a Deep Learning Enabled Cross-lingual Search with Metaheuristic based Query Optimization (DLCLS-MQO) model for Multi-document summarization. The DLCLS-MQO model allows to offer a query in Tamil, summarize several English documents, and lastly translate the summary into Tamil. The DLCLS-MQO model encompasses four stages of operation such as multilingual search, query optimization, automatic sematic lexicon builder, and document summarization. Firstly, bidirectional long short-term memory (BiLSTM) model is applied to perform multilingual searching process. Followed by, sunflower optimization (SFO) algorithm based query optimization process is carried out. Moreover, global vectors (GloVe) method is used for the construction of domain oriented sentiment lexicons. Finally, extreme gradient boosting (XGBoost) model is applied for the CLMDS. A detailed simulation analysis takes place to highlight the betterment of the DLCLS-MQO model. The resultant experimental values portrayed the superior performance of the DLCLS-MQO model over the compared methods. 相似文献
16.
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。 相似文献
17.
中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。 相似文献
18.
近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文.探讨自动文本摘要任务的内涵,回顾和分析了自动文本摘要技术的发展,针对目前主要的2种摘要产生形式(抽取式和生成式)的具体工作进行了详细介绍,包括特征评分、分类算法、线性规划、次模函数、图排序、序列标注、启发式算法、深度学习等算法.并对自动文本摘要常用的数据集以及评价指标进行了分析,最后对其面临的挑战和未来的研究趋势、应用等进行了预测. 相似文献