首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 36 毫秒
1.
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。  相似文献   

2.
抽取式方法从源文本中抽取句子,会造成信息冗余;生成式方法可以生成非源文词,会产生语法问题,自然性差。BERT作为一种双向Transformer模型,在自然语言理解任务上展现了优异的性能,但在文本生成任务的应用有待探索。针对以上问题,提出一种基于预训练的三阶段复合式文本摘要模型(TSPT),结合抽取式方法和生成式方法,将源本文经过预训练产生的双向上下文信息词向量由sigmoid函数获取句子得分抽取关键句,在摘要生成阶段将关键句作为完形填空任务重写,生成最终摘要。实验结果表明,该模型在CNN/Daily Mail数据集中取得了良好效果。  相似文献   

3.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

4.
事实一致性是摘要内容与源文档内容的信息一致。最近的研究表明,文本摘要模型生成的摘要存在较多与原文事实不一致的问题,设计能够检测并评估出事实不一致错误的方法至关重要。目前基于自然语言推理的方法存在对源文档内容提取简单,推理信息交互不充分等问题。提出多注意力机制的文本摘要事实一致性评估模型,利用预训练模型微调的sentence-BERT模型挑选源文档中的关键句,然后将摘要句与关键句组合成句子对,输入BERT模型编码获得向量表示结合ESIM进行句子对的推理,利用图注意力网络完成推理信息的聚合,提高文本摘要事实一致性评估模型的准确率。实验结果表明,该算法与多个典型算法在在领域内常用的数据集进行实验比较,其可行性和有效性得到验证。  相似文献   

5.
研究发现对大规模的数据进行预训练可以更好地从自然语言文本中捕捉更丰富的语义信息,目前很多的多文档摘要的工作也应用了预训练模型并取得了一定的效果。但是这些预训练模型没有考虑到结构化的实体-关系信息。不能更好地从文本中捕获事实性知识。该文提出了基于实体信息增强和多粒度融合的多文档摘要模型MGNIE,该方法将实体关系信息融入预训练模型ERNIE中,增强知识事实以获得多层语义信息,解决摘要生成的事实一致性问题,进而从多种粒度进行多文档层次结构的融合建模,以词信息、实体信息以及句子信息捕捉长文本信息摘要生成所需的关键信息点。该文设计的模型在国际标准评测数据集MultiNews上的实验证明,所提模型对比强基线模型效果和竞争力获得较大提升。  相似文献   

6.
温嘉宝  杨敏 《集成技术》2024,13(1):62-71
裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了一种新的抽取式摘要算法,利用预训练语言模型生成句子向量,并基于 Transformer 编码器结构融合包括句子向量、句子位置和句子长度在内的信息,完成句子摘要。实验结果显示,该算法能够有效处理长文本摘要任务。此外,在 2020 年中国法律智能技术评测(CAIL)摘要数据集上进行测试的结果表明,与基线模型相比,该模型在 ROUGE-1、ROUGE-2 和 ROUGE-L 指标上均有显著提升。  相似文献   

7.
针对面向微博的中文新闻摘要的主要挑战,提出了一种将矩阵分解与子模最大化相结合的新闻自动摘要方法。该方法首先利用正交矩阵分解模型得到新闻文本潜语义向量,解决了短文本信息稀疏问题,并使投影方向近似正交以减少冗余;然后从相关性和多样性等方面评估新闻语句集合,该评估函数由多个单调子模函数和一个评估语句不相似度的非子模函数组成;最后设计贪心算法生成最终摘要。在NLPCC2015数据集面向上的实验结果表明本文提出的方法能有效提高面向微博的新闻自动摘要质量,ROUGE得分超过其他基线系统。  相似文献   

8.
针对现有大多数面向查询的多文档抽取式摘要方法通常是将句子的内容显著性及查询相关性分开计算的,且对向量表示的建模不充分的问题,提出一种基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法.首先,通过训练层级BiGRU+Attention神经网络模型,获得具有丰富上下文语义信息的句子、文档向量表示;并在此过程中通过双线性变换注意力机制,使得文档向量表示不仅具有反映文档深层主旨信息的基本特性,还融入句子与用户查询的相关性信息,然后利用句向量与其进行相似度计算获得相应的句子重要性得分;其次,由句子重要性得分、句子中包含的关键词特征、句子的长度特征以及句子的时序权重系数加权组合得到最终的句子综合特征权重得分;最后,利用MMR算法来选择摘要句.实验结果表明,与其他方法相比本文提出的方法能在一定程度上提高面向查询的多文档抽取式摘要的质量,具有一定的有效性及优越性.  相似文献   

9.
针对传统词向量在自动文本摘要过程中因无法对多义词进行有效表征而降低文本摘要准确度和可读性的问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)的自动文本摘要模型构建方法。该方法引入BERT预训练语言模型用于增强词向量的语义表示,将生成的词向量输入Seq2Seq模型中进行训练并形成自动文本摘要模型,实现对文本摘要的快速生成。实验结果表明,该模型在Gigaword数据集上能有效地提高生成摘要的准确率和可读性,可用于文本摘要自动生成任务。  相似文献   

10.
应用图模型来研究多文档自动摘要是当前研究的一个热点,它以句子为顶点,以句子之间相似度为边的权重构造无向图结构。由于此模型没有充分考虑句子中的词项权重信息以及句子所属的文档信息,针对这个问题,该文提出了一种基于词项—句子—文档的三层图模型,该模型可充分利用句子中的词项权重信息以及句子所属的文档信息来计算句子相似度。在DUC2003和DUC2004数据集上的实验结果表明,基于词项—句子—文档三层图模型的方法优于LexRank模型和文档敏感图模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号