首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 72 毫秒
1.
自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。限于相关领域的已有水平,现阶段的自动文摘系统多数是以词语频率作为依据,以词频高的词语作为文章的关键词语,得到的文摘往往与原文中心思想相差甚远,因此,需要对文章的语法、语义和语境进行分析。本文利用HowNet得到词语概念的方法,建立基于概念的自动文摘系统。  相似文献   

2.
自然语言篇章理解及基于理解的自动文摘研究   总被引:7,自引:4,他引:3  
我们对文章结构进行了介析, 研究语言单位间的意义相关性, 基于这种相关性,提出意义分析方法, 并给出篇章的意义表示。最后, 分析了自动文摘研究现状, 介绍了我们在这方面的研究情况。  相似文献   

3.
王开铸  张军 《电脑学习》1995,(5):1-2,29
本文对计算机自动文摘系统的理解和模型两个基本问题进行了深入的探讨。给出理解的三种方式定义,特别是可操作的层次理解定义有助于文摘系统的实现。给出了由源文本到摘要的9种形式模型,从理论上对复杂系统加以清晰地描述。  相似文献   

4.
提出了一种基于特征信息提取的中文自动文摘方法。通过对文章中可能影响文摘句提取质量的若干特征进行分析,设计了一种基于特征信息提取的句子重要度计算方法,并依此来抽取文摘句以生成摘要。实验结果验证了该方法的有效性,是对中文自动文摘方法中利用文章特征信息来抽取文摘句的一种有益的尝试。  相似文献   

5.
基于篇章理解的自动文摘研究   总被引:8,自引:1,他引:7  
本文在自然语言理解的基础上, 对自动文摘系统进行研究。研究在两级上进行, 一级是基于中心名词, 中心动词同其修饰成分间关系研究, 实现句子成分过滤, 完成句子主干提取。一级是上下文级, 基于篇章文体结构, 句子语义关联, 分别实现摘要基集产生算法, 摘要基集扩充算法及摘要集合生成算法。摘要基集的产生依赖于中心段, 中心句选取, 摘要基集扩充和摘要集合产生依赖于模糊语义距离的测试。  相似文献   

6.
自动文摘方法分析   总被引:7,自引:0,他引:7  
介绍了目前自动文摘的四种实现方法,并对这四种方法的优缺点进行了较为详细的分析与比较,介绍了它们的应用实例。最后讨论了一种面向非受限领域的综合式中文自动文摘方法。  相似文献   

7.
1.引言 Internet的迅猛的发展,使人们能方便快捷地获取众多的信息和服务。但是,面对Internet上浩瀚纷繁的信息海洋,人们常常会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息的迷失,人们难于找到真正所需的信息。因此,信息社会对能够有效浓缩文本信息的网络自动文摘有着迫切的要求。自动文摘是自然语言理解的一个重要分支,而且文摘的研究也由来已久。早在50年代末,Luhn就首次设计了一个自动文摘系统,引起了世人的极大注目。从那时起,先后涌现了许多著名的系统。所谓自动文摘系统是指这样的一种软件系统,它能将给定原文的中心内容,或所需要的内容自动抽取出来,并用同于或不同于原文的句子表示出来。  相似文献   

8.
基于文本聚类的自动文摘系统的研究与实现   总被引:3,自引:0,他引:3  
针对当前自动文摘方法的不足,提出了基于文本聚类和自然语言理解的自动文摘实现方法。可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高。将文本聚类引入自动文摘中,不但使单文档的文摘质景得到提高,而且能够实现多文档的自动文摘,这是现有的自动文摘技术所没有涉及的。实现了面向“塑料”行业的基于文本聚类和自然语言理解的自动文摘系统TCAAS。  相似文献   

9.
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。  相似文献   

10.
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。  相似文献   

11.
自动文本摘要技术旨在凝练给定文本,以篇幅较短的摘要有效反映出原文核心内容.现阶段,生成型文本摘要技术因能够以更加灵活丰富的词汇对原文进行转述,已成为文本摘要领域的研究热点.然而,现有生成型文本摘要模型在产生摘要语句时涉及对原有词汇的重组与新词的添加,易造成摘要语句不连贯、可读性低.此外,通过传统基于已标注数据的有监督训...  相似文献   

12.
目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器.该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差.从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用.为了使编码器能够获取文本的结构信息,该文提出了基于文本结构信息的编码器,其使用了图...  相似文献   

13.
Query-Biased Summarization Based on Lexical Chaining   总被引:1,自引:0,他引:1  
Recently, the prevalence of information retrieval engines has created an important application of the automatic summarization as the display of retrieval results, whereby the user can quickly and accurately judge the relevance of texts returned as a result of a query. Here, rather than producing a generic summary, the summary that reflects the user's topic of interest (information need) expressed in the query would be considered as more suitable. This type of summary is often called query-biased summary.
In this paper we present a method for producing query-biased summaries using lexical chains. Lexical chains are sequences of words that are in lexical cohesion relation with each other, and tend to indicate fragments of a text that form a semantic unit. Using lexical chains would enable to produce more coherent and readable summaries than previous approaches to query-biased summarization.
To evaluate the effectiveness of our method, a task-based evaluation scheme is adopted. The results from the experiments show that query-biased summaries by lexical chains outperform others in the accuracy of subjects' relevance judgments.  相似文献   

14.
Web文档的迅猛增长使Web文摘技术成了当今的一个研究热点。由于Web文档的特殊性,使得Web文摘不同于传统的文本自动文摘。本文分析了Web文档的特点;给出了Web文摘的定义;提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子权重分解为Web特征词权重和Web句子结构权重,并用机器学习的方法来计算二者所占的比重。Web特征词权重根据文档分类树图进行权值调整,Web句子结构权重充分考虑排版格式和超连接属性。通过对1000篇Web文档的文摘实验,证明文中所提Web文摘算法切实可行。  相似文献   

15.
基于递归神经网络的序列到序列的模型在文本摘要生成任务中取得了非常好的效果,但这类模型大多存在生成文本重复、曝光偏差等问题。针对重复问题,提出一种由存储注意力和解码自注意力构成的混合注意力,通过存储历史注意力和增加对历史生成单词的注意力来克服该问题;使用强化学习作为一种新的训练方式来解决曝光偏差问题,同时修正损失函数。在CNN/Daily Mail数据集对模型进行测试,以ROUGE为评价指标,结果证明了混合注意力对重复问题有较大的改善,借助强化学习可以消除曝光偏差,整合后的模型在测试集上超越先进算法。  相似文献   

16.
Automatic text summarization (ATS) has achieved impressive performance thanks to recent advances in deep learning (DL) and the availability of large-scale corpora.The key points in ATS are to estimate the salience of information and to generate coherent results.Recently,a variety of DL-based approaches have been developed for better considering these two aspects.However,there is still a lack of comprehensive literature review for DL-based ATS approaches.The aim of this paper is to comprehensively review significant DL-based approaches that have been proposed in the literature with respect to the notion of generic ATS tasks and provide a walk-through of their evolution.We first give an overview of ATS and DL.The comparisons of the datasets are also given,which are commonly used for model training,validation,and evaluation.Then we summarize single-document summarization approaches.After that,an overview of multi-document summarization approaches is given.We further analyze the performance of the popular ATS models on common datasets.Various popular approaches can be employed for different ATS tasks.Finally,we propose potential research directions in this fast-growing field.We hope this exploration can provide new insights into future research of DL-based ATS.  相似文献   

17.
是从一个商品的所有评论中抽取出一系列有序的能够代表评论广泛意见的句子作为该商品的综合评论。篇章层次结构分析旨在对篇章内部各个语义单元之间的层次结构和语义关系进行分析。由此可见,分析篇章层次结构有利于更加准确地判断篇章内各个语义单元的语义信息和重要程度,这对于抽取篇章的重要内容有很大帮助。因此,文中提出了一种基于篇章层次结构的商品评论摘要方法。该方法基于LSTM(Long Short Term Memory Network)神经网络构建抽取式商品评论摘要模型,并利用注意力机制将篇章层次结构信息作为判断篇章单元重要程度的参照加入该模型中,以便更加准确地抽取出商品评论中的重要内容,从而提升整个任务的性能。将所提方法在Yelp 2013数据集上进行实验,并在ROUGE评价指标上进行评测。实验结果表明,加入篇章层次结构信息后,模型的ROUGE-1值达到了0.360 8,与仅考虑评论句子信息的标准LSTM方法相比提升了1.57%,这说明在商品评论摘要任务中引入篇章层次结构信息能够有效地提升该任务的性能。  相似文献   

18.
自动文本摘要是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的摘要方法。同时给出了较为客观和有效的摘要评价方法。实验表明了该方法的有效性。  相似文献   

19.
多文档文摘技术能帮助用户减少不必要的阅读时间,有广阔的应用前景。该文以新闻报道为处理对象,以MMR(Maximal Marginal Relevance)文摘提取算法为基础,针对目前新闻报道往往以专题形式组织展现的特点,提出了一种基于话题的多文档文摘方法。这种方法以话题关键字为打分依据,同时考虑句子位置特征等信息对句子的重要性进行评分。 该文利用TDT4的新闻报道语料对上述文摘方法进行了试验评价,将基于话题的文摘系统和两个Baseline文摘系统进行比较,取得了较好的实验结果,尤其在5%的压缩比例下有明显优势。  相似文献   

20.
宋长平  李婧 《计算机应用研究》2020,37(11):3297-3301
传统序列到序列模型未充分利用输入文本的句子结构,导致其无法生成结构严谨、语法更好的摘要。因此,提出了一种融合句子基本结构的摘要生成方法。首先,明确提出融合句子结构生成文本摘要的概念。再者,在摘要生成器上增添了句子基本结构模块和监督模块,句子基本结构模块从输入文本中捕捉一系列句子结构,监督模块评估已捕获句子结构的重要性,以此协助句子基本结构模块从中提取可用的句子结构。最后,摘要生成器融合可用的句子结构生成最终摘要。在数据集LCSTS上的实验表明,此方法的ROUGE得分相较于seq2seq皆有提高,即其生成摘要的准确性优于seq2seq模型。实验也验证了句子基本结构模块和监督模块存在的必要性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号