首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 343 毫秒
1.
基于局部话题句群的事件相关多文档摘要研究   总被引:1,自引:0,他引:1  
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于:在提取基本新闻要素和扩展新闻要素的基础上分别形成了基本局部话题句群(BPTSG)和扩展局部话题句群(EPTSG),这样可以在尽可能全面地覆盖多个话题的同时缩减自身的冗余。此外,文中还提出了一种基于事件时间和句子位置信息的文摘句排序方法。实验结果验证了该文所提的方法是有效的,与基于聚类的自动文摘系统相比较,该系统生成的摘要质量有显著提高。  相似文献   

2.
郭红建  黄兵 《计算机应用研究》2013,30(11):3299-3301
针对多文档文摘生成过程中话题容易中断和文摘句子语义出现不连贯这两个研究难点, 分析了潜在语义分析聚类算法在句子排序中的应用, 以期提高文摘的生成质量。先采用潜在语义分析聚类算法将文摘句子聚类, 从而形成话题集, 以达到解决话题中断的目的。通过计算文档的文摘展现力, 挑选出文摘展现力最大的文档作为模板, 然后根据模板对文摘句子进行两趟排序。实验结果表明, 提出的算法是有效的, 该算法能够提高文摘的可读性。  相似文献   

3.
时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性.提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序特性,以指导时序多文档文摘的内容选择.首先通过宏观模型确定重要的时间点,然后通过微观模型在重要的时间点选择重要的句子,从而更有效地获取文摘.实验证明该方法是有效的.  相似文献   

4.
从网络信息的动态演化性出发,对同一话题不同时序阶段的文档集合进行识别和分析,在度量演化内容差异性的基础上实现动态性,给出了两种实现动态多文档文摘的模型,即基于矩阵子空间分析和基于文本相似度累加的动态多文档文摘模型.在此基础上,提出了高效的动态句子加权方法.TAC 2008的Update Summarization测试数据上的实验证明了所提出的动态多文档文摘模型的有效性.  相似文献   

5.
该文提出了一种基于云模型的文摘单元选取方法,利用云模型,全面考虑文摘单元的随机性和模糊性,提高面向查询的多文档自动文摘系统的性能。首先计算文摘单元和查询条件的相关性,将文摘单元和各个查询词的相关度看成云滴,通过对云的不确定性的计算,找出与查询条件真正意义相关的文摘单元;随后利用文档集合重要度对查询相关的结果进行修正,将文摘句和其他各文摘句的相似度看成云滴,利用云的数字特征计算句子重要度,找出能够概括尽可能多的文档集合内容的句子,避免片面地只从某一个方面回答查询问题。为了证明文摘单元选取方法的有效性,在英文大规模公开语料上进行了实验,并参加了国际自动文摘公开评测,取得了较好的成绩。
  相似文献   

6.
在自然语言处理和计算语言学相关技术支撑下,研究基于网络的动态多文档文摘系统框架,重点描述动态多文档文摘系统框架的相关内容,介绍利用矩阵子空间方法进行动态演化建模,利用相似度和质心整体优选计算方法进行信息过滤,并利用动态流形排序方法进行句子加权的动态多文档文摘生成系统.按照多文档文摘生成步骤的划分,对3 种创新的模型方法进行融合,综合起来从不同侧重点考虑,形成互补,提高系统性能.在网络环境下,此框架保证了动态演化的多文档文摘具有较高的信息新颖性和历史信息的演化性.  相似文献   

7.
基于时间戳的多文档自动文摘   总被引:1,自引:0,他引:1       下载免费PDF全文
网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好,可以应用于实际系统中。  相似文献   

8.
主题模型LDA的多文档自动文摘   总被引:3,自引:0,他引:3  
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.  相似文献   

9.
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。  相似文献   

10.
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。  相似文献   

11.
带有时间标志的演化式摘要是近年来提出的自然语言处理任务,其本质是多文档自动文摘,它的研究对象是互联网上连续报道的热点新闻文档。针对互联网新闻事件报道的动态演化、动态关联和信息重复等特点,该文提出了一种基于局部—全局主题关系的演化式摘要方法,该方法将新闻事件划分为多个不同的子主题,在考虑时间演化的基础上同时考虑子主题之间的主题演化,最后将新闻标题作为摘要输出。实验结果表明,该方法是有效的,并且在以新闻标题作为输入输出时,和当前主流的多文档摘要和演化摘要方法相比,在Rouge评价指标上有显著提高。  相似文献   

12.
Storyline-based summarization for news topic retrospection   总被引:2,自引:0,他引:2  
Electronics newspapers gradually become main sources for news readers. When facing the numerous reports on a series of events in a topic, a summary of stories from news reports will benefit news readers in reviewing the news topic efficiently. Besides identifying events and presenting news titles and keywords the TDT (Topic Detection and Tracking) techniques are used to do, a summarized text to present event evolution is necessary for general news readers to review events under a news topic. This paper proposes a topic retrospection process and implements the SToRe (Story-line based Topic Retrospection) system that identifies various events under a news topic, and composes a summary that news readers can get the sketch of event evolution in the topic. It consists of three main functions: event identification, main storyline construction and storyline-based summarization. The constructed main storyline can remove the irrelevant events and present a main theme. The storyline-based summarization extracts the representative sentences and takes the main theme as the template to compose the summary. The storyline summary not only provides readers enough information to understand the development of a news topic, but also serves as an index for readers to search corresponding news reports. Following a design science paradigm, a lab experiment is conducted to evaluate the SToRe system in the question-and-answer (Q&A) setting. The experimental results show that SToRe enables news readers to effectively and efficiently capture the evolution of a news topic.  相似文献   

13.
Event detection is a fundamental information extraction task, which has been explored largely in the context of question answering, topic detection and tracking, knowledge base population, news recommendation, and automatic summarization. In this article, we explore an event detection framework to improve a key phrase-guided centrality-based summarization model. Event detection is based on the fuzzy fingerprint method, which is able to detect all types of events in the ACE 2005 Multilingual Corpus. Our base summarization approach is a two-stage method that starts by extracting a collection of key phrases that will be used to help the centrality-as-relevance retrieval model. We explored three different ways to integrate event information, achieving state-of-the-art results in text and speech corpora: (1) filtering of nonevents, (2) event fingerprints as features, and (3) combination of filtering of nonevents and event fingerprints as features.  相似文献   

14.
话题摘要是自然语言处理中对文本进行内容归纳和概要生成的技术.传统的话题摘要研究主要针对新闻、Web网页和博客这样的长文本,本文研究微博短文本的话题摘要问题.本文以微博转发消息为对象,提出具有拓扑结构的微博话题摘要生成算法(Microblog topic summarization,MTS).首先通过微博转发上下文确定代表性词项;然后识别微博转发中的话题区域,从广度和深度两个方向对话题进行归并操作;最后,基于转发关系生成具有拓扑结构的微博话题摘要.本文实验采用真实的微博事件数据集验证MTS算法的有效性和可行性,并采用可视化方式展现微博话题摘要的结果.  相似文献   

15.
Comparative news summarization aims to highlight the commonalities and differences between two comparable news topics by using human-readable sentences. The summary ought to focus on the salient comparative aspects of both topics, and at the same time, it should describe the representative properties of each topic appropriately. In this study, we propose a novel approach for generating comparative news summaries. We consider cross-topic pairs of semantic-related concepts as evidences of comparativeness and consider topic-related concepts as evidences of representativeness. The score of a summary is estimated by summing up the weights of evidences in the summary. We formalize the summarization task as an optimization problem of selecting proper sentences to maximize this score and address the problem by using a mixed integer programming model. The experimental results demonstrate the effectiveness of our proposed model.  相似文献   

16.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

17.
针对传统图模型方法进行文本摘要时只考虑统计特征或浅层次语义特征,缺乏对深层次主题语义特征的挖掘与利用,提出了融合主题特征后多维度度量的文本自动摘要方法MDSR(multi-dimension summarization rank)。首先利用LDA主题模型对文本主题语义信息进行挖掘,定义了主题重要度以衡量主题特征对句子重要程度的影响;然后结合主题特征、统计特征和句间相似度,改进了图模型节点的概率转移矩阵的构建方式;最后根据句子节点权重进行摘要的抽取与度量。实验结果显示,当主题特征、统计特征及句间相似度权重比例达到3:4:3时,MDSR方法的ROUGE评测值达到最佳,ROUGE-1、ROUGE-2、ROUGE-SU4值分别达到53.35%、35.18%和33.86%,优于对比方法,表明了融入主题特征后的文本摘要方法有效提高了摘要抽取的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号