首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 145 毫秒
1.
目前的动态文摘方法几乎都是基于文档批处理机制的,无法适应实际应用中文档数据是以不稳定的数据流形式到来,需要实时更新摘要的需求。针对上述问题,提出一种利用K近邻思想对句子进行建模,再增量聚类句子实现子主题划分的动态文本摘要方法。该方法根据K近邻基本思想形成两层句子图模型,用增量图聚类方法对句子进行处理,同时考虑结合时间因素提高句子新颖度来抽取动态文摘。该方法能基于文档数据流增量式地抽取动态文摘,实现文摘内容的实时更新。通过在TAC2008和TAC2009的Update Summarization数据集上的测试,证明本文方法在动态文摘抽取上的有效性。  相似文献   

2.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

3.
面向查询的多文档摘要技术有两个难点 第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向查询的多文档摘要方法,利用主题分析技术识别出当前主题下的子主题,综合考虑句子所在的子主题与查询的相关度以及子主题的重要度两方面因素来选择摘要句,并根据词语在子主题之间的共现信息,在不使用任何外部知识的情况下,进行查询扩展。在DUC2006评测语料上的实验结果表明,与Baseline系统相比,该系统取得了更高的ROUGE评价值,基于子主题的查询扩展方法则进一步提高了摘要的质量。  相似文献   

4.
周凯  李芳 《计算机应用与软件》2009,26(6):231-232,255
针对事件摘要方法进行了深入研究,提出了一种基于句子特征与模糊推断的中文突发事件摘要实现机制。该机制综合考虑句子的特征重要性和与用户需求的内在相关性为单篇新闻生成摘要,在事件所有新闻摘要的句子上进行聚类、排序、抽取并最终生成事件的多主题摘要。在中文突发事件语料库上进行了实验,结果证明该机制能够有效地为中文突发事件生成摘要。  相似文献   

5.
中文单文档摘要是把一篇文档压缩成一个更短描述的过程。随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值。但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题。该文提出基于关键信息指导的标题生成算法。算法中的关键信息除了主流方法中使用的新闻首段句子之外,还包括新闻后续内容中有实质信息的句子,以及新闻中的重点词语。该算法将这些关键信息作为序列模型的输入,指导其生成标题,使得生成的标题能够覆盖更多的新闻信息。实验表明,在基于序列模型生成标题时,使用关键信息能够提升新闻标题生成的效果。  相似文献   

6.
随着互联网的飞速发展,网络舆情引发的问题也越发突出。尤其是近年来发生的新疆暴恐事件,已成为公众关注的焦点。主题演化是网络舆情分析的重要内容之一,为了把握关于新疆的舆情动态,该文从主题热度变化、内容变化及关键词等多方面进行了研究。该文首先抓取了2013年1月到2015年12月互联网中关于新疆暴恐事件的新闻,并以此作为数据集建立了动态主题模型,实现对新闻的主题演化分析。该模型采用两次非负矩阵分解来生成主题,以层级式狄利克雷过程为对比实验,通过可视化分析与比较,总结出新疆暴恐事件的一些规律。  相似文献   

7.
徐建民  孙晓磊  吴树芳 《计算机应用》2013,33(10):2807-2810
针对互联网新闻事件追踪,结合时间信息提出了一种用于事件追踪的动态模型。该模型将时间因素加入到传统向量模型中,在此基础上得到文档与事件包含的相同特征词之间的时间相似度,并将其应用于文档与事件的相关性计算。若文档与事件相关,则把文档中新的特征词加入事件特征词集并重新调整事件特征词集中特征词的权重和时间信息。实验采用检测错误权衡(DET)曲线进行评估,结果显示与传统向量模型相比,用于事件追踪的动态模型有效地提高了系统性能,其最小的归一化追踪损耗代价降低了约9%  相似文献   

8.
针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题词项分布与作者主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。  相似文献   

9.
针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题.在使用GibbsEM采样算法来确定动态主题模型的参数后,通过计算句子中主题权重之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要.实验结果表明,新方法在各个ROUGE评测标准上均优于其他各种对比的摘要方法.  相似文献   

10.
林立  胡侠  朱俊彦 《计算机工程》2010,36(22):64-65
提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果表明,该方法相较于传统摘要方法有更好的性能,能够有效地提高摘要的质量。  相似文献   

11.
基于局部话题句群的事件相关多文档摘要研究   总被引:1,自引:0,他引:1  
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于:在提取基本新闻要素和扩展新闻要素的基础上分别形成了基本局部话题句群(BPTSG)和扩展局部话题句群(EPTSG),这样可以在尽可能全面地覆盖多个话题的同时缩减自身的冗余。此外,文中还提出了一种基于事件时间和句子位置信息的文摘句排序方法。实验结果验证了该文所提的方法是有效的,与基于聚类的自动文摘系统相比较,该系统生成的摘要质量有显著提高。  相似文献   

12.
多文档文摘技术能帮助用户减少不必要的阅读时间,有广阔的应用前景。该文以新闻报道为处理对象,以MMR(Maximal Marginal Relevance)文摘提取算法为基础,针对目前新闻报道往往以专题形式组织展现的特点,提出了一种基于话题的多文档文摘方法。这种方法以话题关键字为打分依据,同时考虑句子位置特征等信息对句子的重要性进行评分。 该文利用TDT4的新闻报道语料对上述文摘方法进行了试验评价,将基于话题的文摘系统和两个Baseline文摘系统进行比较,取得了较好的实验结果,尤其在5%的压缩比例下有明显优势。  相似文献   

13.
基于事件抽取的网络新闻多文档自动摘要   总被引:1,自引:0,他引:1  
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。  相似文献   

14.
时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性.提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序特性,以指导时序多文档文摘的内容选择.首先通过宏观模型确定重要的时间点,然后通过微观模型在重要的时间点选择重要的句子,从而更有效地获取文摘.实验证明该方法是有效的.  相似文献   

15.
王萌  徐超  李春贵  何婷婷 《计算机工程》2011,37(12):158-160
为解决词频矩阵的词频维数过大和矩阵过于稀疏的问题,提出一种子主题区域划分的多文档自动文摘方法。使用知网进行概念获取,建立概念向量空间模型,代替传统的词频向量空间模型。在概念向量空间模型的基础上,利用一种改进的层次分割法对文档集合进行子主题划分,从各个子主题中抽取出满足一定数量的句子作为文摘。实验结果验证了该方法的有效性。  相似文献   

16.
黄丽雯  钱微 《计算机应用》2006,26(11):2626-2627,2630
提出了一种对HITS算法进行改进的新方法,本方法将文档内容与一些启发信息如“短语”,“句子长度”和“首句优先”等结合,用于发现多文档子主题,并且将文档子主题特征转换成图节点进行排序。通过对DUC2004数据的实验,结果显示本方法是一种有效的多文本摘要方法。  相似文献   

17.
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。  相似文献   

18.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

19.
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。  相似文献   

20.
本文针对实际党建领域中的新闻标题进行自动生成,提出了一种融合指针网络的自动文本摘要模型-Tri-PCN.相比于传统基于编码器-解码器框架的自动文本摘要模型,党建新闻标题生成模型还需要满足(1)从更长的文本序列提取特征;(2)保留关键的党建信息.针对党建新闻比普通文本摘要任务面临更长文本序列问题,论文使用Transformer模型在解码阶段提取多层次全局文本特征.针对党建新闻标题生成过程中需要保留关键的党建信息,论文引入指针生成网络模型的复制机制在新闻标题生成时可以直接从新闻文本中复制关键词信息.实验采用ROUGE值作为评测指标,结果表明本文提出的Tri-PCN模型在党建新闻领域自动文本摘要任务上效果明显优于基准模型,比其他模型具有更好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号