首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所需要的文摘句。实验证明了该方法的有效性。  相似文献   

2.
基于局部主题判定与抽取的多文档文摘技术   总被引:5,自引:1,他引:5  
秦兵  刘挺  李生 《自动化学报》2004,30(6):905-910
提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题中质心句的抽取和排序,生成多文档文摘.该方法实现了文摘长度随文档内容自动确定,从而保证了文摘中包含的信息的全面和简洁.最后文中还给出了多文档文摘的评价方法和实验结果,文摘的平均精确率和平均压缩率分别为71.4%和25.2%.  相似文献   

3.
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。  相似文献   

4.
非通用语言信息爆炸导致人们的时间更加稀缺且注意力更加发散。该文围绕韩国语文本的自动文摘问题,提出一种新的基于关键体词抽取的韩国语文摘算法。该文认为韩国语体词主要表示语义信息,而韩国语谓词更多地担负句法框架功能。实验结果表明基于关键体词抽取的文摘算法效果优于采用谓词或全词的效果,且新提出的韩国语文摘算法在韩国语文摘任务中能够达到最优性能,证明了体词主要表示语义信息的论断是有效的。  相似文献   

5.
一种主题句发现的中文自动文摘研究   总被引:1,自引:0,他引:1       下载免费PDF全文
王萌  李春贵  唐培和  王晓荣 《计算机工程》2007,33(8):180-181,189
提出了一种基于主题句发现的中文自动文摘方法。该方法使用术语代替传统的词语作为最小语义单位,采用术语长度术语频率方法进行术语权重计算,获得特征词。利用一种改进的k-means聚类算法进行句子聚类,根据聚类结果进行主题句发现。实验表明,该算法所得到的文摘,在各项指标上优于传统的文摘。  相似文献   

6.
基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算,依据压缩比得到文档的主题句。实验表明,该方法在不同的压缩比下生成的摘要质量高,主题句抽取结果接近于人工摘要,召回率和准确率综合指数较高。  相似文献   

7.
通过对自动文摘技术的研究,针对叙事类文本,以事件作为基本语义单元,提出一种基于事件的多主题文本自动文摘方法。利用事件和事件间的关系构建事件网络文本表示模型,使用社区划分算法解决子事件主题划分问题。实验结果表明,该方法提取出的准确率、召回率及F值较高,能更好地概括文本的内容。  相似文献   

8.
基于主题区域发现的中文自动文摘研究   总被引:5,自引:0,他引:5  
自动文摘是自然语言处理领域的一项重要的研究课题。文中提出了一种基于主题区域发现的中文自动文摘的方法。该方法的特色在于:产生的文摘能在尽可能全面地覆盖全文多个主题的同时,显著地缩减自身的冗余,从而能有效地平衡两者之间的矛盾。通过采用K—medoids的聚类算法联同新的自定义目标函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题区域的发现及其在自动文摘领域的应用。此外,一种基于表达熵的新的评价因子被用来评价摘要的冗余。实验结果验证了该方法的可行性,有效性,是对中文自动文摘研究的一种有意义的探索。  相似文献   

9.
分析一些篇章结构特征,探讨一种基于篇章结构的自动文摘方法.充分结合篇章结构提供的信息,采用动态聚类算法划分文章子主题;以各子主题为单位摘要,通过句子相关度计算,合并各部分摘要的重叠内容;将精简后的各部分摘要顺序输出生成篇章摘要.该摘要方法实行全文加权,局部抽取,从全面性和准确性上提高摘要质量.  相似文献   

10.
王萌  徐超  李春贵  何婷婷 《计算机工程》2011,37(12):158-160
为解决词频矩阵的词频维数过大和矩阵过于稀疏的问题,提出一种子主题区域划分的多文档自动文摘方法。使用知网进行概念获取,建立概念向量空间模型,代替传统的词频向量空间模型。在概念向量空间模型的基础上,利用一种改进的层次分割法对文档集合进行子主题划分,从各个子主题中抽取出满足一定数量的句子作为文摘。实验结果验证了该方法的有效性。  相似文献   

11.
12.
自动文本摘要是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的摘要方法。同时给出了较为客观和有效的摘要评价方法。实验表明了该方法的有效性。  相似文献   

13.
基于规则和统计的中文自动文摘系统   总被引:6,自引:2,他引:6  
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-measure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。  相似文献   

14.
多文档文摘中基于时间信息的句子排序策略研究   总被引:1,自引:0,他引:1  
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。  相似文献   

15.
一种基于文章主题和内容的自动摘要方法   总被引:8,自引:0,他引:8  
文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。  相似文献   

16.
一种新的自动文摘系统评价方法   总被引:1,自引:1,他引:0  
系统评价是自然语言处理系统中一个非常重要的环节。论文提出了一种新的评价方法(F-new-measure),并应用于文本自动摘要中。其创新之处在于评价中不仅考虑了文摘的精确率、召回率,还考虑了文摘压缩率。实验表明常用的评价方法在不同压缩率情况下,评价值是不稳定的,而论文提出的评价方法的评价值则相对稳定。  相似文献   

17.
提出一种基于依存内容单元的金字塔自动摘要评估方法,通过确定依存内容单元,构建金字塔模型,给出相应的自动评估流程。该方法不仅能够避免人工处理的不稳定性,并可实现整个评估过程的自动化。仿真实验结果表明,该方法的Person相关系数及Sperman相关系数均大于传统ROUGE-1算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号