共查询到20条相似文献,搜索用时 156 毫秒
1.
2.
基于局部主题判定与抽取的多文档文摘技术 总被引:5,自引:1,他引:5
提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘
的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似
句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题中质心句的抽取和
排序,生成多文档文摘.该方法实现了文摘长度随文档内容自动确定,从而保证了文摘中包
含的信息的全面和简洁.最后文中还给出了多文档文摘的评价方法和实验结果,文摘的平均
精确率和平均压缩率分别为71.4%和25.2%. 相似文献
3.
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。 相似文献
4.
唐俊 《计算机工程与科学》2010,32(6):112-114
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。 相似文献
5.
提出了一种基于词汇链抽取,文法分析的抽取文本代表词条的多文档摘要生成的方法。通过计算词义相似度构建词汇链,结合词频与位置特征进行文本代表词条成员的选择,将含有词条权值高的句子经过聚类形成多文档文摘句集合,然后进行质心句的抽取和排序,生成多文档文摘。该方法不仅考虑了词汇之间的语义信息,还考虑了词条对文本的代表成度,能够改善文摘句抽取的性能。实验结果表明,与单纯的由关键词确定文摘的方法相比,召回率和准确率都有不少的提高。 相似文献
6.
基于局部话题句群的事件相关多文档摘要研究 总被引:1,自引:0,他引:1
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于:在提取基本新闻要素和扩展新闻要素的基础上分别形成了基本局部话题句群(BPTSG)和扩展局部话题句群(EPTSG),这样可以在尽可能全面地覆盖多个话题的同时缩减自身的冗余。此外,文中还提出了一种基于事件时间和句子位置信息的文摘句排序方法。实验结果验证了该文所提的方法是有效的,与基于聚类的自动文摘系统相比较,该系统生成的摘要质量有显著提高。 相似文献
7.
8.
9.
10.
自动摘要是解决网络信息过载问题的关键技术之一.在对文本中旬子的特征和句子之间的语义距离分析的基础上,提出了一种基于句子特征和语义距离的自动文本摘要算法.首先计算文档中句子的各个特征权重,在此基础上决定句子的权重;然后,通过句子之间的语义距离计算,修改句子的权重,据此进行排序,权重大的作为文本的主题句;最后,对文摘句进行平滑处理,生成文字流畅的文本摘要.实验表明,该算法在不同的压缩率下生成的摘要接近于人工摘要,具有较好的性能. 相似文献
11.
基于事件项语义图聚类的多文档摘要方法 总被引:2,自引:2,他引:0
基于事件的抽取式摘要方法一般首先抽取那些描述重要事件的句子,然后把它们重组并生成摘要。该文将事件定义为事件项以及与其关联的命名实体,并聚焦从外部语义资源获取的事件项语义关系。首先基于事件项语义关系创建事件项语义关系图并使用改进的DBSCAN算法对事件项进行聚类,接着为每类选择一个代表事件项或者选择一类事件项来表示文档集的主题,最后从文档抽取那些包含代表项并且最重要的句子生成摘要。该文的实验结果证明在多文档自动摘要中考虑事件项语义关系是必要的和可行的。 相似文献
12.
I. V. Mashechkin M. I. Petrovskiy D. S. Popov D. V. Tsarev 《Programming and Computer Software》2011,37(6):299-305
In the paper, the most state-of-the-art methods of automatic text summarization, which build summaries in the form of generic
extracts, are considered. The original text is represented in the form of a numerical matrix. Matrix columns correspond to
text sentences, and each sentence is represented in the form of a vector in the term space. Further, latent semantic analysis
is applied to the matrix obtained to construct sentences representation in the topic space. The dimensionality of the topic
space is much less than the dimensionality of the initial term space. The choice of the most important sentences is carried
out on the basis of sentences representation in the topic space. The number of important sentences is defined by the length
of the demanded summary. This paper also presents a new generic text summarization method that uses nonnegative matrix factorization
to estimate sentence relevance. Proposed sentence relevance estimation is based on normalization of topic space and further
weighting of each topic using sentences representation in topic space. The proposed method shows better summarization quality
and performance than state-of-the-art methods on the DUC 2001 and DUC 2002 standard data sets. 相似文献
13.
文本主题的自动提取方法研究与实现 总被引:1,自引:0,他引:1
在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行聚类实现信息合并,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法是一个有效、实用的方法。 相似文献
14.
Micro-blog topic detection method based on BTM topic model and K-means clustering algorithm 总被引:1,自引:0,他引:1
Weijiang Li Yanming Feng Dongjun Li Zhengtao Yu 《Automatic Control and Computer Sciences》2016,50(4):271-277
The development of micro-blog, generating large-scale short texts, provides people with convenient communication. In the meantime, discovering topics from short texts genuinely becomes an intractable problem. It was hard for traditional topic model-to-model short texts, such as probabilistic latent semantic analysis (PLSA) and Latent Dirichlet Allocation (LDA). They suffered from the severe data sparsity when disposed short texts. Moreover, K-means clustering algorithm can make topics discriminative when datasets is intensive and the difference among topic documents is distinct. In this paper, BTM topic model is employed to process short texts–micro-blog data for alleviating the problem of sparsity. At the same time, we integrating K-means clustering algorithm into BTM (Biterm Topic Model) for topics discovery further. The results of experiments on Sina micro-blog short text collections demonstrate that our method can discover topics effectively. 相似文献
15.
微博具有长度短、实时传播、结构复杂以及变形词多等特点,传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模。提出了一种基于概率潜在语义分析(pLSA)和 K 均值聚类(Kmeans)的二阶段聚类算法,此外通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。 相似文献
16.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。 相似文献
17.
18.
Xiaoyan Cai Author Vitae Author Vitae 《Information Sciences》2011,181(18):3816-3827
Automatic document summarization aims to create a compressed summary that preserves the main content of the original documents. It is a well-recognized fact that a document set often covers a number of topic themes with each theme represented by a cluster of highly related sentences. More important, topic themes are not equally important. The sentences in an important theme cluster are generally deemed more salient than the sentences in a trivial theme cluster. Existing clustering-based summarization approaches integrate clustering and ranking in sequence, which unavoidably ignore the interaction between them. In this paper, we propose a novel approach developed based on the spectral analysis to simultaneously clustering and ranking of sentences. Experimental results on the DUC generic summarization datasets demonstrate the improvement of the proposed approach over the other existing clustering-based approaches. 相似文献
19.
中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。 相似文献
20.