共查询到20条相似文献,搜索用时 314 毫秒
1.
2.
基于主题区域发现的中文自动文摘研究 总被引:5,自引:0,他引:5
自动文摘是自然语言处理领域的一项重要的研究课题。文中提出了一种基于主题区域发现的中文自动文摘的方法。该方法的特色在于:产生的文摘能在尽可能全面地覆盖全文多个主题的同时,显著地缩减自身的冗余,从而能有效地平衡两者之间的矛盾。通过采用K—medoids的聚类算法联同新的自定义目标函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题区域的发现及其在自动文摘领域的应用。此外,一种基于表达熵的新的评价因子被用来评价摘要的冗余。实验结果验证了该方法的可行性,有效性,是对中文自动文摘研究的一种有意义的探索。 相似文献
3.
唐俊 《计算机工程与科学》2010,32(6):112-114
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。 相似文献
4.
文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所需要的文摘句。实验证明了该方法的有效性。 相似文献
5.
6.
阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题.并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点.实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的. 相似文献
7.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。 相似文献
8.
9.
基于密度的K-means聚类中心选取的优化算法 总被引:2,自引:0,他引:2
针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获得最优聚类。采用标准的UCI数据集进行实验对比,发现改进后的算法相比传统的算法有较高的准确率和稳定性。 相似文献
10.
11.
12.
I. V. Mashechkin M. I. Petrovskiy D. S. Popov D. V. Tsarev 《Programming and Computer Software》2011,37(6):299-305
In the paper, the most state-of-the-art methods of automatic text summarization, which build summaries in the form of generic
extracts, are considered. The original text is represented in the form of a numerical matrix. Matrix columns correspond to
text sentences, and each sentence is represented in the form of a vector in the term space. Further, latent semantic analysis
is applied to the matrix obtained to construct sentences representation in the topic space. The dimensionality of the topic
space is much less than the dimensionality of the initial term space. The choice of the most important sentences is carried
out on the basis of sentences representation in the topic space. The number of important sentences is defined by the length
of the demanded summary. This paper also presents a new generic text summarization method that uses nonnegative matrix factorization
to estimate sentence relevance. Proposed sentence relevance estimation is based on normalization of topic space and further
weighting of each topic using sentences representation in topic space. The proposed method shows better summarization quality
and performance than state-of-the-art methods on the DUC 2001 and DUC 2002 standard data sets. 相似文献
13.
提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。 相似文献
14.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果. 相似文献
15.
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档摘要。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档摘要。使用ROUGE自动摘要评测工具包对DUC2002数据集评测摘要质量,结果表明,该方法能有效地提高摘要的质量。 相似文献
16.
Rasim M. Alguliev Ramiz M. Aliguliyev Nijat R. Isazade 《Expert systems with applications》2013,40(5):1675-1689
This paper proposes an optimization-based model for generic document summarization. The model generates a summary by extracting salient sentences from documents. This approach uses the sentence-to-document collection, the summary-to-document collection and the sentence-to-sentence relations to select salient sentences from given document collection and reduce redundancy in the summary. To solve the optimization problem has been created an improved differential evolution algorithm. The algorithm can adjust crossover rate adaptively according to the fitness of individuals. We implemented the proposed model on multi-document summarization task. Experiments have been performed on DUC2002 and DUC2004 data sets. The experimental results provide strong evidence that the proposed optimization-based approach is a viable method for document summarization. 相似文献
17.
18.
19.
20.
随着信息快速增长,如何从大量文档中提取摘要信息成为自然语言处理一个重要的研究方向。文章提出了一种不依赖于任何训练集和自然语言本身信息的自动摘要方法,该方法利用改进后的PageRank公式和HITS公式对文档所有句子打分排序,选取得分高的句子作为摘要。实验证明,该方法简单易行,具有高效性,良好的效果以及扩展性。 相似文献