首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于潜在语义索引和句子聚类的中文自动文摘   总被引:2,自引:0,他引:2  
自动文摘是自然语言处理领域的一项重要的研究课题.提出一种基于潜在语义索引和句子聚类的中文自动文摘方法.该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K-中心聚类算法相结合进行句子聚类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的冗余.实验结果验证了该文提出的方法的有效性,对比传统的基于聚类的自动文摘方法,该方法生成的文摘质量获得了显著的提高.  相似文献   

2.
基于构造性核覆盖学习方法的思想,提出了一种构造性核覆盖聚类算法.首先将原空间的待分类样本映射到一个高维的特征空间中,使得样本变得线性可分,然后在核空间采用构造性覆盖方法进行覆盖领域的构造,这组领域能将相似度小的样本分割开来,将相似度大的样本聚合在一起,通过定义一定的相似度度量标准和目标函数,达到聚类的效果.仿真实验也验证了该方法的有效性和可行性.  相似文献   

3.
基于相似度的词聚类算法和可变长语言模型   总被引:3,自引:0,他引:3  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vari-gram)的生成方法.  相似文献   

4.
在条件模糊聚类的基础上,提出利用公理化模糊集的成员隶属度函数量化用户语义、确定外部条件的方法.引入调节因子新概念,以调节基于语义的成员隶属度和基于欧拉距离的模糊隶属度对聚类结果的影响,并最终建立了语义条件聚类和经典模糊聚类的统一框架.给出了语义聚类的评价指标——语义强度期望,以找到距离目标语义最近的聚类.为使条件模糊聚类的聚类准确性更高,对原始数据进行了谱变换,尔后进行语义条件聚类.利用Iris数据集,对标准模糊聚类、语义条件聚类和语义条件聚类的谱优化3个算法进行了多指标综合实验比较.实验结果表明,语义条件聚类能够发现最贴近用户给出的语义的聚类.  相似文献   

5.
传统的覆盖方法形成的覆盖都是"优簇",但是无法形成非球状的覆盖;而聚类求覆盖的方法就可以得到非球状覆盖,但是由于很难事先找到合适的相似度,所以无法求得全部"优簇".文中把两者的优点结合起来并加以推广,与SVM, NaiveBayes,交叉覆盖等学习方法相结合,形成基于聚类优化覆盖的集成学习方法,这样求得的覆盖既可以是非球状覆盖,又是全"优簇",优化了覆盖领域.实验证明该方法产生的覆盖不仅数量上较少,并且覆盖的准确率较高,具有一定的抗噪声能力.  相似文献   

6.
基于构造型神经网络运算复杂度低、构造直观方便、学习速度快、可解释性强的特点,提出一种跳频信号动态检测方法.首先从滑动窗口的数据流模型入手,采用适合增量学习的覆盖算法动态聚类,聚合相似度大的样本,分离相似度小的样本,降低了聚类复杂度,并减轻了噪声的影响,实现了覆盖簇的动态维护.然后在不同的覆盖簇中提取信号数据概要,构造数据结构数组,运用时频关联方法,排除数组中的定频信号、突发信号、随机噪声信号等,分离出了其中的跳频信号,实现了跳频信号的动态检测.实验结果表明该方法能快速、准确地动态检测跳频信号.  相似文献   

7.
聚类分析是数据挖掘中一种非常重要的技术.聚类算法中的关键问题是相异度或相似度的度量,聚类结果直接依赖于相异度或相似度度量,尤其对于谱聚类方法更是如此.谱聚类算法是近期兴起的一种基于相似度矩阵的聚类算法.相比于传统的划分型聚类算法,谱聚类算法不受限于球状聚类簇,能够发现不规则形状的聚类簇.在已有的谱聚类算法中,高斯核相似度是最常用的相似度度量准则.基于高斯核相似度度量及其扩展形式,提出了一种加权的自适应的相似度度量,此相似度可以用于谱聚类以及其他基于相似度矩阵的聚类算法.新的相似度度量不仅能够描述多密度聚类簇中数据点间的相似度,而且可以降低离群点(噪声点)与其他数据点间的相似度.实验结果显示新的相似度度量可以更好地描述不同类型的数据集中数据点间的相似度,进而得到更好的聚类结果.  相似文献   

8.
王贤明  谷琼  胡智文 《计算机应用》2015,35(11):3130-3134
针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法.该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类.实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右.随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势.此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单.  相似文献   

9.
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.  相似文献   

10.
基于近邻传播算法的半监督聚类   总被引:29,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号