首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于层次与划分方法的聚类算法研究   总被引:4,自引:1,他引:3  
针对在层次聚类算法中,一个分裂或合并被执行,就不能修正,其聚类质量受到限制的缺陷,提出了利用簇间相异度及基于信息熵或整体相似度的聚类质量评价标准,在簇分裂过程中动态的进行簇的合并与分裂的算法。仿真实验结果证明,该算法具有使结果簇更紧凑和独立的效果,具有更好的聚类质量。  相似文献   

2.
罗会兰  危辉 《计算机科学》2010,37(11):234-238
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。  相似文献   

3.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。  相似文献   

4.
基于蚁群算法的文本聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

5.
一种新的聚类算法--粒子群聚类算法   总被引:12,自引:0,他引:12  
在分析K均值聚类算法存在不足的基础上,该文提出了一种新的聚类算法:基于粒子群的K均值聚类算法。实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度。  相似文献   

6.
同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法.在10个UCI数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性.  相似文献   

7.
给出了关于传递闭包模糊聚类算法与在t1范数下利用模糊矩阵聚类方法的一些理论结果,同时解决了在t1范数下利用模糊矩阵聚类的方法中难于确定等价类的问题,从而给出了一种基于t1范数的聚类算法与应用结果。最后给出了基于max—t1范数与max—t3范数下利用模糊矩阵聚类方法间关系的讨论。  相似文献   

8.
L1-PCA相比传统的主成分分析(PCA)更具鲁棒性,但是L1-PCA算法存在很多局部最优解且秩约束计算较为复杂.为此,提出一种基于迹范数的L1-PCA算法.利用迹范数近似代替矩阵的秩,以解决秩约束存在很多局部最优解的问题,采用基于增强拉格朗日乘子的方法对算法求解,并将其应用于图像的降噪处理.实验结果表明,利用该算法降噪后的图像轮廓清晰、同类图像特征明显趋同.  相似文献   

9.
基于新的相异度量的模糊K-Modes聚类算法   总被引:3,自引:2,他引:1  
白亮  曹付元  梁吉业 《计算机工程》2009,35(16):192-194
传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K—Modes聚类算法。与传统的K—Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。  相似文献   

10.
相异性或相似性度量是数据挖掘领域中的2个基本问题。针对时间序列的相异性度量问题,给出时间序列的区域半径、区域极值点、区域等定义,提出一种区域极值点提取策略。通过提取有代表性的极值点以起到对时间序列数据约简和压缩的作用,进一步定义时间序列的动态时间弯曲距离度量其相异性。以此为基础提出一种新的时间序列层次聚类算法。仿真实验结果表明,与时间序列趋势特征提取等算法相比,该算法在数据的压缩效果和聚类准确率方面均有明显提高。  相似文献   

11.
为提高金融业务数据集上的聚类质量和聚类效率,提出簇的直径、簇间的相似度这2个概念。利用距离尺度降维的中心距序降维法,将多维数据降至一维,在一维上利用自适应排序聚类算法ASC聚类。该算法和传统的Cobweb算法、K-means算法做对比,实验表明该方法能提高簇间相似度,最大提高200%。  相似文献   

12.
一种基于关键域子空间的离群数据聚类算法   总被引:4,自引:0,他引:4  
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性.  相似文献   

13.
一种基于Markov链模型的动态聚类方法   总被引:11,自引:0,他引:11  
对单变量时间序列的聚类,是一类有着广泛应用背景的特殊的聚类问题。由于该问题的特殊性,现有的聚类方法无法直接使用,故提出了一种新的基于Markov链模型的动态聚类方法。该方法首先对每一个时间序列建立一个描述其动态特征的Markov链模型,从而把对时间序列的聚类问题转化为对Markov链模型的聚类问题。然后通过定义各个Markov链之间的“距离”,采用动态聚类算法完成对这些Markov链模型的聚类,使用该方法,分别对一经真实数据和仿真数据进行了聚类试验,都获得了比较好的聚类结果。  相似文献   

14.
提出基于SEP协议的最优分簇改进算法。根据SEP协议的分簇结构,采用不同竞争时间、考虑剩余能量因素的区首选举策略将网络区域进行优化分区,从而均衡区内能量消耗;提出结合最优簇首数并考虑普通距离因子等因素选举簇首;有机结合簇内单跳和簇区间转发,区首与簇首进行两层路由传输。利用Matlab对所提改进算法进行仿真分析,结果表明,这种基于SEP的改进算法(P-SEP)与SEP、基于新型聚类的非均匀成簇NHRPNC相比,有效地降低了传感器节点的平均能耗,从而延长了网络生命周期。  相似文献   

15.
为了更好地研究旅游车辆的运营行为,需要通过分析车辆轨迹规律发现车辆运动的典型轨迹,轨迹聚类是其中重要的环节。对于使用传统的密度聚类方法处理大规模旅游车辆轨迹数据存在准确度差和效率低的问题,提出了一种基于轨迹段和核密度的轨迹聚类方法。采用核距离作为轨迹段相似度度量,利用类似DBSCAN算法对轨迹段进行聚类,得出旅游车辆运动典型轨迹。以北京市旅游车辆为例,采用基于轨迹段和核密度的算法对车辆轨迹进行聚类,能从一定程度上提高聚类的效果和准确率,为进一步研究旅游车辆的运营行为打下基础。  相似文献   

16.
聚类分析是应用最为广泛的数学方法之一,但又被认为是数学上不严格的一类方法。主要原因在于聚类过程及其结果没有统计学标准。本文建立了具有随机化统计检验的聚类分析算法,用于对若干个样品进行有显著性标记的聚类分析。该算法由三部分组成:距离测度计算、随机化检验和系统聚类。在该算法中,有14种距离测度、三种系统聚类方方法及指标加权与否可供选择。样品之间的距离定义为:1-随机化检验的P检验值;两类间的距离若满足P检验标准则合并为同一类是统计上显著的、可接受的,否则就是不显著的、不可接受的。算法的特点是:用随机化方法进行差异显著性检验,使得对多种距离测度可进行严格的统计检验,随机化检验不需统计前提和假设,适用于各种统计问问题;用于差异显著性检验的随机化方法需要随机化数值为正整数值,适用范围过窄,用数值同步移位和平移方法可使之适用于实数域。算法用Java语言网络化实现,包含六个类和一个HTFML文件。可通过网络在多种Java兼容的浏览器上实现算法共享。根据水稻田无脊椎动物多样性的调查数据,本文对该算法进行了对比分析,并讨论了选择距离测度的一些原则和进一步研究的途径等问题。  相似文献   

17.
最小生成树用于基因表示数据的聚类算法   总被引:6,自引:0,他引:6  
在生物学研究中,需要对植物和动物分类,对基因进行分类,以获得对种群固有结构的认识.使用聚类分析方法,有效地鉴别基因表示数据的模式,将它们分组成为由类似对象组成的多个类,对研究基因的结构、功能以及不同种类基因之间的关系都具有重要意义.将图论的最小生成树理论引入分子生物学中基因表示数据的聚类分析方法,设计了生成树的表示和基于最小生成树的聚类算法,证明了该方法对于一些准则函数能够产生全局最优簇,并根据实验结果对算法进行了讨论和评价.  相似文献   

18.
由于无线传感器网络节点的能量限制,如何延长网络和节点的寿命成为其核心问题之一。LEACH协议是WSN中的低功耗白适应分层路由算法,但由于其随机性的特点,难以形成最优拓扑结构,同时分簇时未考虑簇头节点剩余能量,节点能耗分布不平均。本文提出一种考虑能量有效的基于ACO的分簇算法,通过群集作用动态选择簇头节点,延长了网络寿命,仿真结果表明其性能优于LEACH。  相似文献   

19.
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.  相似文献   

20.
张旭  郭晨 《计算机工程》2007,33(23):16-18
为了在聚类数不确定的情况下实现聚类分析,通过借鉴生物免疫系统中的克隆选择原理并结合聚类有效性分析,提出了一种基于克隆选择的快速动态聚类算法。该算法可以根据样本数据自动确定聚类数目及中心位置,克服了传统聚类算法容易陷入局部极小值、对初始值敏感的缺点。通过引入新算子及适当选取聚类的初始中心,使算法的收敛速度明显提高,仿真实验结果表明了本算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号