首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

2.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。  相似文献   

3.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

4.
基于划分的XML文档聚类研究   总被引:1,自引:0,他引:1  
本文在文本聚类的基础上对XML文档聚类进行了研究,对划分聚类法进行了改进,使之适合于XML文档聚类.最后通过路径划分聚类算法根据频繁结构对XML文档进行挖掘聚类,并对实验结果进行讨论.  相似文献   

5.
在实际应用领域,常常存在同时包含数值型和分类型特征的混合数据。然而,已有的大多数聚类算法只能处理数值型或分类型单一类型数据,因此,提出一个基于划分的混合数据聚类算法。首先给出K-Prototypes算法中分类型数据类中心的多Modes表示方式,进而将传统的欧式距离扩展到混合数据,使之能够在相同框架下更加精确地反映对象与类之间的相异性,在此基础上提出一个用于处理混合数据的划分式聚类算法。最后,在UCI数据集上的实验结果表明,与K-Prototypes算法相比,所提出的算法能够有效提高聚类质量。  相似文献   

6.
用于文本聚类的模糊谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。  相似文献   

7.
基于混合网格划分的子空间高维数据聚类算法   总被引:1,自引:0,他引:1  
提出一种基于混合网格划分的子空间高维数据聚类算法.该算法消除了各个属性分量数值范围大小对计算的影响;有效去除冗余属性以提高聚类准确性与降低时间复杂度.根据数据分布情况灵活选择固定网格划分或是自适应网格划分,利用这二种不同的网格划分方法具有的优点,以实现进一步降低算法的时间复杂度和提高聚类结果的准确性,并使算法具有更优的可伸缩性.实验使用仿真数据表明,该算法在处理具有属性值域范围大的高维大规模数据时是实用有效的.  相似文献   

8.
基于层次划分的最佳聚类数确定方法   总被引:20,自引:0,他引:20  
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率.  相似文献   

9.
在分析核函数所隐式描述的样本间成对相似性的基础上,该文从统计的角度分别定义了能反映类内(类间)样本相似性的类内(类间)个体平均相似系数,设计了一个高效的评价核聚类算法聚类质量的有效性指标。该指标具有物理意义清晰、计算简洁以及对核参数具备一定鲁棒性的优点。在此基础上,提出了一个能自动确定最佳聚类数目和最佳划分的自适应核聚类(SAKC)算法。Benchmarks实验结果验证了所提出的聚类有效性指标及其SAKC算法的有效性和良好性能。  相似文献   

10.
基于划分的模糊聚类算法   总被引:67,自引:1,他引:67       下载免费PDF全文
张敏  于剑 《软件学报》2004,15(6):858-868
在众多聚类算法中,基于划分的模糊聚类算法是模式识剐中最常用的算法类型之一.至今,献中仍不断有关于基于划分的模糊聚类算法的研究成果出现.为了能更为系统和深入地了解这些聚类算法及其性质,本从改变度量方式、改变约束条件、在目标函数中引入熵以及考虑对聚类中心进行约束等几个方面,对在C-均值算法的基础上得到的基于划分的模糊聚类算法作了综述和评价,对各典型算法的优缺点进行了实验比较分析.指出标准FCM算法被广泛应用的原因之一是它对数据的比例变化具有鲁棒性,而其他类似的算法对这种比例变化却很敏感.并以极大熵方法为例进行了比较实验.最后总结了基于划分的模糊聚类算法普遍存在的问题及其发展前景。  相似文献   

11.
模糊聚类有效性的研究进展   总被引:2,自引:1,他引:1  
聚类有效性评价对聚类分析具有重要意义,是聚类分析的瓶颈之一。本文从基于数据集模糊划分的方法和基于数据集几何结构的方法两方面,归纳综述了常用的模糊聚类有效性评价函数,并讨论了模糊聚类最佳类别数的自动确定问题。  相似文献   

12.
一种基于镜头聚类的视频场景分割方法   总被引:2,自引:0,他引:2       下载免费PDF全文
为了更好地进行视频信息检索和浏览,提出了一种利用视觉和运动特征来进行场景分割的方法,该方法在把镜头聚类到场景中时,不仅考虑同一场景内镜头的视觉特征相似性,而且还考虑了镜头的运动特征的一致性。此外,为避免过度分割,还提出了一种方法用来合并过度分割出的场景。实验结果表明,这种方法是有效的。  相似文献   

13.
余巍  李辉 《计算机工程》2011,37(23):162-164
基于高斯混合模型(GMM)-通用背景模型(UBM)结构的说话人确认系统不能完全表现说话人的个性特征信息。为此,将聚类方法和排序高斯混合模型相结合,对每个高斯分量按照对应排序值顺序排列,并对UBM进行训练。基于NIST 06 8side-1side数据库的实验结果表明,该方法能在基本保持系统识别性能的前提下,降低UBM的训练运算量。  相似文献   

14.
In this paper, the well-known competitive clustering algorithm (CA) is revisited and reformulated from a point of view of entropy minimization. That is, the second term of the objective function in CA can be seen as quadratic or second-order entropy. Along this novel explanation, two generalized competitive clustering algorithms inspired by Renyi entropy and Shannon entropy, i.e. RECA and SECA, are respectively proposed in this paper.Simulation results show that CA requires a large number of initial clusters to obtain the right number of clusters, while RECA and SECA require small and moderate number of initial clusters respectively. Also the iteration steps in RECA and SECA are less than that of CA.Further CA and RECA are generalized to CA-p and RECA-p by using the p-order entropy and Renyi's p-order entropy in CA and RECA respectively. Simulation results show that the value of phas a great impact on the performance of CA-p, whereas it has little in uence on that of RECA-p.  相似文献   

15.
基于模糊聚类的文本挖掘算法   总被引:8,自引:3,他引:5       下载免费PDF全文
针对传统FCM算法对孤立点比较敏感,须预先指定聚类数目的缺陷,提出一种新的模糊聚类算法NSFCM,将其应用干文本挖掘中。NSFCM对数据对象的隶属度增加一个权值,以减少孤立点对聚类中心的影响。采用平均信息熵确定聚类数,通过密度函数获得初始聚类中心。仿真结果证明,该算法聚类的精度和执行效率均高于FCM算法,效果较好。  相似文献   

16.
确定数据集的最佳聚类数是聚类研究中的一个重要难题。为了更有效地确定数据集的最佳聚类数,该文提出了通过改进K-means算法并结合一个不依赖于具体算法的有效性指标Q(c)对数据集的最佳聚类数进行确定的方法。理论分析和实验结果证明了该方法具有良好的性能和有效性。  相似文献   

17.
基于高斯混合模型(GaussianMixtureModel,M)间差别的方法是进行说话人聚类的常用的一类方法。该文GM提出两种新颖的GMM差别度量,“类散度”和GMM的相互概率。“类散度”即模型间“离散度”与模型内“离散度”之比,在计算中综合考虑了GMM各个胞腔的权值、均值及方差的影响,全面地反映了高斯混合模型参数的差别。GMM的相互概率即其中一个GMM的参数在另一个GMM下的概率。实验证明,两种方法均能很好地描述GMM间的差别,在说话人聚类实验中表现良好。  相似文献   

18.
自适应仿射传播聚类   总被引:42,自引:4,他引:42  
王开军  张军英  李丹  张新娜  郭涛 《自动化学报》2007,33(12):1242-1246
适合处理大类数的仿射传播聚类有两个尚未解决的问题: 一是很难确定偏向参数取何值能够使算法产生最优的聚类结果; 另一个是当震荡发生后算法不能自动消除震荡并收敛. 为了解决这两个问题, 提出了自适应仿射传播聚类方法, 具体技术包括: 自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术. 与原算法相比, 自适应仿射传播聚类方法性能更优, 能够自动消除震荡和寻找最优聚类结果. 对模拟和真实数据集的实验结果表明, 自适应仿射传播聚类方法十分有效, 其聚类质量优于或不低于原算法.  相似文献   

19.
基于混合空间剖分八叉树场景管理技术的研究   总被引:1,自引:0,他引:1  
基于传统八叉树和面向对象八叉树的设计思想提出了一种混合空间剖分八叉树的场景管理方法,对混合空间剖分八叉树的数据结构、生成算法及遍历方面进行了详细的论述,最后按照该思路结合所设计的一个虚拟场景有效地实现了场景管理,实验表明该方法很适于实时游戏及虚拟现实领域。  相似文献   

20.
针对Science杂志上提出的仿射传播(Affinity propagation)聚类产生指定类数的聚类结果时效率较低的问题,提出了基于多网格策略的快速算法。该算法采用多网格搜索策略来减少调用仿射传播算法的次数,改进偏向参数的上界以缩小搜索范围。新方法大幅度地提高了仿射传播聚类在指定类数下的速度性能。实验结果表明新方法十分有效,在运行时间上比现有方法减少了22%-90%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号