共查询到20条相似文献,搜索用时 62 毫秒
1.
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。 相似文献
2.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。 相似文献
3.
《计算机应用与软件》2013,(7)
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。 相似文献
4.
5.
《计算机应用与软件》2014,(6)
在实际应用领域,常常存在同时包含数值型和分类型特征的混合数据。然而,已有的大多数聚类算法只能处理数值型或分类型单一类型数据,因此,提出一个基于划分的混合数据聚类算法。首先给出K-Prototypes算法中分类型数据类中心的多Modes表示方式,进而将传统的欧式距离扩展到混合数据,使之能够在相同框架下更加精确地反映对象与类之间的相异性,在此基础上提出一个用于处理混合数据的划分式聚类算法。最后,在UCI数据集上的实验结果表明,与K-Prototypes算法相比,所提出的算法能够有效提高聚类质量。 相似文献
6.
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。 相似文献
7.
基于混合网格划分的子空间高维数据聚类算法 总被引:1,自引:0,他引:1
许倡森 《计算机技术与发展》2010,20(10)
提出一种基于混合网格划分的子空间高维数据聚类算法.该算法消除了各个属性分量数值范围大小对计算的影响;有效去除冗余属性以提高聚类准确性与降低时间复杂度.根据数据分布情况灵活选择固定网格划分或是自适应网格划分,利用这二种不同的网格划分方法具有的优点,以实现进一步降低算法的时间复杂度和提高聚类结果的准确性,并使算法具有更优的可伸缩性.实验使用仿真数据表明,该算法在处理具有属性值域范围大的高维大规模数据时是实用有效的. 相似文献
8.
基于层次划分的最佳聚类数确定方法 总被引:20,自引:0,他引:20
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率. 相似文献
9.
10.
在众多聚类算法中,基于划分的模糊聚类算法是模式识剐中最常用的算法类型之一.至今,献中仍不断有关于基于划分的模糊聚类算法的研究成果出现.为了能更为系统和深入地了解这些聚类算法及其性质,本从改变度量方式、改变约束条件、在目标函数中引入熵以及考虑对聚类中心进行约束等几个方面,对在C-均值算法的基础上得到的基于划分的模糊聚类算法作了综述和评价,对各典型算法的优缺点进行了实验比较分析.指出标准FCM算法被广泛应用的原因之一是它对数据的比例变化具有鲁棒性,而其他类似的算法对这种比例变化却很敏感.并以极大熵方法为例进行了比较实验.最后总结了基于划分的模糊聚类算法普遍存在的问题及其发展前景。 相似文献
11.
模糊聚类有效性的研究进展 总被引:2,自引:1,他引:1
聚类有效性评价对聚类分析具有重要意义,是聚类分析的瓶颈之一。本文从基于数据集模糊划分的方法和基于数据集几何结构的方法两方面,归纳综述了常用的模糊聚类有效性评价函数,并讨论了模糊聚类最佳类别数的自动确定问题。 相似文献
12.
为了更好地进行视频信息检索和浏览,提出了一种利用视觉和运动特征来进行场景分割的方法,该方法在把镜头聚类到场景中时,不仅考虑同一场景内镜头的视觉特征相似性,而且还考虑了镜头的运动特征的一致性。此外,为避免过度分割,还提出了一种方法用来合并过度分割出的场景。实验结果表明,这种方法是有效的。 相似文献
13.
14.
Daoqiang Zhang Songcan Chen Zhi-Hua Zhou 《International Journal of Software and Informatics》2007,1(1):67-84
In this paper, the well-known competitive clustering algorithm (CA) is revisited and reformulated from a point of view of entropy minimization. That is, the second term of the objective function in CA can be seen as quadratic or second-order entropy. Along this novel explanation, two generalized competitive clustering algorithms inspired by Renyi entropy and Shannon entropy, i.e. RECA and SECA, are respectively proposed in this paper.Simulation results show that CA requires a large number of initial clusters to obtain the right number of clusters, while RECA and SECA require small and moderate number of initial clusters respectively. Also the iteration steps in RECA and SECA are less than that of CA.Further CA and RECA are generalized to CA-p and RECA-p by using the p-order entropy and Renyi's p-order entropy in CA and RECA respectively. Simulation results show that the value of phas a great impact on the performance of CA-p, whereas it has little in uence on that of RECA-p. 相似文献
15.
16.
确定数据集的最佳聚类数是聚类研究中的一个重要难题。为了更有效地确定数据集的最佳聚类数,该文提出了通过改进K-means算法并结合一个不依赖于具体算法的有效性指标Q(c)对数据集的最佳聚类数进行确定的方法。理论分析和实验结果证明了该方法具有良好的性能和有效性。 相似文献
17.
基于高斯混合模型(GaussianMixtureModel,M)间差别的方法是进行说话人聚类的常用的一类方法。该文GM提出两种新颖的GMM差别度量,“类散度”和GMM的相互概率。“类散度”即模型间“离散度”与模型内“离散度”之比,在计算中综合考虑了GMM各个胞腔的权值、均值及方差的影响,全面地反映了高斯混合模型参数的差别。GMM的相互概率即其中一个GMM的参数在另一个GMM下的概率。实验证明,两种方法均能很好地描述GMM间的差别,在说话人聚类实验中表现良好。 相似文献
18.
自适应仿射传播聚类 总被引:42,自引:4,他引:42
适合处理大类数的仿射传播聚类有两个尚未解决的问题: 一是很难确定偏向参数取何值能够使算法产生最优的聚类结果; 另一个是当震荡发生后算法不能自动消除震荡并收敛. 为了解决这两个问题, 提出了自适应仿射传播聚类方法, 具体技术包括: 自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术. 与原算法相比, 自适应仿射传播聚类方法性能更优, 能够自动消除震荡和寻找最优聚类结果. 对模拟和真实数据集的实验结果表明, 自适应仿射传播聚类方法十分有效, 其聚类质量优于或不低于原算法. 相似文献
19.
基于混合空间剖分八叉树场景管理技术的研究 总被引:1,自引:0,他引:1
基于传统八叉树和面向对象八叉树的设计思想提出了一种混合空间剖分八叉树的场景管理方法,对混合空间剖分八叉树的数据结构、生成算法及遍历方面进行了详细的论述,最后按照该思路结合所设计的一个虚拟场景有效地实现了场景管理,实验表明该方法很适于实时游戏及虚拟现实领域。 相似文献
20.
针对Science杂志上提出的仿射传播(Affinity propagation)聚类产生指定类数的聚类结果时效率较低的问题,提出了基于多网格策略的快速算法。该算法采用多网格搜索策略来减少调用仿射传播算法的次数,改进偏向参数的上界以缩小搜索范围。新方法大幅度地提高了仿射传播聚类在指定类数下的速度性能。实验结果表明新方法十分有效,在运行时间上比现有方法减少了22%-90%。 相似文献