首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
基于密度函数加权的模糊C均值聚类算法研究   总被引:1,自引:0,他引:1  
模糊聚类算法具有较强的实用性,但传统模糊C均值算法(FCM)具有对样本集进行等划分趋势的缺陷,没有考虑不同样本的实际分布对聚类效果的影响,当数据集中各样本密集程度相差较大时,聚类结果不是很理想。因此,提出一种基于密度函数加权的模糊C均值聚类算法(DFCM算法),该算法利用数据对象的密度函数作为每个数据点权值。实验结果表明,与传统的模糊C均值算法相比,DFCM算法具有较好的聚类效果。  相似文献   

2.
现有的加权模糊C均值聚类算法中,属性加权是一个不断迭代、重复计算的过程,费时费力。针对这种情况,提出Fisher线性判别率进行属性加权。算法首先直接计算每一维属性对模糊聚类的贡献度,其次对所有属性的贡献度进行归一化处理然后加权聚类。在人工和实际数据集所做实验表明:该算法在提高聚类速度的同时,聚类效果上也优于其他同类加权模糊C均值聚类算法。  相似文献   

3.
一种基于大密度区域的模糊聚类算法   总被引:1,自引:0,他引:1  
针对模糊C-均值(FCM)算法对初始聚类中心和噪声数据敏感的缺陷,提出一种基于大密度区域的模糊聚类算法.该算法首先利用大密度区域以及样本的密度值变化方法,选取初始聚类中心以及候选初始聚类中心,并依据初始聚类中心与候选初始聚类中心的距离,确定初始聚类中心点,从而有效的克服了随机给定初始聚类中心容易使算法收敛到局部极小的缺陷;其次,分别利用密度函数为样本加权和引用改进的隶属度函数进行优化,有效地提高了模糊聚类的抗噪性;最后实验验证了算法在初始聚类中心的确定,聚类效果和抗噪性方面具有良好的效果.  相似文献   

4.
半监督加权模糊C均值聚类算法   总被引:2,自引:1,他引:1       下载免费PDF全文
江秀勤 《计算机工程》2009,35(17):170-171
对于团状、每类样本数相差较大的数据集,FCM算法和半监督模糊C均值聚类算法都不是最佳聚类方法,因为它们对数据集有等划分趋势。针对这种情况,利用样本点分布密度大小作为权值,结合半监督学习方法,提出半监督点密度加权模糊C均值聚类算法。在半监督学习过程中,对于求极值的问题采用模拟退火算法。结果证明,点密度加权模糊C均值聚类算法确实能提高聚类精度。  相似文献   

5.
点密度加权FCM算法的聚类有效性研究   总被引:2,自引:2,他引:0  
模糊C-均值(FCM)算法是一种非监督的模式识别方法。由于该算法具有对数据集进行等划分的趋势,影响其聚类精度。利用数据点的密度大小作为权值,借助数据本身的分布特性,提出了一种点密度加权模糊C-均值算法。该方法不仅在一定程度上克服了FCM算法的缺陷,而且具有良好的收敛性。当以聚类已知的少量数据点作为监督信息指导聚类,聚类效果进一步改善。并用聚类有效性函数对算法的聚类有效性进行了评价,从而为算法的聚类性能提供了理论依据。  相似文献   

6.
针对传统基于最大熵模糊 C 均值聚类算法(MEFCM)仅适用于球状或椭圆状聚类,为了解决数据分布混乱以及高度相关难以划分的情形,引入 Mercer 核函数,使原来没有显现的特征突现出来,从而使聚类效果更好。然而在实际问题中,大多数样本集的样本数据都存在着重要性(权重)不同的现象,主要针对样本集中各个数据的不同重要程度来设计加权方法,同时为了克服聚类算法对初始聚类中心选取的敏感性这一弱点,提出了一个初始聚类中心优化的加权最大熵核模糊聚类算法(WKMEFCM)。通过实验验证,该算法与原MEFCM算法比较,其聚类结果更加稳定、准确,从而达到更好的聚类划分效果。  相似文献   

7.
针对模糊C-均值聚类算法过度依赖初始聚类中心的选取,从而易受孤立点和样本分布不均衡的影响而陷入局部最优状态的不足,提出一种基于自适应权重的模糊C-均值聚类算法。该算法采用高斯距离比例表示权重,在每一次迭代过程中,根据当前数据的聚类划分情况,动态计算每个样本对于类的权重,降低了算法对初始聚类中心的依赖,减弱了孤立点和样本分布不均衡的影响。实验结果表明,该算法是一种较优的聚类算法,具有更好的健壮性和聚类效果。  相似文献   

8.
为避免初始聚类中心陷入局部最优,孤立点影响聚类准确性,结合分裂式思想,提出一种基于密度加权的K均值聚类算法.以K均值聚类算法为基础,引入分裂式思想,提取所有数据对象的属性值组建矢量,通过求解所有数据对象的全部属性,得到经过规范化预处理的数据对象矩阵,根据样本点与点群之间的最小最大距离,构建分裂式K均值聚类算法,采用样本点密度函数界定公式,选取出最优初始聚类中心,结合样本点间距离,完成密度加权下的分裂式K均值聚类算法设计.经对比实验结果发现,所提算法较好地解决了初始聚类中心选取的随机问题,在有效提高聚类准确性的同时大幅度降低了迭代次数,提升了聚类效率.  相似文献   

9.
基于约简数据集的FCM聚类算法   总被引:1,自引:0,他引:1  
为了解决模糊C-均值(FCM)聚类算法在使用欧氏距离计算样本与类中心点的距离时计算量大的问题,提出了一种基于属性约简的FCM聚类算法.该算法根据粗糙集理论对初始数据进行属性约简,消除数据对象中的冗余值,然后再对约简后的属性集进行模糊聚类.实验结果表明,该算法能有效减少FCM算法的距离函数计算量,在不降低聚类精度的前提下,提高了FCM算法的执行效率.  相似文献   

10.
针对传统模糊C-均值聚类算法(FCM算法)初始聚类中心选择的随机性和距离向量公式应用的局限性,提出一种基于密度和马氏距离优化的模糊C-均值聚类算法(Fuzzy C-Means Based on Mahalanobis and Density,FCMBMD算法)。该算法通过计算样本点的密度来确定初始聚类中心,避免了初始聚类中心随机选取而产生的聚类结果的不稳定;采用马氏距离计算样本集的相似度,以满足不同度量单位数据的要求。实验结果表明,FCMBMD算法在聚类中心、收敛速度、迭代次数以及准确率等方面具有良好的效果。  相似文献   

11.
近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density, IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。  相似文献   

12.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

13.
传统的粗糙集均值算法RCM的聚类准则是建立在参与聚类的属性同等重要的假设下,而在自然场景下的聚类问题中,不同的属性对聚类结果的影响是不同的。针对该问题,提出了将聚类属性进行加权处理的WRCM算法。具体地,为了筛选出对聚类结果产生关键影响的具有辨别力的聚类属性,算法通过引入权重矩阵将不同的属性赋予不同的属性权重。实验结果表明,本算法可以达到属性选择的效果,从而提高了最终的聚类精确度。  相似文献   

14.
针对传统协同过滤推荐算法没有充分考虑用户属性及项目类别划分等因素对相似度计算产生的影响,存在数据稀疏性,从而导致推荐准确度不高的问题.提出一种基于用户属性聚类与项目划分的协同过滤推荐算法,算法对推荐准确度有重要影响的相似度计算进行了充分考虑.先对用户采用聚类算法以用户身份属性聚类,进而再对项目进行类别划分,在相似度计算中增加类别相似度,考虑共同评分用户数通过加权系数进行综合相似度计算,最后结合平均相似度,采用阈值法综合得出最近邻.实验结果表明,所提算法能够有效提高推荐精度,为用户提供更准确的推荐项目.  相似文献   

15.
随机选取初始聚类中心和根据经验设置[K]值对[K]-means聚类结果都有一定的影响,针对这一问题,提出了一种基于加权密度和最大最小距离的[K]-means聚类算法,称为[KWDM]算法。该算法利用加权密度法选取初始聚类中心点集,减少了离群点对聚类结果的影响,通过最大最小距离准则启发式地选择聚类中心,避免了聚类结果陷入局部最优,最后使用准则函数即簇内距离和簇间距离的比值来确定[K]值,防止了根据经验来设置[K]值。在人工数据集和UCI数据集上的实验结果表明,KWDM算法不仅提高了聚类的准确率,而且减少了算法的平均迭代次数,增强了算法的稳定性。  相似文献   

16.
K-means初始聚类中心的选择算法   总被引:1,自引:0,他引:1  
郑丹  王潜平 《计算机应用》2012,32(8):2186-2192
K-means算法随机选取初始聚类中心,容易造成聚类准确率低且聚类结果不稳定。针对这一问题,提出一种初始聚类中心的选择算法。通过k-dist的差值(DK)图分析,确定数据点在k-dist图上的位置,选择主要密度水平曲线上k-dist值最小的点作为初始聚类中心。实验证明,改进算法选择的初始聚类中心唯一,聚类结果稳定,聚类准确率高,迭代次数少。  相似文献   

17.
针对K-Prototypes聚类算法中人为指定初始聚类中心和聚类数目导致算法准确度和稳定性低下的问题,提出了基于密度优化的K-Prototypes聚类算法,该算法根据数据对象的密度分布,自适应地优化聚类数目和初始聚类中心的设置,并通过区分每个属性对聚类结果的不同影响权重,改进相异度计算公式,提升聚类的准确度。在合成数据集和UCI数据集上实验结果表明,该算法与K-Prototypes算法、DPCM算法和Fuzzy K-Prototypes算法相比,平均准确率分别提高了8.52%、4.28%和8.33%,达到了相对较好的聚类结果。  相似文献   

18.
Partitional clustering of categorical data is normally performed by using K-modes clustering algorithm, which works well for large datasets. Even though the design and implementation of K-modes algorithm is simple and efficient, it has the pitfall of randomly choosing the initial cluster centers for invoking every new execution that may lead to non-repeatable clustering results. This paper addresses the randomized center initialization problem of K-modes algorithm by proposing a cluster center initialization algorithm. The proposed algorithm performs multiple clustering of the data based on attribute values in different attributes and yields deterministic modes that are to be used as initial cluster centers. In the paper, we propose a new method for selecting the most relevant attributes, namely Prominent attributes, compare it with another existing method to find Significant attributes for unsupervised learning, and perform multiple clustering of data to find initial cluster centers. The proposed algorithm ensures fixed initial cluster centers and thus repeatable clustering results. The worst-case time complexity of the proposed algorithm is log-linear to the number of data objects. We evaluate the proposed algorithm on several categorical datasets and compared it against random initialization and two other initialization methods, and show that the proposed method performs better in terms of accuracy and time complexity. The initial cluster centers computed by the proposed approach are close to the actual cluster centers of the different data we tested, which leads to faster convergence of K-modes clustering algorithm in conjunction to better clustering results.  相似文献   

19.
模糊C均值聚类算法(FCM)是一种流行的聚类算法,在许多工程领域有着广泛的应用.密度加权的模糊C均值算法(Density Weighted FCM)是对传统FCM的一种改进,它可以很好的解决FCM对噪声敏感的问题.但是DWFCM与FCM都没有解决聚类结果很大程度上依赖初始聚类中心的选择好坏的问题.提出一种基于最近邻居节点对密度的FCM改进算法Improved-DWFCM,通过最近邻居节点估计节点密度的方法解决聚类结果对初始簇中心依赖的问题.仿真结果表明这种算法选择出来的初始聚类中心与最终结果的簇中心非常接近,大大提高了算法收敛的速度以及聚类的效果.  相似文献   

20.
针对朴素贝叶斯算法存在的三方面约束和限制,提出一种数据缺失条件下的贝叶斯优化算法。该算法计算任两个属性的灰色相关度,根据灰色相关度完成相关属性的联合、冗余属性的删除和属性加权;根据灰色相关度执行改进EM算法完成缺失数据的填补,对经过处理的数据集用朴素贝叶斯算法进行分类。实验结果验证了该优化算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号