首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
粗糙集理论是一种处理边界对象不确定的有效方法。将粗糙集与K均值结合的粗糙K均值聚类算法,具有简单高效且可处理聚类边界元素的特点,但同时存在缺陷。针对粗糙K均值聚类算法对初始点敏感,经验权重设置忽略数据差异性,阈值设置不合理导致聚类结果波动性大的缺陷,本文提出结合蚁群算法的改进粗糙K均值聚类算法,改进的算法中使用蚁群算法中随机概率选择策略和信息素更新的正负反馈机制,以及采用动态调整算法阈值和相关权重的方法,对粗糙K均值聚类算法进行优化。最后采用UCI的Iris、Balance-scale和Wine数据集分别对算法进行实验。实验结果表明,改进后的粗糙K均值聚类算法得到的聚类结果准确率更高。  相似文献   

2.
基于粗糙集的混合属性数据聚类算法   总被引:2,自引:0,他引:2  
范黎林  王娟 《计算机应用》2010,30(12):3377-3379
传统聚类方法将对象严格地划分到某一类,但是很多时候边界对象不能被严格地划分。基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法,利用粗糙集理论将数据对象划分到一个簇的上近似集或下近似集当中,提供了一种新的处理不确定性的视角,很好地解决了这种边界不确定问题。但其缺点是不能处理混合属性数据,聚类结果对初值有明显的依赖性。针对这些算法存在的不足,给出了一种适用于混合属性数据的距离定义,对初始值的选取提出了改进办法,提出了一种基于粗糙集的混合属性数据聚类算法。仿真实验证明,在不确定聚类簇数的情况下,该算法的聚类准确率比传统k-means算法明显提高。  相似文献   

3.
粗糙的方向性模糊聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
根据高维数据具有方向性的特征,结合概率模糊聚类算法与粗糙集理论提出了一种粗糙的方向性模糊聚类算法。该算法在概率模糊聚类算法中引入了数据方向相似性函数,能对不确定数据进行处理。在算法中利用粗糙集中的下近似集与边界集来确定目标对象函数,属于下近似集的数据在聚类时是确定的,属于边界的数据具有模糊性。实验结果表明,该算法能有效地对高维的方向性数据进行聚类。  相似文献   

4.
一种基于粗糙集的K-Means聚类算法   总被引:5,自引:0,他引:5  
冯征 《计算机工程与应用》2006,42(20):141-142,146
在传统的硬聚类过程中,得到的簇中数据对象是确定的,然而在现实世界,边界数据是不能被准确划分到任何一个簇的。粗糙集是处理这种边界不确定性的工具,基于此提出了一种基于粗糙集的K-Means聚类算法,这种算法生成的簇包括上近似集和下近似集,可以处理边界对象。试验证明,这种算法是有效的。  相似文献   

5.
改进K-均值聚类算法在电信客户分类中的应用   总被引:2,自引:0,他引:2  
研究电信客户分类问题,根据不同类型采用不同策略.针对电信客户实行差异化营销和服务,需对电信客户进行准确分类.传统的k-均值聚类算法是一种重要数据挖掘技方法,存在对初始值敏感和易陷入局部最优的缺陷,导致电信客户分类正确率较低.为了提高电信客户分类的正确率,提出了一种改进k-均值聚类的电信客户分类算法.首先改进k-均值聚类算法通过变异、杂交和选择操作,然后根据分类特征动态地确定初始聚类数k和自适应确定聚类中心,最后采用湖南省某地区客户分类数据进行验证性实验.仿真结果表明,改进k-均值聚类算法很好地解决全局识别寻优问题,提高了客户分类正确率,大幅度减小误差.  相似文献   

6.
基于可变染色体长度的遗传K均值聚类算法   总被引:2,自引:2,他引:0  
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺点,使用了一种基于可变染色体编码长度的遗传算法对传统K-均值聚类进行改进.该算法可以在事先不确定K值的情况下,通过多次的选择、交叉.变异的遗传操作,最终得到最优的聚类数,以及最优的初始质心集.通过Reuters数据集的实验结果表明,基于该算法的聚类划分结果明显优于传统K-均值聚类算法,并且好过基于固定染色体编码长度遗传算法的K-均值聚类算法.  相似文献   

7.
通过引入上、下近似的思想,粗糙K-means已成为一种处理聚类边界模糊问题的有效算法,粗糙模糊K-means、模糊粗糙K-means等作为粗糙K-means的衍生算法,进一步对聚类边界对象的不确定性进行了细化描述,改善了聚类的效果。然而,这些算法在中心均值迭代计算时没有充分考虑各簇的数据对象与均值中心的距离、邻近范围的数据分布疏密程度等因素对聚类精度的影响。针对这一问题提出了一种局部密度自适应度量的方法来描述簇内数据对象的空间特征,给出了一种基于局部密度自适应度量的粗糙K-means聚类算法,并通过实例计算分析验证了算法的有效性。  相似文献   

8.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。  相似文献   

9.
相对于硬聚类算法,软聚类算法可以更好地表示具有不精确边界的类簇。粗糙集和模糊集均是用于描述不确定数据的有效的数学工具,二者互为补充。研究人员已经将粗糙集和模糊集的概念相结合,并应用到聚类算法中,提出了粗糙模糊可能性C均值聚类算法。而文中通过引入阴影集,有效地解决了粗糙模糊可能性C均值聚类算法中的阈值选择问题。  相似文献   

10.
针对K-means聚类算法容易陷入局部最优、不能处理边界对象及线性不可分的缺点,提出一种基于粒子群的粗糙核聚类算法。该算法通过Mercer核将输入样本空间中的样本映射到高维空间,使样本变得线性可分,并结合粗糙集的思想,通过动态改变上下近似集的权重因子对边界对象进行有效处理,同时采用reliefF方法对样本属性进行加权处理,以解决混合数据的聚类问题,最后利用粒子群算法防止算法陷入局部最优。仿真实验表明,相对于其他改进算法,该算法具有较高的正确率和较短的收敛时间,并进一步验证了该算法的鲁棒性和稳定性,具有一定的实用价值。  相似文献   

11.
王莉  周献中  沈捷 《控制与决策》2012,27(11):1711-1714
Lingras提出的粗K均值聚类算法易受随机初始聚类中心和离群点的影响,可能出现一致性和无法收敛的聚类结果.对此,提出一种改进的粗K均值算法,选择潜能最大的K个对象作为初始的聚类中心,根据数据对象与聚类中心的相对距离来确定其上下近似归属,使边界区域的划分更合理.定义了广义分类正确率,该指标同时考虑了下近似集和边界区域中的对象,评价算法性能更准确.仿真实验结果表明,该算法分类正确率高,收敛速度快,能够克服离群点的不利影响.  相似文献   

12.
Rough k-means clustering describes uncertainty by assigning some objects to more than one cluster. Rough cluster quality index based on decision theory is applicable to the evaluation of rough clustering. In this paper we analyze rough k-means clustering with respect to the selection of the threshold, the value of risk for assigning an object and uncertainty of objects. According to the analysis, clusters presented as interval sets with lower and upper approximations in rough k-means clustering are not adequate to describe clusters. This paper proposes an interval set clustering based on decision theory. Lower and upper approximations in the proposed algorithm are hierarchical and constructed as outer-level approximations and inner-level ones. Uncertainty of objects in out-level upper approximation is described by the assignment of objects among different clusters. Accordingly, ambiguity of objects in inner-level upper approximation is represented by local uniform factors of objects. In addition, interval set clustering can be improved to obtain a satisfactory clustering result with the optimal number of clusters, as well as optimal values of parameters, by taking advantage of the usefulness of rough cluster quality index in the evaluation of clustering. The experimental results on synthetic and standard data demonstrate how to construct clusters with satisfactory lower and upper approximations in the proposed algorithm. The experiments with a promotional campaign for the retail data illustrates the usefulness of interval set clustering for improving rough k-means clustering results.  相似文献   

13.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

14.
粗糙聚类是不确定聚类算法中一种有效的聚类算法,这里通过分析粗糙k-means算法,指出了其中3个参数wl,wu和ε设置时存在的缺点,提出了一种自适应粗糙k-means聚类算法,该算法能进一步优化粗糙k-means的聚类效果,降低对“噪声”的敏感程度,最后通过实验验证了算法的有效性。  相似文献   

15.
一种基于Rough集的层次聚类算法   总被引:13,自引:0,他引:13  
Rough集理论是一种新型的处理含糊和不确定性知识的数学工具,将Rough集理论应用于知识发现中的聚类分析,给出了局部不可区分关系、个体之间的局部不可区分度和总不可区分度、类之间的不可区分度、聚类结果的综合近似精度等定义,在此基础上提出了一种基于Rough集的层次聚类算法,该算法能够自动调整参数,以寻求更优的聚类结果。验结果验证了该算法的可行性,特别是在符号属性聚类方面有较好的聚类性能。  相似文献   

16.
现有粗糙K-means聚类算法及系列改进、衍生算法均是从不同角度描述交叉类簇边界区域中的不确定性数据对象,却忽视类簇间规模的不均衡对聚类迭代过程及结果的影响.文中引入区间2-型模糊集的概念度量类簇的边界区域数据对象,提出基于区间2-型模糊度量的粗糙K-means聚类算法.首先根据类簇的数据分布生成边界区域样本对交叉类簇的隶属度区间,体现数据样本的空间分布信息.然后进一步考虑类簇的数据样本规模,在隶属度区间的基础上自适应地调整边界区域的样本对交叉类簇的影响系数.文中算法削弱边界区域对较小规模类簇的中心均值迭代的不利影响,提高聚类精度.在人工数据集及UCI标准数据集的测试分析验证算法的有效性.  相似文献   

17.
针对粗糙K-means聚类及其相关衍生算法需要提前人为给定聚类数目、随机选取初始类簇中心导致类簇交叉区域的数据划分准确率偏低等问题,文中提出基于混合度量与类簇自适应调整的粗糙模糊K-means聚类算法.在计算边界区域的数据对象归属于不同类簇的隶属程度时,综合考虑局部密度和距离的混合度量,并采用自适应调整类簇数目的策略,获得最佳聚类数目.选取数据对象稠密区域中距离最小的两个样本的中点作为初始类簇中心,将附近局部密度高于平均密度的对象划分至该簇后再选取剩余的初始类簇中心,使初始类簇中心的选取更合理.在人工数据集和UCI标准数据集上的实验表明,文中算法在处理类簇交叠严重的球簇状数据集时,具有自适应性,聚类精度较优.  相似文献   

18.
针对标准鱼群算法易受到初始鱼群随机性的影响,后期收敛速度减慢,处理边界数据能力低,聚类精度低等缺点,提出了基于粒计算与粗糙集的人工鱼群聚类算法。算法引入粒计算理论,并依据粒密度和最大最小距离积法选择初始化人工鱼群避免算法易受随机性的影响;通过结合粗糙集的决策系统和属性约简,提高算法解决边界数据的能力;采用类内紧致性和类间分离度的原则设计适应度函数,并将其作为算法的终止判断条件。实验结果表明:该算法提高了聚类精度,增强了获取全局极值的能力,具有良好的聚类效果。  相似文献   

19.
粗糙K-Means及其衍生算法在处理边界区域不确定信息时,其边界区域中的数据对象因与各类簇中心点的距离相差较小,导致难以依据距离、密度对数据点进行区分判断。提出一种新的粗糙K-Means算法,在对数据进行划分时,综合数据对象的局部密度与邻域归属信息来衡量数据点与类簇的相似性,边界数据与类簇之间的关系由其局部的空间分布所决定,使得模糊不确定信息之间的差异更明显。在人工数据集和UCI标准数据集上的实验结果表明,该算法对边界区域数据的划分具有更高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号