首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 46 毫秒
1.
基于新的相异度量的模糊K-Modes聚类算法   总被引:3,自引:2,他引:1  
白亮  曹付元  梁吉业 《计算机工程》2009,35(16):192-194
传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K—Modes聚类算法。与传统的K—Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。  相似文献   

2.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

3.
模糊-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K—Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性和分类属性相混合的数据集。该初始化算法可以有效地克服模糊K—Modes算法对初值的敏感性。实验的结果表明了该初始化算法的可行性和有效性。  相似文献   

4.
5.
数值型和分类型混合数据的模糊K-Prototypes聚类算法   总被引:15,自引:0,他引:15  
陈宁  陈安  周龙骧 《软件学报》2001,12(8):1107-1119
由于数据库经常同时包含数值型和分类型的属性,因此研究能够处理混合型数据的聚类算法无疑是很重要的.讨论了混合型数据的聚类问题,提出了一种模糊K-prototypes算法.该算法融合了K-means和K-modes对数值型和分类型数据的处理方法,能够处理混合类型的数据.模糊技术体现聚类的边界特征,更适合处理含有噪声和缺失数据的数据库.实验结果显示,模糊算法比相应的确定算法得到的结果准确度高.  相似文献   

6.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

7.
模糊K-Prototypes(FKP)算法能够对包含数值属性和分类属性相混合的数据集进行有效聚类,但是存在对初始值敏感、容易陷入局部极小值的问题.为了克服该缺点,提出了一种基于粒子群优化(PSO)算法和FKP算法的混合聚类算法,先利用PSO算法确定FKP的初始聚类中心,再将PSO聚类结果作为后续FKP算法的初始值.实验结果表明,新算法具有良好的收敛性和稳定性,聚类效果优于单一使用FKP算法.  相似文献   

8.
模糊聚类算法在汉语文本聚类中的应用   总被引:8,自引:2,他引:8  
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。  相似文献   

9.
Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙K-Modes算法,通过粗糙集的上、下近似度量数据样本在类内的重要性程度,不仅可以获得比新K-Modes算法更好的聚类效果,而且可以在保证聚类效果的基础上降低白亮等人提出的基于粗糙集改进的K-Modes算法的计算复杂度。对几个UCI的数据集的测试实验结果显示出新算法的优良性能。  相似文献   

10.
为了提高电力用电负荷用户的精细化管理,提出了一种基于模糊聚类的电力用电负荷用户识别分析方法。分析了某区域用户的工业负荷变化规律,研究了电力数据与天气之间的改变及其日负荷特征曲线,同时引入模糊聚类分析方法,对上述工业负荷的用电特征进行了判断。选择某区域的工业负荷用户进行研究,对用户进行负荷曲线计算。并通过实验测试来验证本文方法的可行性,以此作为供电公司对用电数据进行精细管理的参考依据。  相似文献   

11.
首先定义OE-概念信息系统.在此基础上,针对OE-概念的特点,提出OE-概念间的距离.利用K-Modes聚类方法对OE-概念进行聚类,通过类中心获得子背景.通过定义K-删除变换研究原背景OE-概念格与子背景OE-概念格之间的关系,实现OE-概念格的压缩,并讨论压缩格与原OE-概念格之间的关系.最后通过实验验证文中方法的有效性和优越性.  相似文献   

12.
模糊聚类是对实际事物进行分类的重要工具,但在聚类算法选择、聚类个数选择、大数据量处理、聚类方法有效性评估等方面有待深入研究。本文将模糊聚类分析原理与实际问题结合起来,重点研究模糊聚类分析的过程和步骤,特别是聚类过程中参数的客主观处理方法。  相似文献   

13.
聚类分析即将一组事物根据其性质上亲疏远近的程度进行分类,把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。模糊聚类分析是现今模糊理论应用最广泛和最富成果的技术之一。阐述模糊聚类的理论,以部分石油股票为例,抽取影响石油股票收益因素的数据,利用最大最小法建立相似矩阵,用传递闭包法作出聚类分析,并进行总结。  相似文献   

14.
基于PAT-array和模糊聚类的文本聚类方法   总被引:5,自引:0,他引:5  
林建敏  谢康林 《计算机工程》2004,30(12):126-127,177
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。  相似文献   

15.
部分监督加权模糊C-均值算法的聚类分析   总被引:5,自引:0,他引:5  
模糊C-均值(FCM)算法具有对样本集进行等划分趋势的缺陷,对于团状、每类样本数相差较大的数据集,FCM算法的最优解可能不是数据集的正确划分,基于以上原因,以少量的先验知识作为部分监督信息,再利用样本点分布密度大小作为权值,提出了一种新的部分监督加权模糊C-均值(PSWFCM)算法,并且该算法的加权系数的计算和点密度范围限定值的选取都具有客观性。仿真结果证明,PSWFCM算法不仅在一定程度上克服了FCM算法的缺陷,而且具有良好的收敛性和鲁棒性,聚类效果也有较好的改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号