首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
聚类分析是数据挖掘中一种非常重要的技术.聚类算法中的关键问题是相异度或相似度的度量,聚类结果直接依赖于相异度或相似度度量,尤其对于谱聚类方法更是如此.谱聚类算法是近期兴起的一种基于相似度矩阵的聚类算法.相比于传统的划分型聚类算法,谱聚类算法不受限于球状聚类簇,能够发现不规则形状的聚类簇.在已有的谱聚类算法中,高斯核相似度是最常用的相似度度量准则.基于高斯核相似度度量及其扩展形式,提出了一种加权的自适应的相似度度量,此相似度可以用于谱聚类以及其他基于相似度矩阵的聚类算法.新的相似度度量不仅能够描述多密度聚类簇中数据点间的相似度,而且可以降低离群点(噪声点)与其他数据点间的相似度.实验结果显示新的相似度度量可以更好地描述不同类型的数据集中数据点间的相似度,进而得到更好的聚类结果.  相似文献   

2.
混合数据聚类是聚类分析中一个重要的问题。现有的混合数据聚类算法主要是在全体样本的相似性度量的基础上进行聚类,因此对大规模数据进行聚类时,算法效率不高。基于此,设计了一种新的抽样策略,在此基础上,提出了一种基于抽样的大规模混合数据聚类集成算法。该算法对利用新的抽样策略得到的多个样本子集分别进行聚类,并将结果集成得到最终聚类结果。实验证明,与改进的K-prototypes算法相比,该算法的效率有了显著提高,同时聚类有效性指标基本相同。  相似文献   

3.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

4.
《软件》2019,(4):7-10
K-means型算法在处理类不平衡数据时趋向于形成大小相同的簇,是"均匀效应"。针对这一问题诸多研究者提出了不同的聚类算法,这些方法针对簇样本数量不平衡特性,存在精度和效率问题。本文以卡方距离为基础提出了一种类平衡数据的聚类算法,利用均值消除受簇均值水平影响的特性度量样本相似性,解决类不平衡数据中"均匀效应"问题,给出了聚类目标函数,形成一种EM型聚类优化算法。在UCI实际数据集上进行了实验,结果表明本文所提出的算法提高了类不平衡数据的聚类精度,降低了"均匀效应"对聚类结果的影响。  相似文献   

5.
当前的不完整数据处理算法填充缺失值时,精度低下。针对这个问题,提出一种基于CFS聚类和改进的自动编码模型的不完整数据填充算法。利用CFS聚类算法对不完整数据集进行聚类,对降噪自动编码模型进行改进,根据聚类结果,利用改进的自动编码模型对缺失数据进行填充。为了使得CFS聚类算法能够对不完整数据集进行聚类,提出一种部分距离策略,用于度量不完整数据对象之间的距离。实验结果表明提出的算法能够有效填充缺失数据。  相似文献   

6.
分类属性数据量子聚类算法的改进   总被引:1,自引:0,他引:1  
分析量子势能、量子力学中粒子分布机制和分类属性数据的量子聚类CQC(Categorical Quantum Clustering)算法.针对CQC算法存在的聚类效果对聚类度量尺度β较敏感,而β的选取往往凭经验确定没有通用原则,以及对线性可分数据聚类效果显著,但对线性不可分数据不能奏效等问题,通过引入新的相异性度量测度及聚类度量尺度步长βstep,重新定义紧致性指标ICD,提出一种改进的ICQC算法.该算法首先在不同粒度水平上划分数据样本产生初始类(簇),之后采用聚类中心间相异性测度最近邻方法合并初始类(簇)完成聚类.通过与CQC算法的实验比较,证明该算法具有更高的聚类效能,在CQC算法失效的情况下,也能获得良好的聚类效果.  相似文献   

7.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

8.
适用于区间数据的基于相互距离的相似性传播聚类   总被引:1,自引:0,他引:1  
谢信喜  王士同 《计算机应用》2008,28(6):1441-1443
符号聚类是对传统聚类的重要扩展,而区间数据是一类常见的符号数据。传统聚类中使用的对称性度量不一定适用于度量区间数据,且算法初始化也一直是干扰聚类的严重问题。因此,提出了一种适用于区间数据的度量--相互距离,并在此度量的基础上采用了一种全新的聚类方法--相似性传播聚类,解决了初始化干扰问题,从而得出了适用于区间数据的基于相互距离的相似性传播聚类。通过理论阐述和实验比较,说明了该算法比基于欧氏聚类的K-均值算法要好。  相似文献   

9.
在经典DBSCAN聚类算法中距离度量直接影响到聚类的结果,为了使观测数据的偏差不影响到距离度量,在研究观测数据预处理过程及经典DBSCAN聚类算法基础上,提出了一种DBSCAN距离度量的改进算法,指出了观测数据偏差修正的基本思想及改进算法的处理流程.仿真结果表明,改进算法能很好地修正观测数据的偏差,最终得到较好的聚类结果.  相似文献   

10.
聚类算法在数据分析、数据挖掘等许多地方有广泛的应用,探索了基于QPSO的数据聚类及其在图像分割中的应用,提出了一种新的距离度量的聚类算法,在分析PSO聚类算法的基础上提出了QPSO聚类算法,给出了相应的实验结果和算法讨论。  相似文献   

11.
基于粗糙集的改进K—Modes聚类算法   总被引:3,自引:0,他引:3  
传统的K-Modes算法采用简单匹配的方法来计算对象之间的距离,并没有充分考虑同一属性下的两个不同值之间的相似性.基于粗糙集中的上、下近似,提出了一种新的距离度量,并重新定义了类中心,对传统K-Modes算法进行了改进.与其他改进K-Modes算法进行了比较,实验结果表明,基于粗糙集的改进K-Modes算法有效地提高了聚类精度.  相似文献   

12.
基于变精度粗糙集的Web用户聚类方法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对Web使用挖掘中的用户聚类问题,提出一种基于变精度粗糙集理论的粗糙聚类方法,该方法放宽经典粗糙集中不可区分关系的传递性将其扩展为相容关系,使用变精度粗糙集的相对错误分类率β来形成新的相似β上近似,从而将一个用户划分到多个聚类,该方法不需要区分用户会话,降低了数据预处理的难度,通过理论推导和实例证明了其有效性。  相似文献   

13.
马福民  孙静勇  张腾飞 《控制与决策》2022,37(11):2968-2976
在原有数据聚类结果的基础上,如何对新增数据进行归属度量分析是提高增量式聚类质量的关键,现有增量式聚类算法更多地是考虑新增数据的位置分布,忽略其邻域数据点的归属信息.在粗糙K-means聚类算法的基础上,针对边界区域新增数据点的不确定性信息处理,提出一种基于邻域归属信息的粗糙K-means增量式聚类算法.该算法综合考虑边界区域新增数据样本的位置分布及其邻域数据点的类簇归属信息,使得新增数据点与各类簇的归属度量更为合理;此外,在增量式聚类过程中,根据新增数据点所导致的类簇结构的变化,对类簇进行相应的合并或分裂操作,使类簇划分可以自适应调整.在人工数据集和UCI标准数据集上的对比实验结果验证了算法的有效性.  相似文献   

14.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

15.
粗糙K-Means及其衍生算法在处理边界区域不确定信息时,其边界区域中的数据对象因与各类簇中心点的距离相差较小,导致难以依据距离、密度对数据点进行区分判断。提出一种新的粗糙K-Means算法,在对数据进行划分时,综合数据对象的局部密度与邻域归属信息来衡量数据点与类簇的相似性,边界数据与类簇之间的关系由其局部的空间分布所决定,使得模糊不确定信息之间的差异更明显。在人工数据集和UCI标准数据集上的实验结果表明,该算法对边界区域数据的划分具有更高的准确率。  相似文献   

16.
通过引入上、下近似的思想,粗糙K-means已成为一种处理聚类边界模糊问题的有效算法,粗糙模糊K-means、模糊粗糙K-means等作为粗糙K-means的衍生算法,进一步对聚类边界对象的不确定性进行了细化描述,改善了聚类的效果。然而,这些算法在中心均值迭代计算时没有充分考虑各簇的数据对象与均值中心的距离、邻近范围的数据分布疏密程度等因素对聚类精度的影响。针对这一问题提出了一种局部密度自适应度量的方法来描述簇内数据对象的空间特征,给出了一种基于局部密度自适应度量的粗糙K-means聚类算法,并通过实例计算分析验证了算法的有效性。  相似文献   

17.
维度灾难、含有噪声数据和输入参数对领域知识的强依赖性,是不确定数据聚类领域中具有挑战性的问题。针对这些问题,基于相似性度量和凝聚层次聚类思想的基础上提出了高维不确定数据高效聚类HDUDEC(High Dimensional Un-certain Data Efficient Clustering)算法。该算法采用一个能够准确表达不确定高维对象之间的相似度的度量函数计算出对象之间的相似度,然后根据相似度阈值自底向上进行聚类分析。实验证明新的算法需要的先验知识较少、可以有效地过滤噪声数据、可以高效的获得任意形状的高维不确定聚类结果。  相似文献   

18.
基于项目聚类的全局最近邻的协同过滤算法   总被引:1,自引:0,他引:1  
用户评分数据极端稀疏的情况下,传统相似性度量方法存在弊端,导致推荐系统的推荐质量急剧下降。针对 此问题,提出了一种基于项目聚类的全局最近部的协同过滤算法。该算法根据项目之间的相似性进行聚类,使得相似 性较高的项目聚成一类,在项目聚类集的基础上,计算用户的局部相似度,使用一种新的最近部用户全局相似度作为 衡量用户间相似性的标准;其次,给出了一种利用重叠度因子来调节局部相似度的方法,以更准确地刻画用户之间的 相似性。实验结果表明,该算法可以提升预测结果的准确性,提高推荐质量,特别是在数据较为稀疏时,改善尤为明 显。  相似文献   

19.
针对存在异常值的时间序列数据,提出了一种基于相关系数鲁棒估计的时间序列间的鲁棒广义互相关度量(RGCC)。首先,引入一种鲁棒相关系数代替Pearson相关系数来计算时间序列数据间的协方差矩阵;其次,用新的协方差矩阵的行列式构造两个时间序列间的相似性度量——RGCC;最后,基于该度量计算出序列间的距离矩阵,将其作为聚类算法的输入对数据进行聚类。时间序列聚类仿真实验表明,对存在异常值点的时间序列数据,与基于原始的广义互相关度量(GCC)得到的聚类结果相比,基于RGCC得到的聚类结果明显更接近真实的聚类结果。可见,所提出的新的鲁棒相似性度量完全适用于存在异常值的时间序列数据。  相似文献   

20.
Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙K-Modes算法,通过粗糙集的上、下近似度量数据样本在类内的重要性程度,不仅可以获得比新K-Modes算法更好的聚类效果,而且可以在保证聚类效果的基础上降低白亮等人提出的基于粗糙集改进的K-Modes算法的计算复杂度。对几个UCI的数据集的测试实验结果显示出新算法的优良性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号