首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。  相似文献   

2.
针对现有的K-modes聚类初始类中心选择方法所存在的问题,本文提出一种基于加权密度的初始类中心选择算法。在该算法中,我们通过计算对象的加权密度来选择初始类中心,而在计算对象的加权密度时,不同的属性将根据其重要性被赋予不同的权重,从而可以有效地体现出不同属性之间的差异。  相似文献   

3.
粗糙K-mocks聚类算法需要根据经验为w2 , wu和。3个参数设定其固定值,聚类效果不稳定,容易受到噪声 干扰。提出一种基于MapReduce自适应参数的粗糙K-modes算法,它根据聚类不同阶段的特点自动调整参数值,优 化聚类效果。在此基础上,对自适应参数的粗糙K-modes算法进行MapRcducc并行化设计,以提高算法的运行效率。 实验证明,提出的自适应参数的粗糙K-modes算法聚类效果稳定,通过对算法的并行设计提高了算法对大规模数据 的聚类分析性能。  相似文献   

4.
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。  相似文献   

5.
密度峰值聚类算法在处理分类型数据时难以产生较好的聚类效果。针对该现象,详细分析了其产生的原因:距离计算的重叠问题和密度计算的聚集问题。同时为了解决上述问题,提出了一种面向分类型数据的密度峰值聚类算法(Cauchy kernel-based density peaks clustering for categorical data,CDPCD)。算法首先指出分类型数据距离度量过程中有序特性(分类型数据属性值之间的顺序关系)鲜有考虑的现状,进而提出一种基于概率分布的加权有序距离度量来缓解重叠问题。通过结合柯西核函数,在共享最近邻密度峰值聚类算法基础上重新评估数据密度值,改进了密度计算和二次分配方式,增强了密度多样性,降低了聚集问题带来的影响。多个真实数据集上的实验结果表明,相较于传统的基于划分和密度的聚类算法,CDPCD都取得了更好的聚类结果。  相似文献   

6.
提出度量多个集合之间总体差异程度的拓展集合差异度及相关定理,并给出一种新的解决分类属性高维数据聚类问题的CAESD算法。基于拓展集合差异度及拓展集合特征向量,在CABOSFV_C聚类的基础上通过两阶段聚类完成全部聚类过程。采用UCI数据集与K-modes及其改进算法、CABOSFV_C算法进行比较实验,结果表明CAESD算法具有较高的聚类正确率。  相似文献   

7.
基于特征加权距离的双指数模糊子空间聚类算法   总被引:2,自引:2,他引:0  
传统的模糊聚类算法(FCM)使用欧氏距离计算数据点之间的差异时,对于高维数据集聚类效果不够理想.对此,以FCM算法的目标函数为基础,用特征加权距离代替传统的欧氏距离,同时向约束条件中引入指数γ和β,提出了一种基于特征加权距离的双指数模糊子空间聚类算法,并讨论了该算法的收敛性.实验表明,所提出算法可以有效提取高维数据集各类别的相关特征,在真实数据集上有较好的聚类效果.  相似文献   

8.
近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density, IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。  相似文献   

9.
用代表点替代类均值代表类、用加权距离替代欧氏距离作为样本与类之间的相似性度量,由此建立一种新的无监督数据聚类算法.提取指标对分类所作贡献大小的量化值,以此为启发性知识定义加权距离,建立了用质心修正当前代表点的迭代算法.与均值聚类等序贯算法不同,基于质心的迭代算法的批处理性可消除输入产生的随机性干扰.采用IRIS数据和Breast Cancer数据验证了该算法的有效性.  相似文献   

10.
朱杰  陈黎飞 《计算机应用》2017,37(4):1026-1031
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。  相似文献   

11.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

12.
分析了目前基于目标函数聚类算法的不足,面对形状复杂且非重叠的样本聚类问题,定义了最邻近距离和生长树的概念。随机选取生长树初始种子点,以最邻近距离作为生长树生长的方向和样本划分依据,以最终生长树大小为聚类目标函数,引入遗传算法,提出基于生长树的遗传聚类算法,并通过实例进行了算法测试和比较。算法测试表明:基于生长树的遗传聚类算法对于形状复杂且非重叠样本的聚类是完全可行和有效的。  相似文献   

13.
特征加权距离与软子空间学习相结合的文本聚类新方法   总被引:1,自引:0,他引:1  
王骏  王士同  邓赵红 《计算机学报》2012,35(8):1655-1665
文本数据维数高、数据分布稀疏、不同类别的特征相互重叠,这为聚类分析提出了挑战.针对文本数据的这一特点,将特征加权技术与软子空间相结合,基于模糊聚类的算法框架,提出了一种适用于高维文本数据的软子空间模糊聚类新方法.首先,基于加权范数理论,提出了新的特征加权距离计算方法.接着,将其与软子空间学习的理论框架相结合,提出了面向模糊聚类的新的目标学习准则.通过向约束条件中引入熵指数r,从而扩展了模糊指数m的取值范围,并给出了物理解释.基于Zangwill收敛定理对算法的全局收敛性给出理论证明.实验表明,文中算法可以使软子空间学习和聚类分析同时进行,其性能比现有的相关算法有了较大的提高.  相似文献   

14.

用代表点替代类均值代表类,用加权距离替代欧氏距离作为样本与类之间的相似性度量,由此建立一种新的无监督数据聚类算法.提取指标对分类所作贡献大小的量化值,以此为启发性知识定义加权距离,建立了用质心修正当前代表点的迭代算法.与均值聚类等序贯算法不同,基于质心的迭代算法的批处理性可消除输入产生的随机性干扰.采用IRIS数据和BreastCancer数据验证了该算法的有效性.

  相似文献   

15.
针对模糊C均值(FCM)聚类算法具有初始聚类中心敏感和容易陷入局部最优的问题,提出了一种基于改进遗传算法(GA)的加权模糊c均值聚类算法,采用高斯变异算子,提高了遗传算法在每个峰值附近的局部搜索能力,用基于复相关系数的加权欧式距离代替欧式距离,改进了FCM算法的聚类目标函数.用改进的算法对国际标准测试数据Iris进行测试,实验结果表明改进后的算法具有更好的稳定性和健壮性,提高了聚类的效果.  相似文献   

16.
传统的聚类算法通常将样本间的距离作为相似度的划分标准,因此距离计算方式的选择对于聚类的结果至关重要.但是传统的距离计算方法忽略了不同数据属性特征对聚类的影响.为了解决此问题,论文结合K-means提出了一种基于属性加权的快速K-means算法FAWK.首先,定义了一个反映属性特征差异的离散度函数对属性特征进行加权;其次,根据加权属性特征计算数据属性间的距离,并将所有属性的加权属性距离求和作为样本间的相似性距离;然后,将加权属性距离作为FAWK算法的划分标准对数据进行聚类;最后,将论文算法与现有方法在8个UCI数据集和LAMOST恒星光谱数据集进行实验测试与分析,实验结果表明FAWK算法具有迭代次数少、运行时间短、聚类结果准确率高且更接近真实数据集划分情况的特点.  相似文献   

17.
一种用于Web搜索的高效聚类算法   总被引:1,自引:0,他引:1  
李新叶  苑津莎 《计算机工程》2006,32(20):38-39,7
根据搜索引擎的用户查询日志库信息对用户访问模式聚类算法进行了研究,说明了用雅可比系数及加权相似性度量公式实现用户访问模式聚类的不足,提出了一种改进的Hamming距离公式,运用距离测度法实现用户访问模式聚类,给出了聚类算法。对算法的分析表明,基于偶图和改进Hamming距离公式的算法是准确和高效的。  相似文献   

18.
针对密度峰值聚类算法(The density peak clustering algorithm,DPC)聚类结果受距离阈值dc参数影响较大的问题,提出一种局部密度捕获范围以及利用局部密度信息熵均值进行加权优化的方法(简称为LDDPC),在DPC算法选取到错误的距离阈值dc时,通过对最大密度邻近点的相对距离进行加权,重新获得正确的分类数量和聚类中心。经典数据集的实验结果表明,基于局部密度信息熵均值加权优化能避免 DPC 算法中距离阈值dc对聚类结果的影响,提高分类的正确率。  相似文献   

19.
聚类分析是数据挖掘领域的重要组成部分之一,而度量学习是聚类分析中的关键性步骤。传统聚类算法中通常使用欧氏距离进行距离度量,但是欧氏距离只关注两两样本之间的距离关系,并没有顾及数据的全局性分布结构。考虑到数据的全局性结构信息,提出了一种新的具有全局性的度量方法——有效距离度量(effective distance metric),其主要思想是通过稀疏重构的方法计算数据样本之间的有效距离。进一步地,将有效距离应用到K-means、K-medoids和FCM(fuzzy C-means)3种经典聚类算法中开发了3种基于有效距离的聚类算法,即EK-means,EK-medoids和EFCM聚类算法。通过与传统聚类算法在UCI标准数据集上的实验结果进行比较,验证了基于有效距离的聚类算法能显著提高聚类效果。  相似文献   

20.
密度峰值聚类(DPC)算法在对密度分布差异较大的数据进行聚类时效果不佳,聚类结果受局部密度及其相对距离影响,且需要手动选取聚类中心,从而降低了算法的准确性与稳定性。为此,提出一种基于加权共享近邻与累加序列的密度峰值算法DPC-WSNN。基于加权共享近邻重新定义局部密度的计算方式,以避免截断距离选取不当对聚类效果的影响,同时有效处理不同类簇数据集分布不均的问题。在原有DPC算法决策值的基础上,生成一组累加序列,将累加序列的均值作为聚类中心和非聚类中心的临界点从而实现聚类中心的自动选取。利用人工合成数据集与UCI上的真实数据集测试与评估DPC-WSNN算法,并将其与FKNN-DPC、DPC、DBSCAN等算法进行比较,结果表明,DPC-WSNN算法具有更好的聚类表现,聚类准确率较高,鲁棒性较强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号