首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对传统模糊C-均值(Fuzzy C-Means, FCM)聚类算法隐含假设各个样本和各维属性对聚类结果作用相同,导致算法聚类性能降低,以及对初始中心点敏感且易陷入局部最优的问题,提出一种基于改进蝙蝠算法优化的FCM聚类算法。该算法首先采用混沌映射和速度权重来改进蝙蝠算法,然后利用改进蝙蝠算法确定FCM算法的初始聚类中心,最后根据各个样本和各维属性对聚类结果作用不同,采用样本和属性加权法对FCM算法的目标函数重新设计。实验结果表明,改进算法表现出较好的聚类效果。  相似文献   

2.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

3.
摘 要 针对传统K-Means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题。结合密度法和最大化最小距离的思想,本文提出基于最近高密度点间的垂直中心点优化初始聚类中心的K-Means聚类算法,该算法首先选取相互间距离最大的K对高密度点,并以这K对高密度点的均值作为聚类的初始中心,然后再进行K-Means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

4.
经典的模糊C-均值聚类算法存在对噪声数据较为敏感、未考虑样本属性特征间的不平衡性及对高维数据聚类不理想等问题,而可能性聚类算法虽然解决了噪声敏感和一致性聚类问题,但算法假定每个样本对聚类的贡献程度一样。针对以上问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中以提高其对噪声或例外点的抗干扰能力;同时,根据不同类的具体特性动态计算样本各个属性特征对不同类别的重要性权值及各个样本对聚类的重要性权值,并优化选取核参数,不断修正核函数把原始空间中非线性可分的数据集映射到高维空间中的可分数据集。实验结果表明,基于样本-特征加权模糊聚类算法能够减少噪声数据和例外点的影响,比传统的聚类算法具有更好的聚类准确率。  相似文献   

5.
经典的模糊C-均值聚类算法存在对噪声数据较为敏感、未考虑样本属性特征间的不平衡性及对高维数据聚类不理想等问题,而可能性聚类算法虽然解决了噪声敏感和一致性聚类问题,但算法假定每个样本对聚类的贡献程度一样。针对以上问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中以提高其对噪声或例外点的抗干扰能力;同时,根据不同类的具体特性动态计算样本各个属性特征对不同类别的重要性权值及各个样本对聚类的重要性权值,并优化选取核参数,不断修正核函数把原始空间中非线性可分的数据集映射到高维空间中的可分数据集。实验结果表明,基于样本-特征加权模糊聚类算法能够减少噪声数据和例外点的影响,比传统的聚类算法具有更好的聚类准确率。  相似文献   

6.
由于分类型和数值型属性特性的差异,设计混合类型数据聚类算法时通常需要对两种类型属性区别对待,增加了聚类算法的设计与实现难度。另外,不同属性所包含的信息量存在差异,但现有算法通常平等对待各个属性。提出了一种融合单纯形映射与信息熵加权的混合类型数据聚类算法。基于单纯形理论将分类型属性映射为高维数值属性向量,应用信息熵理论为各属性分配权重建立相似性度量公式,将该度量方法应用于K-Means算法框架得到聚类算法。在6个UCI的混合数据集上的实验表明,提出的聚类算法优于传统映射聚类算法和K-Prototype算法,在准确度上分别提高了2.70%和18.33%。  相似文献   

7.
K-Means是经典的非监督聚类算法,因其速度快,稳定性高广泛应用在各个领域。但传统的K-Means没有考虑无关属性以及噪声属性的影响,并且不能自动寻找聚类数目K。而目前K-Means的改进算法中,也鲜有关于高维以及噪声方面的改进。因此,结合PCA提出基于半监督的K-Means加权属性聚类方法。首先,用PCA得到更少更有效的特征,并计算它们的分类贡献率(即每个特征对聚类的影响因子)。其次,由半监督自适应算法得到K。最后将加权数据集以及K应用到聚类中。实验表明,该算法具有更好的识别率和普适性。  相似文献   

8.
K-Means聚类算法的结果质量依赖于初始聚类中心的选择。该文将局部搜索的思想引入K-Means算法,提出一种改进的KMLS算法。该算法对K-Means收敛后的结果使用局部搜索来使其跳出局部极值点,进而再次迭代求优。同时对局部搜索的结果使用K-Means算法使其尽快到达一个局部极值点。理论分析证明了算法的可行性和有效性,而在标准文本集上的文本聚类实验表明,相对于传统的K-Means算法,该算法改进了聚类结果的质量。  相似文献   

9.
提出了一种k-means改进算法,通过考虑样本密度、距离因素选择初始聚类中心,有效克服了经典k-means算法初始值敏感、收敛结果容易陷入局部最优解的缺点。同时引入变异系数法对样本的不同属性在聚类过程中所起的作用不同进行加权处理,全面反映了各个属性对聚类结果的影响程度。最后利用KDD Cup 1999数据集进行仿真实验,结果表明,改进算法有效地提高了入侵检测质量。  相似文献   

10.
K-Means聚类是视觉词典构造的常用方法,其聚类结果直接影响后续的特征量化效果和检索精度,而现有的K-Means聚类算法难以获得高质量的视觉词典。针对这种情况,提出局部化K-Means聚类算法。算法首先根据启发式原则将特征集划分成若干个独立的子集,并对各子集进行传统K-Means聚类,然后以各子集的聚类中心为对象进行加权K-Means聚类。上述过程不断迭代直至形成特定规模的视觉词典。实验结果表明,与现有算法相比,该算法提高了聚类质量。在SIFT特征集和标准数据集上进行的多组对比实验证明了该算法的有效性。  相似文献   

11.
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。  相似文献   

12.
传统[K]-modes算法在分类属性聚类中有着广泛的应用,但是传统算法并不区分有序分类属性与无序分类属性。在区分这两种属性的基础上,提出了一种新的距离公式,并优化了算法流程。基于无序分类属性的距离数值,确定了有序分类属性相邻属性值之间距离数值的合理范围。借助有序分类属性蕴含的顺序关系,构建了有序分类属性的距离公式。计算样本点与质心距离之时,引入了簇内各属性值的比例作为总体距离公式的重要参数。综上,新的距离公式良好地刻画了有序分类属性的距离,并且平衡了两种不同分类属性距离公式之间的差异性。实验结果表明,提出的改进算法和距离公式在UCI真实数据集上比原始[K]-modes算法及其改进算法均有显著的效果。  相似文献   

13.
传统的粗糙集均值算法RCM的聚类准则是建立在参与聚类的属性同等重要的假设下,而在自然场景下的聚类问题中,不同的属性对聚类结果的影响是不同的。针对该问题,提出了将聚类属性进行加权处理的WRCM算法。具体地,为了筛选出对聚类结果产生关键影响的具有辨别力的聚类属性,算法通过引入权重矩阵将不同的属性赋予不同的属性权重。实验结果表明,本算法可以达到属性选择的效果,从而提高了最终的聚类精确度。  相似文献   

14.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

15.
针对朴素贝叶斯算法存在的三方面约束和限制,提出一种数据缺失条件下的贝叶斯优化算法。该算法计算任两个属性的灰色相关度,根据灰色相关度完成相关属性的联合、冗余属性的删除和属性加权;根据灰色相关度执行改进EM算法完成缺失数据的填补,对经过处理的数据集用朴素贝叶斯算法进行分类。实验结果验证了该优化算法的有效性。  相似文献   

16.
基于COSA算法的中文文本聚类   总被引:5,自引:0,他引:5  
传统聚类算法在计算两个对象间的距离时,每个属性对距离的贡献相同。COSA(Clustering On Subsets of Attributes)算法[1]认为在不同的分组中,每个属性对计算距离所起的作用可能并不相等,因为不同分组中的对象可能在不同的属性子集上聚集。文献[1]在此基础上定义了新的距离,并提出了两种COSA算法: COSA1算法是一种分割的聚类算法;COSA2算法是一种层次聚类算法。为了对比COSA距离和传统的欧氏距离在文本聚类中的表现,本文对中文文本进行了分割聚类和层次聚类的实验。实验结果显示出COSA算法较基于欧氏距离的聚类算法有更好的性能,而且对于属性数的变化,COSA算法更加稳定。  相似文献   

17.
K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率。通过实验进行了测试,表明所提出的改进算法在效率和精度方面均有所提高。  相似文献   

18.
聚类混合型数据,通常是依据样本属性类别的不同分别进行评价。但这种将样本属性划分到不同子空间中分别度量的方式,割裂了样本属性原有的统一性;导致对样本个体的相似性评价产生了非一致的度量偏差。针对这一问题,提出以二进制编码样本属性,再由海明差异对属性编码施行统一度量的新的聚类算法。新算法通过在统一的框架内对混合型数据实施相似性度量,避免了对样本属性的切割,在此基础上又根据不同属性的性质赋予其不同的权重,并以此评价样本个体之间的相似程度。实验结果表明,新算法能够有效地聚类混合型数据;与已有的其他聚类算法相比较,表现出更好的聚类准确率及稳定性。  相似文献   

19.
针对模糊C均值(FCM)聚类算法没有考虑样本不同属性的重要程度、邻域信息等问题,提出一种基于熵与邻域约束的FCM算法。首先通过计算样本各属性的熵值来为各属性赋予权重,结合属性权重改进距离度量函数;随后根据邻域样本与中心样本间的距离计算邻域隶属度权重,加权得到邻域隶属度,利用邻域隶属度约束目标函数,修正隶属度迭代过程,最终达到提升FCM聚类算法性能的目的。理论分析和在人造数据集、多个UCI数据集的试验结果表明,改进后的算法在聚类效果、鲁棒性上均优于传统FCM算法、PCM算法、KFCM算法、KPCM算法和DSFCM算法,表明了本文算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号