首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
为了解决单一聚类算法存在结果不准确和随机性大,且现有算法对分类数据聚类时将其装换成数值型会产生误差等问题,提出了一种面向分类属性数据的聚类融合算法。算法利用原有分类属性值的差异产生聚类成员,然后采用相似度方法进行划分,通过寻求目标函数最小的划分来简化聚类过程。算法在UCI数据集上进行了验证,结果表明算法的效率和精度都优于现有算法,说明算法的设计和更新策略是有效的。  相似文献   

2.
为学得更好的相似矩阵,提出一种基于L2,1-范数距离相似度矩阵的学习方法,给出相应的聚类算法(CSCA).利用L2,1-范数距离计算出相似度矩阵,对相似度矩阵施加平方的约束;通过约束相似度矩阵所构建的拉普拉斯矩阵,求出对应的特征向量空间;利用学得的相似度矩阵中的连通分量直接得到聚类结果.实验结果表明,该算法在人工数据集...  相似文献   

3.
提出一种新的鲁棒核模糊C-均值聚类算法.将连通核与AFCM(Alternative fuzzy C-means)聚类算法相结合,给出基于连通核的核AFCM:CRKFCM(Connectivity kernel based robust fuzzy C-means).CRKFCM一方面有效地利用了连通核,可以对任意形状数据聚类,且避免了核参数的选取问题;另一方面在特征空间使用非欧氏距离,可以有效地处理含噪声数据的聚类问题.实验结果表明,与原有的AFCM和连通核硬C-均值(CKHCM,Connectivity kernel based hard C-means)聚类算法相比,新算法在处理噪声环境中的任意形状聚类问题方面更有效.  相似文献   

4.
王燕 《计算机应用》2006,26(8):1904-1905
通过对标称数据的分析,提出了一种基于信息熵和层次聚类思想的标称数据聚类算法。算法采用信息熵度量对象之间的相似性,通过数据直接计算相似性阈值。实验证明算法是可行并且有效的。  相似文献   

5.
每一种聚类算法都有其适合处理的特定分布的数据集.为了给未知分布数据集挑选合适的聚类算法,提出了一种挑选聚类算法的网格连通图方法 SCGG.SCGG通过对数据潜在类结构的分析,若含有环形结构类则选择层次聚类的单连接算法对数据聚类,否则选择k-means算法.实验显示该方法十分的有效,能够挑选到合适的聚类算法对数据聚类.  相似文献   

6.
基于语义相似度与优化的构件聚类算法   总被引:1,自引:2,他引:1  
为克服刻面分类表示法的人为主观因素,采用了刻面分类与全文检索相结合的方法对构件进行了表示.同时,从语义角度出发,结合优化技术,提出了一种基于语义相似度与优化的构件聚类算法.该算法有效地减少了刻面分类的主观性因素,进一步提高了构件查询的效率和准确性,并与基于向量空间模型的构件聚类效果进行比较.实验结果表明,基于语义相似度与优化的构件聚类算法的有效性,它在一定程度上改善了构件聚类的效果,提高了聚类质量.  相似文献   

7.
实际生活中,经常会遇到大规模数据的分类问题,传统k-近邻k-NN(k-Nearest Neighbor)分类方法需要遍历整个训练样本集,因此分类效率较低,无法处理具有大规模训练集的分类任务。针对这个问题,提出一种基于聚类的加速k-NN分类方法 C_kNN(Speeding k-NN Classification Method Based on Clustering)。该方法首先对训练样本进行聚类,得到初始聚类结果,并计算每个类的聚类中心,选择与聚类中心相似度最高的训练样本构成新的训练样本集,然后针对每个测试样本,计算新训练样本集中与其相似度最高的k个样本,并选择该k个近邻样本中最多的类别标签作为该测试样本的预测模式类别。实验结果表明,C_k-NN分类方法在保持较高分类精度的同时大幅度提高模型的分类效率。  相似文献   

8.
传统的分层聚类算法在聚类过程中,仅使用样本间的距离作为相似度的唯一标准,其描述过于单一.考虑到宇宙中星系的形成过程本质也是一种聚类过程.星系之间吸引力是靠万有引力作用.将万有引力思想引入分层聚类中,提出一种基于引力的层次聚类算法HCBG(Hierarchical Clustering Base Gravity),从样本间的距离和类簇的大小两个方面更加精确地刻画相似度.把分层聚类的过程看成样本点之间依据"万有引力"自发吸引的过程.采用UCI机器学习数据库的Iris,Wine和Glass数据集,实验结果表明,提出的HCBG算法的聚类结果比经典的基于距离的层次聚类HC(Hierarchical Clustering)提高5%~10%左右.  相似文献   

9.
基于蚁群算法的文本聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

10.
针对于蚁群聚类算法在搬运数据项过程中随机选择移动位置时,由于无效移动导致的算法收敛速度缓慢等缺陷,论文提出了一种基于相似度的蚁群聚类算法.通过设计相似度矩阵,基于相似移动机制将蚂蚁随机移动方式优化为按照相似度矩阵规则实施目的性的关联.实验选取Iis、Wine、Haberman和Balance-scale四种经典数据集,相较于现有的LF算法及GACC算法,结果表明在蚂蚁空载率都为90%的条件下,论文提出的SMACC算法的迭代次数明显降低,均体现出较优的聚类速率.  相似文献   

11.
朱杰  陈黎飞 《计算机应用》2017,37(4):1026-1031
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。  相似文献   

12.
在生命科学中,需要对物种及基因进行分类,以获得对种群固有结构的认识。利用数据聚类方法,有效地辨别/识别基因表示数据的模式,对它们进行分类。将特征相似性大的归为一类,特征相异性大的归为不同类。这对于研究基因的结构、功能、以及不同种类基因之间的关系都具有重要意义。利用图论的方法对分子生物学中基因表示数据进行初始聚类,然后再结合别的算法,如K-近邻自学习聚类算法或基于中心点的自学习聚类算法,对其进一步求精。对于某种聚类判别准则,能够产生全局最优簇。最后对算法进行了分析和讨论,并用模拟数据进行了实验验证。  相似文献   

13.
Squeezer: An efficient algorithm for clustering categorical data   总被引:25,自引:0,他引:25       下载免费PDF全文
This paper presents a new efficient algorithm for clustering categorical data,Squeezer,which can produce high quality clustering results and at the same time deserve good scalability.The Squeezer algorithm reads each tuple t in sequence,either assigning t to an existing cluster (initially none),or creating t as a new cluster,which is determined by the similarities between t and clusters.Due to its characteristics,the proposed algorithm is extremely suitable for clustering data streams,where given a sequence of points,the objective is to maintain consistently good clustering of the sequence so far,using a small amount of memory and time.Outliers can also be handled efficiently and directly in Squeezer.Experimental results on real-life and synthetic datasets verify the superiority of Squeezer.  相似文献   

14.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。  相似文献   

15.
陈韡  王雷  蒋子云 《计算机应用》2010,30(8):2003-2005
通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英语借词数据的聚类分析中。实验结果表明,与K-prototypes算法相比,改进后的算法具有更好的稳定性和更高的精度。  相似文献   

16.
Due to data sparseness and attribute redundancy in high-dimensional data, clusters of objects often exist in subspaces rather than in the entire space. To effectively address this issue, this paper presents a new optimization algorithm for clustering high-dimensional categorical data, which is an extension of the k-modes clustering algorithm. In the proposed algorithm, a novel weighting technique for categorical data is developed to calculate two weights for each attribute (or dimension) in each cluster and use the weight values to identify the subsets of important attributes that categorize different clusters. The convergence of the algorithm under an optimization framework is proved. The performance and scalability of the algorithm is evaluated experimentally on both synthetic and real data sets. The experimental studies show that the proposed algorithm is effective in clustering categorical data sets and also scalable to large data sets owning to its linear time complexity with respect to the number of data objects, attributes or clusters.  相似文献   

17.
李瑾  潘宏  刘中兵 《计算机应用》2012,32(7):1840-1843
对移动Ad Hoc网络(MANET)中的分簇机制进行了研究,提出一种基于连通支配集的组合权值簇生成算法(WCACDS),包括分簇算法和簇结构维护策略。通过节点的移动性、最小平均发射功率、能量消耗速度三方面的组合权值来量化节点的综合性能,利用改进后的求解连通支配集算法对节点分簇,以使性能较强的节点担任簇头,并且减少分簇数量。仿真实验结果表明,所提算法有助于提高网络负载均衡能力,增强网络的健壮性及稳定性。  相似文献   

18.
为了提高分类型数据集聚类的准确性和对广泛数据集聚类的适应性,引入3种核函数,再利用基于山方法的核K-means作分类型的数据聚类,核函数把分类型数据映射到高维特征空间,从而给缺乏测度的分类型数据引入了数值型数据的测度.改进后用多个公开数据集对这些方法进行了实验评测,结果显示这些方法对分类型数据的聚类是有效的.  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号