首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于投票机制的融合聚类算法   总被引:1,自引:0,他引:1  
以一趟聚类算法作为划分数据的基本算法,讨论聚类融合问题.通过重复使用一趟聚类算法划分数据,并随机选择阈值和数据输入顺序,得到不同的聚类结果,将这些聚类结果映射为模式间的关联矩阵,在关联矩阵上使用投票机制获得最终的数据划分.在真实数据集和人造数据集上检验了提出的聚类融合算法,并与相关聚类算法进行了对比,实验结果表明,文中提出的算法是有效可行的.  相似文献   

2.
多视图子空间聚类方法因其可以揭示数据内在的低维结构而被广泛关注,但大多数现有的多视图子空间聚类算法直接将多个来自原始数据的充满噪声的相似度矩阵进行融合,并且通常是在得到一致的多视图表示之后再使用K均值算法聚类得到最终的结果,这种将表示的学习过程和后续的聚类过程分离的两阶段算法会导致无法得到最优的聚类结果.为了解决这些问题,提出一种单步划分融合多视图子空间聚类算法.该算法不是直接融合具有噪声和冗余信息的相似度矩阵,而是从相似度矩阵中提取出更具有判别性信息的划分级信息进行融合.提出一个新的框架,将表示学习、多视图信息融合以及最后的聚类过程整合在同一框架中.这三个过程彼此促进,好的聚类结果可以引导生成更好的多视图表示,从而得到更好的聚类效果.提出一种有效的轮替优化算法来解决由此得到的优化问题.最后,在四个真实的基准数据集上得到的实验结果可以证明提出方法的有效性以及先进性.  相似文献   

3.

针对多视角聚类任务如何更好地实现视角间的合作之挑战, 提出一种新的视角融合策略. 该策略首先为每个视角设置一个划分, 然后通过自适应学习获取一个融合权重矩阵对每个视角的划分进行自适应融合, 最终利用视角集成方法得到全局划分结果. 将上述策略应用到经典的FCM(Fuzzy ??-means) 模糊聚类框架, 提出相应的多视角模糊聚类算法. 在模拟数据集和UCI 数据集上的实验结果均显示, 所提出的算法较几种相关聚类算法在应对多视角聚类任务时具有更好的适应性和更好的聚类性能.

  相似文献   

4.
对切换回归模型的聚类方法一般都没有考虑到噪音的影响,因此在含有噪音数据的情况下,用这些方法聚类的结果就会出现一定的偏差.为了减弱聚类过程中噪音数据的影响,提出了一种新的具有抵抗噪音能力的聚类算法,称为抗噪音聚类算法.该算法通过将已知数据集划分为非噪音数据集和噪音数据集2个子集,然后对非噪音数据集进行聚类分析,估计出模型的各个参数.通过对噪音数据集和非噪音数据集进行不断地调整,同时不断地修正得到的参数估计值,从而得到对聚类结果的优化.实验表明,抗噪音聚类算法能够有效地克服噪音数据对聚类结果的影响,并估计出优质的参数.  相似文献   

5.
网格聚类以网格为单位学习聚簇,速度快、效率高。但它过于依赖密度阂值的选择,并且构造的每个聚簇边界呈锯齿状,不能很好地识别平滑边界曲面。针对该问题,提出一种新的面向网格问题的聚类融合算法(RG) . RG不是通过随机抽样数据集或随机初始化相关参数来创建有差异的划分,而是随机地将特征划分为K个子集,使用特征变换得到K个不同的旋转变换基,形成新的特征空间,并将网格聚类算法应用于该特征空间,从而构建有差异的划分。实验表明,RU能够有效地划分任意形状、大小的数据集,并能有效地解决网格聚类过分依赖于密度阂值选择以及边界处理过于粗糙的问题,其精度明显高于单个网格聚类。  相似文献   

6.
自适应的软子空间聚类算法   总被引:6,自引:0,他引:6  
陈黎飞  郭躬德  姜青山 《软件学报》2010,21(10):2513-2523
软子空间聚类是高维数据分析的一种重要手段.现有算法通常需要用户事先设置一些全局的关键参数,且没有考虑子空间的优化.提出了一个新的软子空间聚类优化目标函数,在最小化子空间簇类的簇内紧凑度的同时,最大化每个簇类所在的投影子空间.通过推导得到一种新的局部特征加权方式,以此为基础提出一种自适应的k-means型软子空间聚类算法.该算法在聚类过程中根据数据集及其划分的信息,动态地计算最优的算法参数.在实际应用和合成数据集上的实验结果表明,该算法大幅度提高了聚类精度和聚类结果的稳定性.  相似文献   

7.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

8.
大数据处理中混合型聚类算法的研究与实现   总被引:1,自引:0,他引:1  
随着信息技术的飞速发展,大数据时代已经来临,对数据的分析与处理成为目前研究的重点,数据挖掘技术更是成为了重中之重,被广泛研究与应用。文章在研究聚类算法的基础上,具体研究了基于划分的聚类算法以及自下而上的基于层次的聚类算法,通过将两种算法优化后再进行融合提出了一种混合型聚类算法。该算法能够避免划分算法中随机选取初始聚类中心的问题,使用基于划分的聚类算法对数据集进行初始化,然后对处理后的数据集进行自下而上的基于层次的聚类分析,最终能够得到理想的分析结果。该算法能够综合两类传统聚类算法的优点,摒除不足之处,做到优势互补,在不损失准确性的基础上提高了算法的运行效率。最后通过R语言工具进行实验仿真,证实了文中提出的混合型聚类算法的有效性以及可行性。  相似文献   

9.
阐速了一种无监督连接划分聚类算法,算法基本思想是首先通过分割的方法将数据集划分为若干个原子簇,尊除噪声原子簇,然后通过对原子簇间连接亲密度的分析,构造原子簇间的连接图,切断车接亲密度很低的原子簇连接,合并连接亲密度高的连接,划分得到最后的聚类结果。算法具有很高的有效性,适用于高维数据集,能够对任意形状的簇进行聚类。通过分析与实验,证明该方法具有良好的效果。  相似文献   

10.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。  相似文献   

11.
赵健  唐洁  谢瑜 《计算机应用研究》2012,29(10):3980-3982
近年来,基于划分的聚类算法被广泛应用于数据和图像聚类中。针对应用最为广泛的k-均值算法在图像聚类中存在的聚类速度慢、效果差等问题,提出一种仿射传播算法应用于图像聚类中。提取图像中颜色、形状和纹理等特征向量,利用仿射传播算法对综合特征向量模型进行聚类,最后将仿射传播算法和k-均值算法对MIT图像的聚类作了对比分析。仿真实验表明,仿射传播算法在速度和聚类效果上均优于已有的k-均值算法,在准确性和实时性方面均能达到较好的效果。  相似文献   

12.
改进的k-平均聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孙士保  秦克云 《计算机工程》2007,33(13):200-201
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。  相似文献   

13.
文档聚类中k-means算法的一种改进算法   总被引:14,自引:0,他引:14  
万小军  杨建武  陈晓鸥 《计算机工程》2003,29(2):102-103,157
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感,为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法,实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。  相似文献   

14.
针对影响k-means聚类效果的聚类数目和初始中心点两大因素,提出了基于双重遗传的kmeans算法。它用外层遗传算法控制聚类数目,用内层遗传算法控制聚类的初始中心点,并采用类间距离和类内距离以及二者之间的比值来评价聚类结果的好坏,在算法终止后,可同时求得较优的聚类数目和某聚类数目下的较优初始中心点。此外,根据内外层遗传算法的特殊性,采用不同的编码策略适应算法需求,为保留优质个体,采用精英个体保留策略。通过UCI数据集测试实例证明此算法有很好的实用性,对数据挖掘技术有一定参考价值。  相似文献   

15.
The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. In this paper we present two algorithms which extend the k-means algorithm to categorical domains and domains with mixed numeric and categorical values. The k-modes algorithm uses a simple matching dissimilarity measure to deal with categorical objects, replaces the means of clusters with modes, and uses a frequency-based method to update modes in the clustering process to minimise the clustering cost function. With these extensions the k-modes algorithm enables the clustering of categorical data in a fashion similar to k-means. The k-prototypes algorithm, through the definition of a combined dissimilarity measure, further integrates the k-means and k-modes algorithms to allow for clustering objects described by mixed numeric and categorical attributes. We use the well known soybean disease and credit approval data sets to demonstrate the clustering performance of the two algorithms. Our experiments on two real world data sets with half a million objects each show that the two algorithms are efficient when clustering large data sets, which is critical to data mining applications.  相似文献   

16.
针对异常离群点对k-means ■算法的聚类精确度影响较大且在确定中心点过程中会泄露聚类数据隐私的问题,提出DPk-means ■算法。标记离群点,降低离群点对k-means ■算法聚类精确度的影响,将差分隐私应用于k-means ■聚类算法中保护聚类数据隐私。在选择聚类初始中心点和迭代求取均值中心点的过程中,应用拉普拉斯机制注入噪声,解决数据隐私泄露的问题。通过隐私预算动态变化对聚类结果准确性的影响及同类算法对比实验分析验证,DPk-means ■算法能够提供更高的隐私保护水平且保证聚类结果的准确性。  相似文献   

17.
基于层次聚类的k均值算法研究   总被引:4,自引:3,他引:1  
针对k均值算法需要用户事先确定聚簇数k、阈值t和聚簇中心Q,提出了一种基于层次的k均值聚类算法(HKMA)。该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。最后通过实验验证了算法的准确度和时间效率,通过与其他聚类算法的比较,所提出的算法具有更好的性能。  相似文献   

18.
[K]均值聚类算法是聚类领域最知名的方法之一,然而[K]均值聚类完全依赖欧式距离进行聚类,忽略了样本特征离散程度对聚类结果的影响,导致聚类边缘样本容易被误聚类,且算法易局部收敛,聚类准确率较低。针对传统[K]均值聚类算法的不足,提出了似然[K]均值聚类算法,对于每个聚类的所有样本考虑每个维度样本特征的离散程度信息,分别计算样本属于某一聚类的似然概率,能够有效提高聚类准确率。在人造数据集和基准数据集验证了似然[K]均值聚类算法的优越性,将其应用于涡扇发动机气路部件故障以及传感器故障的模式识别,验证了该算法在涡扇发动机故障诊断中的实用性和有效性。  相似文献   

19.
李书玲  刘蓉  刘红 《计算机科学》2015,42(4):316-320
针对已有的RBF神经网络多标签算法未充分考虑多个样本标签之间的关联性,从而导致泛化性能受到一定影响的问题,研究分析了一种改进型RBF神经网络的多标签算法.该算法首先优化隐含层RBF神经网络基函数中心求取算法——k-均值聚类.采用AP聚类自动寻找k值以获得隐含层节点数目,并构造Huff man树来选取初始聚类中心以防k-均值聚类结果陷入局部最优.然后构造体现标签类之间信息的标签计数向量C,并将其与由优化k-均值聚类得到的聚类中心进行线性叠乘,进而改进RBF神经网络基函数中心,建立RBF神经网络.在公共多标签数据集emotion上的实验表明了该算法能够有效地进行多标签分类.  相似文献   

20.
一种有效k-均值聚类中心的选取方法   总被引:2,自引:0,他引:2  
基于k-均值算法的思想和关键技术,本文对于k-均值算法中的初始点的选取进行了深入的研究,提出了一种高性能初始点的选取算法并用实际数据进行测试,通过与常规的随机选取方法的比较,该算法具有更好的性能和健壮性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号