首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
邱兴兴  程霄 《计算机应用》2013,33(9):1001-9081
针对空间分布复杂的数据以及空间分布未知的现实数据聚类问题,设计了一种改进流形距离作为不相似测度。该不相似测度可有效利用所有数据点之间的全局一致性,挖掘无类属数据集的空间分布信息。通过使用该不相似测度,提出了基于改进流形距离K-medoids算法。将新算法与基于已有的流形距离和基于欧氏距离的K-medoids算法进行性能比较,对八个人工数据集以及USPS手写体数字识别问题的实验结果表明:新算法针对不同结构的测试数据集,在聚类性能上均优于或接近于另外两种K-medoids算法,并且对于各种分布的,无论简单或复杂,凸或者非凸的数据都可以进行聚类。  相似文献   

2.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。  相似文献   

3.

以改进的流形距离为相似度测度, 结合人工蜂群算法, 提出一种二阶段聚类算法. 首先根据局部密度、最大最小距离和近邻选择对数据集初步归类并得到簇代表点; 然后将聚类归属为优化问题, 通过改进的蜂群算法对簇代表点及没归类的样本点较快地搜索到最优聚类中心, 同时根据流形距离的全局一致性特征, 对样本进行精确的类别划分; 最后将两阶段算法综合归类. 实验结果表明, 所提出的算法可以获得良好的聚类效果.

  相似文献   

4.
当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算法(multi-view collaborative partition MEC,Co MEC),该算法加入一个协调各视角空间划分的约束项,使得每一视角在单独聚类过程中考虑到其他视角的影响;然后通过区分每个视角的重要性将Co MEC算法扩展为视角加权版本,即视角加权协同划分极大熵聚类算法(view weighted collaborative partition MEC,W-Co MEC);最后利用几何均值的集成策略得到全局性的划分结果。在人工数据集以及UCI数据集上的实验结果均显示所提算法较之已有的聚类技术在应对多视角聚类任务时具有更好的聚类性能。  相似文献   

5.
针对现有的基于流形距离的聚类算法对“绝对流形”数据集较“相对流形”数据集聚类效果佳和参数[ρ]在较大范围内变化时,聚类性能较差等问题,提出基于改进流形距离的粗糙集k-means聚类算法。该算法通过用属性划分和最大最小距离选择初始聚类中心,以改进的流形距离和粗糙集优化k-means,并结合终止判断条件以达到解决边界数据聚类问题和提升聚类效果的目的。仿真结果表明:该算法对“绝对流形”和“相对流形”数据集聚类效果均有较好改善,且参数变化对聚类性能影响较大。  相似文献   

6.
传统的聚类算法通常基于单一的距离度量而设计,如何将多种距离度量有机融合在一起是当前面临的一个挑战。提出了一种基于多目标进化算法的多距离度量聚类框架(multiobjective evolutionary multiple distance measure clustering,MOMDC),并使用欧氏距离和Path距离来设计实际框架。该框架首先将数据集分别用两种距离测度预聚类,而后将预聚类结果做合并,以降低问题的规模;其次分别计算子类间的两种距离关系;最后使用多目标进化算法在两种距离空间中并行聚类。在多目标进化算法设计中,使用实数-标签的编码方式来设计染色体,并且设计了基于两种距离测度的两个适应度函数对染色体进行评估。最终将MOMDC与其他几种经典算法在大量的数据集上进行实验对比。实验表明,该框架对不同分布的数据集均能取得良好的结果。  相似文献   

7.
针对传统k-均值聚类方法不能有效处理海量数据聚类的问题,该文提出一种基于并行计算的加速k-均值聚类(K-means clustering based on parallel computing,Pk-means)方法。该方法首先将海量的聚类样本随机划分为多个独立同分布的聚类工作集,并在每个工作集上并行进行传统k-均值聚类,并得到相应的聚类中心和半径,通过衡量不同子集聚类结果的关系,对每个工作集中聚类得到的子类进行合并,并对特殊数据进行二次归并以校正聚类结果,从而有效处理海量数据的聚类问题。实验结果表明,Pk_means方法在大规模数据集上在保持聚类效果的同时大幅度提高了聚类效率。  相似文献   

8.
基于流形距离的人工免疫无监督分类与识别算法   总被引:3,自引:0,他引:3  
将一种新的流形距离作为相似性度量测度, 提出了一种用于无监督分类与识别的人工免疫系统方法. 通过基于流形距离的相似性度量, 有效利用样本集固有的全局一致性信息, 充分挖掘无类属样本的空间分布信息, 对样本进行类别划分. 新方法将免疫响应过程建模为一个四元组 AIR=(G,I,R,A) , 其中 G 为引发免疫响应的外界刺激, 即抗原; I 为所有可能抗体的集合; R 为抗体间相互作用的规则集合; A 为支配抗体反应、指导抗体进化的动态算法. 针对无监督分类问题, 将抗体编码为代表各类别的典型样本序号的排列, 利用动态算法 A 搜索能代表各类别的典型样本的最佳组合. 将新方法与标准的 K-均值算法、基于流形距离的进化聚类算法以及 Maulik 等人提出的基于遗传算法的聚类算法进行了性能比较. 对 6 个人工数据集及手写体数字识别问题的仿真实验结果显示, 新方法对样本空间分布复杂的无监督分类问题和实际的模式识别问题具有较高的准确率和较好的鲁棒性.  相似文献   

9.
针对气测解释的随机性和模糊性的特点,提出一种两阶段模糊聚类算法.该算法通过引入密度参数对最大最小距离算法作了改进,以改进后的最大最小距离算法对数据集进行粗聚类,再以粗聚类所得的聚类中心为初始聚类中心执行标准模糊C-均值算法,得到类中心以及各数据类别.用于某油田某区块的储层油气性识别的实践表明,该算法实现简单、准确率较高、稳定性好,优于标准FCM算法.  相似文献   

10.
针对密度峰值聚类算法(The density peak clustering algorithm,DPC)聚类结果受距离阈值dc参数影响较大的问题,提出一种局部密度捕获范围以及利用局部密度信息熵均值进行加权优化的方法(简称为LDDPC),在DPC算法选取到错误的距离阈值dc时,通过对最大密度邻近点的相对距离进行加权,重新获得正确的分类数量和聚类中心。经典数据集的实验结果表明,基于局部密度信息熵均值加权优化能避免 DPC 算法中距离阈值dc对聚类结果的影响,提高分类的正确率。  相似文献   

11.
邱保志  程栾 《计算机应用》2018,38(9):2511-2514
针对聚类算法的聚类中心选取需要人工参与的问题,提出了一种基于拉普拉斯中心性和密度峰值的无参数聚类算法(ALPC)。首先,使用拉普拉斯中心性度量对象的中心性;然后,使用正态分布概率统计方法确定聚类中心对象;最后,依据对象到各个中心的距离将各个对象分配到相应聚类中心实现聚类。所提算法克服了算法需要凭借经验参数和人工选取聚类中心的缺点。在人工数据集和真实数据集上的实验结果表明,与经典的具有噪声的基于密度的聚类方法(DBSCAN)、密度峰值聚类(DPC)算法以及拉普拉斯中心峰聚类(LPC)算法相比,ALPC具有自动确定聚类中心、无参数的特点,且具有较高的聚类精度。  相似文献   

12.
唐海波  林煜明  李优  蔡国永 《计算机应用》2018,38(11):3132-3138
针对现实应用通常要求聚类的结果相对平衡的问题,提出了一种基于模拟退火与贪心策略的平衡聚类算法(BCSG),该算法包括基于模拟退火的初始点选择算法(SACI)与基于贪心策略的平衡聚类算法(BCGS)2个步骤,以提高平衡聚类算法的聚类效果与时间性能。首先基于模拟退火在数据集中快速定位出K个合适的数据点作为平衡聚类初始点,然后每个中心点分阶段贪婪地将距离其最近的数据点加入簇中直至达到簇规模上限。在6个UCI真实数据集与2个公开图像数据集上进行的聚类对比实验结果表明:在簇数目较大时相比Fuzzy C-Means聚类结果平衡度最高提升了50%以上;聚类结果的准确率相比Balanced K-Means、BCLS两个表现较好的算法平均提高了8个百分点;算法时间复杂度也更低,在较大规模的数据集上运行时间比Balanced K-Means最高减少了近40%。实验结果表明BCSG具有更佳的聚类效果和时间性能。  相似文献   

13.
模糊C-均值(FCM)算法是一种非监督的模式识别方法。由于该算法具有对数据集进行等划分的趋势,因此影响其聚类精度。利用数据点的密度大小作为权值,借助数据本身的分布特性,提出了一种点密度加权模糊C-均值算法。该方法不仅在一定程度上克服了FCM算法的缺陷,而且具有良好的收敛性。以聚类已知的少量数据点作为监督信息指导聚类,聚类效果进一步改善。并用聚类有效性函数对算法的聚类有效性进行了评价,从而为算法的聚类性能提供了理论依据。  相似文献   

14.
异构属性数据的量子聚类方法研究   总被引:1,自引:1,他引:0       下载免费PDF全文
研究了异构属性数据的聚类问题。通过挖掘样本中的结构信息,用加权的Mahalanobis距离来度量异构样本的相异性;根据分类属性数据的分布与粒子在量子势能场中的分布不平衡的相似性,重写量子势能公式为距离量子势能的形式,提出了一种新的异构属性数据量子聚类WMDQC算法。通过进一步集成该算法和AHC算法为WMDQCM聚类方法,用AHC算法更高效地挖掘样本中有利于聚类的结构线索。实验结果表明,方法具有比较优势,显著地改善了聚类性能,具有一定的实用价值。  相似文献   

15.
数据挖掘中聚类算法研究进展   总被引:6,自引:0,他引:6  
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。  相似文献   

16.
一种基于人工鱼群的混合聚类算法   总被引:2,自引:0,他引:2  
聚类分析是数据挖掘的核心技术之一,它是一种无导师监督的模式识别方式。聚类分析就是按照数据间的相似程度,依据特定的准则将数据划分成不同子类。文中通过分析K-平均算法的优缺点,提出了一种基于人工鱼群算法的聚类分析算法,并把它与传统的K-平均算法结合得到一种新的混合聚类算法。仿真实验表明,该算法是有效的,具有聚类速度快、精度高特点。  相似文献   

17.
一种隶属关系不确定的可能性模糊聚类方法   总被引:5,自引:0,他引:5  
模糊聚类是聚类分析的一个重要分支,模糊C-均值聚类算法及其改进算法都是一种基于概率约束的聚类方法,所采用隶属度的取值形式体现了数据集的绝对隶属程度,常常出现不理想的聚类结果.对此,提出了不确定隶属的概念,在此基础上,通过提出两个基于相对隶属程度的判断准则参数,设计出一种新的基于隶属关系不确定的可能性模糊聚类新算法,并给出了具体算法实现.新算法将迭代过程中数据集对聚类簇隶属的可能性与不确定性关系引入目标函数中,达到明显的优化聚类结果的功效.理论分析和实验结果表明,相对其他聚类算法,新算法具有更高的聚类正确率.  相似文献   

18.
基于单元区域的高维数据聚类算法   总被引:1,自引:0,他引:1  
高维数据空间维数较高,数据点分布稀疏、密度平均,从中发现数据聚类比较困难,而用基于距离的方法进行高维数据聚类,维数的增多会使得计算对象间距离的时间开销增大. CAHD(clustering algorithm of high-dimensional data)算法首先采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,然后采用逐位与的方法为这些密集单元区域进行聚类分析.双向搜索策略能够有效地减少搜索空间,从而提高算法效率,同时,聚类密集单元区域只用到逐位与和位移两种机器指令,使得算法效率得到进一步提高.算法CAHD可以有效地处理高维数据的聚类问题.基于数据集的实验表明,算法具有很好的有效性.  相似文献   

19.
数据挖掘中聚类方法比较研究   总被引:4,自引:0,他引:4  
王鑫  王洪国  王珺  王金枝 《微机发展》2006,16(10):20-22
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

20.
聚类分析是一种无监督的模式识别方式,它是数据挖掘中的重要技术之一。给出了一种基于改进混合蛙跳算法的聚类分析方法,该方法结合了K—均值算法和改进混合蛙跳算法各自的优点,引入了K—均值操作,再用改进混合蛙跳算法进行优化,很大程度上提高了该算法的局部搜索能力和收敛速度。通过仿真对基于改进混合蛙跳的聚类方法与其他已有的聚类方法进行了比较,验证了所提出算法的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号