首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法(RS-KMCE)。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示:RS-KMCE的聚类性能优于K-means算法、K-means融合算法(KMCE)以及基于Bagging的选择性K-means聚类融合(BA-KMCE)。  相似文献   

2.
提出基于随机初始化、参数扰动和特征子集映射的多扰动的局部自适应软子空间聚类(LAC)融合算法(MLACE)。MLACE具有以下特点:(i)多扰动融合:从初始化、参数和特征子集等不同侧面,探测数据内部结构,使之相互融合,从而达到改善聚类正确性的目的;(ii)融合信息提升:根据LAC算法输出的子空间权重矩阵,定义数据属于每一类的概率,形成提升的融合信息;(iii)融合一致性函数改进:融合信息的形式由0/1二值信息转换成[0,1]实值信息,因此,一致性函数采用了性能较优的实数值融合算法Fast global K-means来进一步改善融合正确性。实验选取2个仿真数据库和5个UCI数据库测试MLACE的聚类正确性,实验结果表明,MLACE聚类正确性优于K-means、LAC、基于参数扰动LAC融合算法(P-MLACE)。  相似文献   

3.
数值型和分类型混合数据的模糊K-Prototypes聚类算法   总被引:15,自引:0,他引:15  
陈宁  陈安  周龙骧 《软件学报》2001,12(8):1107-1119
由于数据库经常同时包含数值型和分类型的属性,因此研究能够处理混合型数据的聚类算法无疑是很重要的.讨论了混合型数据的聚类问题,提出了一种模糊K-prototypes算法.该算法融合了K-means和K-modes对数值型和分类型数据的处理方法,能够处理混合类型的数据.模糊技术体现聚类的边界特征,更适合处理含有噪声和缺失数据的数据库.实验结果显示,模糊算法比相应的确定算法得到的结果准确度高.  相似文献   

4.
模糊C均值(fuzzy C-means,FCM)聚类算法是一种常用的基于目标函数最小化的聚类算法。目前已经提出了相当数量的聚类算法是对模糊C均值聚类算法的改进,例如AFCM算法、GK算法等。对最近发表的基于Bregman距离的模糊聚类算法进行了改进,通过在FCM模糊聚类框架中引入Total-Bregman距离提升了聚类算法的聚类性能。同时对基于Total-Bregman距离的模糊聚类算法的收敛性质进行了理论分析。实验部分对来自UCI数据库的几个数据集进行了聚类,证明了算法的有效性和收敛性。  相似文献   

5.
层次聚类的簇集成方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
聚类集成比单个聚类方法具有更高的鲁棒性和精确性,它主要由两部分组成,即个体成员的产生和结果的融合。针对聚类集成,首先用k-means聚类算法得到个体成员,然后使用层次聚类中的单连接法、全连接法与平均连接法进行融合。为了评价聚类集成方法的性能,实验中使用了ARI(Adjusted Rand Index)。实验结果表明,平均连接法的聚类集成性能优于单连接法和全连接法。研究并讨论了融合方法的聚类正确率和集成规模的关系。  相似文献   

6.
陈爱国    王士同 《智能系统学报》2017,12(1):95-103
针对传统的聚类算法在样本数据量不足或样本受到污染情况下的聚类性能下降问题,在经典的极大熵聚类算法(MEKTFCA)的基础上,提出了一种新的融合历史聚类中心点和历史隶属度这两种知识的基于极大熵的知识迁移模糊聚类算法。该算法通过学习由源域总结出来的有益历史聚类中心和历史隶属度知识来指导数据量不足或受污染的目标域数据的聚类任务,从而提高了聚类性能。通过一组模拟数据集和两组真实数据集构造的迁移场景上的实验,证明了该算法的有效性。  相似文献   

7.
多聚类中心近邻传播聚类算法(MEAP),在处理任意形状具有流形分布结构的数据时,往往得不到理想的聚类结果。为此,基于流形学习的思想,设计了一种全新的相似性度量,该相似性度量能够扩大位于同一流形中数据点间的相似性,同时缩小处于不同流形上数据点间的相似性,从而使得相似性矩阵能够准确地反映数据集内在的流形分布结构。将该相似性度量与MEAP相结合,提出基于流形结构的多聚类中心近邻传播聚类算法MS-MEAP(Manifold Structure based Multi-Exemplar Affinity Propagation),从而有效地拓展了算法处理任意形状具有流形分布结构数据集的能力,同时提高了算法的运行效率。在人工数据集与USPS手写体数据集上进行了实验,仿真实验结果及算法有效性分析证明,MS-MEAP算法相比于原算法在处理任意形状具有流形分布结构的数据时,具有更好的聚类性能。  相似文献   

8.
针对传统的谱聚类算法通常利用高斯核函数作为相似性度量,且单纯以距离决定相似性不能充分表现原始数据中固有的模糊性、不确定性和复杂性,导致聚类性能降低的问题。提出了一种公理化模糊共享近邻自适应谱聚类算法,首先结合公理化模糊集理论提出了一种模糊相似性度量方法,利用识别特征来衡量更合适的数据成对相似性,然后采用共享近邻的方法发现密集区域样本点分布的结构和密度信息,并且根据每个点所处领域的稠密程度自动调节参数σ,从而生成更强大的亲和矩阵,进一步提高聚类准确率。实验表明,相较于距离谱聚类、自适应谱聚类、模糊聚类方法和地标点谱聚类,所提算法有着更好的聚类性能。  相似文献   

9.
核模糊C均值算法的聚类有效性研究   总被引:12,自引:0,他引:12  
针对核模糊C均值聚类(Kemelized Fuzzy C-Means,KFCM)算法的有效性评价,以核非线性映射为工具,将原空间中的六个著名有效性指标推广到高维特征空间,得到其对应的核化形式,并通过数值比较实验考察这些核化指标的性能及其对高斯核宽度β和模糊指数m的敏感特性。结果表明,在所考察的指标中,著名的Xie-Beni指标VXB及其改进指标VK的核化版本具有最好的性能和可靠性,可优先作为KFCM聚类算法的有效性准则。  相似文献   

10.
针对无监督聚类缺少数据分类等先验信息、基聚类的准确性受聚类算法影响以及一般聚类融合算法空间复杂度高的问题,提出一种基于改进遗传算法的聚类融合算法(CEIGA);同时针对传统聚类融合算法已经不能满足大规模数据处理对于时间的要求的问题,提出一种云计算下使用Hadoop平台的基于改进遗传算法的并行聚类融合算法(PCEIGA)。首先,基聚类生成机制产生的基聚类划分在完成簇标签转化后进行基因编码作为遗传算法的初始种群。其次,通过改进遗传算法的选择算子,保证基聚类的多样性;再根据改进的选择算子对染色体进行交叉和变异操作并使用精英策略得到下一代种群,保证基聚类的准确性。如此循环,使聚类融合最终结果达到全局最优,提高算法准确度。通过设计两个MapReduce过程并加入Combine过程减少节点通信,提高算法运行效率。最后,在UCI数据集上比较了CEIGA、PCEIGA和四个先进的聚类融合算法。实验结果表明,与先进的聚类融合算法相比,CEIGA性能最好;而PCEIGA能在不影响聚类结果准确度的前提下明显降低算法运行时间,提高算法效率。  相似文献   

11.
Despite significant successes achieved in knowledge discovery,traditional machine learning methods may fail to obtain satisfactory performances when dealing with complex data,such as imbalanced,high-dimensional,noisy data,etc.The reason behind is that it is difficult for these methods to capture multiple characteristics and underlying structure of data.In this context,it becomes an important topic in the data mining field that how to effectively construct an efficient knowledge discovery and mining model.Ensemble learning,as one research hot spot,aims to integrate data fusion,data modeling,and data mining into a unified framework.Specifically,ensemble learning firstly extracts a set of features with a variety of transformations.Based on these learned features,multiple learning algorithms are utilized to produce weak predictive results.Finally,ensemble learning fuses the informative knowledge from the above results obtained to achieve knowledge discovery and better predictive performance via voting schemes in an adaptive way.In this paper,we review the research progress of the mainstream approaches of ensemble learning and classify them based on different characteristics.In addition,we present challenges and possible research directions for each mainstream approach of ensemble learning,and we also give an extra introduction for the combination of ensemble learning with other machine learning hot spots such as deep learning,reinforcement learning,etc.  相似文献   

12.
选择性聚类融合研究进展   总被引:1,自引:0,他引:1  
传统的聚类融合方法通常是将所有产生的聚类成员融合以获得最终的聚类结果。在监督学习中,选择分类融合方法会获得更好的结果,从选择分类融合中得到启示,在聚类融合中应用这种方法被定义为选择性聚类融合。对选择性聚类融合关键技术进行了综述,讨论了未来的研究方向。  相似文献   

13.
聚类集成中的差异性度量研究   总被引:14,自引:0,他引:14  
集体的差异性被认为是影响集成学习的一个关键因素.在分类器集成中有许多的差异性度量被提出,但是在聚类集成中如何测量聚类集体的差异性,目前研究得很少.作者研究了7种聚类集体差异性度量方法,并通过实验研究了这7种度量在不同的平均成员聚类准确度、不同的集体大小和不同的数据分布情况下与各种聚类集成算法性能之间的关系.实验表明:这些差异性度量与聚类集成性能间并没有单调关系,但是在平均成员准确度较高、聚类集体大小适中和数据中有均匀簇分布的情况下,它们与集成性能间的相关度还是比较高的.最后给出了一些差异性度量用于指导聚类集体生成的可行性建议.  相似文献   

14.
一种基于聚类技术的选择性神经网络集成方法   总被引:11,自引:0,他引:11  
神经网络集成是一种很流行的学习方法,通过组合每个神经网络的输出生成最后的预测、为了提高集成方法的有效性,不仅要求集成中的个体神经网络具有很高的正确率,而且要求这些网络在输入空间产生不相关的错误.然而,在现有的众多集成方法中,大都采用将训练的所有神经网络直接进行组合以形成集成,实际上生成的这些神经网络可能具有一定的相关性.为了进一步提高神经网络间的差异性,一种基于聚类技术的选择性神经网络集成方法CLU_ENN被提出.在获得个体神经网络后,并不直接对这些神经网络集成,而是先应用聚类算法对这些神经网络模型聚类以获得差异较大的部分神经网络;然后由部分神经网络构成集成;最后,通过实验研究了CLU_ENN集成方法,与传统的集成方法Bagging相比,该方法取得了更好的效果。  相似文献   

15.
Ensemble learning is the process of aggregating the decisions of different learners/models. Fundamentally, the performance of the ensemble relies on the degree of accuracy in individual learner predictions and the degree of diversity among the learners. The trade-off between accuracy and diversity within the ensemble needs to be optimized to provide the best grouping of learners as it relates to their performance. In this optimization theory article, we propose a novel ensemble selection algorithm which, focusing specifically on clustering problems, selects the optimal subset of the ensemble that has both accurate and diverse models. Those ensemble selection algorithms work for a given number of the best learners within the subset prior to their selection. The cardinality of a subset of the ensemble changes the prediction accuracy. The proposed algorithm in this study determines both the number of best learners and also the best ones. We compared our prediction results to recent ensemble clustering selection algorithms by the number of cardinalities and best predictions, finding better and approximated results to the optimum solutions.  相似文献   

16.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。  相似文献   

17.
聚类组合研究的新进展   总被引:1,自引:0,他引:1       下载免费PDF全文
作为目前聚类分析的新兴研究热点,聚类组合方法能将两种或多种聚类方法集成起来以改善其性能。从聚类多样性和共识函数两方面综述了最新研究进展,探讨将神经网络组合的思想用于聚类组合。最后指出了将来可能的研究方向。  相似文献   

18.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

19.
基于先验信息和谱分析的聚类融合算法   总被引:1,自引:0,他引:1  
在聚类过程中利用先验信息能显著提高聚类算法的性能,但已存在的聚类融合算法很少考虑到数据集的先验信息。基于先验信息和谱分析,提出一种聚类融合算法,将成对限制信息引入到谱聚类算法中,用受限的谱聚类算法产生聚类成员,再采用基于互联合矩阵的集成方法生成最后的聚类结果。实验结果表明,利用先验信息能有效提高聚类的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号