首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基础聚类成员预处理是聚类集成算法中的一个重要研究步骤.众多研究表明,基础聚类成员集合的差异性会影响聚类集成算法性能.当前聚类集成研究围绕着生成基础聚类和优化集成策略展开,而针对基础聚类成员的差异性度量及其优化的研究尚不完善.文中基于Jaccard相似性提出一种基础聚类成员差异性度量指标,并结合三支决策思想提出了基础聚类...  相似文献   

2.
基于成对差异性度量的选择性集成方法   总被引:1,自引:0,他引:1  
有效地产生泛化能力强、差异大的个体学习器,是集成学习算法的关键。为了提高学习器的差异性和精度,文中提出一种基于成对差异性度量的选择性集成方法。同时研究一种改进方法,进一步提高方法的运算速度,且支持并行计算。最后通过使用BP神经网络作为基学习器,在UCI数据集上进行实验,并与Bagging、基于遗传算法的选择性集成(GASEN)算法进行比较。实验结果表明,该改进算法在性能上与GASEN算法相近的前提下,训练速度得到大幅提高。  相似文献   

3.
基于k-means聚类的神经网络分类器集成方法研究   总被引:2,自引:1,他引:2  
针对差异性是集成学习的必要条件,研究了基于k-means聚类技术提高神经网络分类器集成差异性的方法。通过训练集并使用神经网络分类器学习算法训练许多分类器模型,在验证集中利用每个分类器的分类结果作为聚类的数据对象;然后应用k-means聚类方法对这些数据聚类,在聚类结果的每个簇中选择一个分类器代表模型,以此构成集成学习的成员;最后应用投票方法实验研究了这种提高集成学习差异性方法的性能,并与常用的集成学习方法bagging、adaboost进行了比较。  相似文献   

4.
学习器间的差异性是影响集成学习效果的一个关键因素。目前针对分类集成的研究较多,针对聚类集成的研究则相对较少。基于聚类问题的本质特点,提出一种新的聚类集成学习方法,利用聚类有效性指标度量不同聚类结果性能上的差异,根据有效性指标的评价值为聚类结果分配权值,通过加权投票的决策方法进行聚类集成并确定最佳聚类数。理论研究和实验结果证明了新的聚类集成学习方法的可行性和高效性。  相似文献   

5.
针对差异性是集成学习的一个重要条件,研究基于模糊聚类技术提高神经网络集成差异性的方法。提取大量弱分类器的权值和阈值并作为模糊聚类的数据对象,然后将聚类结果作为集成网络中个体网络的权值和阈值,最后在标准数据集上进行仿真实验,证实方法的有效性。  相似文献   

6.
王忠民  张爽  贺炎 《计算机科学》2018,45(1):307-312
为了提高基于智能手机的人体行为识别率,优化多分类器集成系统的泛化性能及个体分类器的差异性,提出了基于差异性增量聚类(Diversity Measure Increment-Affinity Propagation clustering,DMI-AP)的选择性集成人体行为识别模型。首先对训练集的所有样本进行bootstrap抽样并训练基分类器,选出大于平均识别率的基分类器构成分类器集合;然后将集合的基分类器作为聚类对象进行分组,通过计算基分类器间的双误差异性值求出表征个体分类器特征的双误差异性增量值,输入近邻传播聚类算法得到k个类簇,选取每簇的中心分类器构成多分类器集成系统;最后使用等概率均值法融合k个分类器的输出结果。实验表明,该模型算法使个体分类器的差异性增大、分类器搜索空间缩小;与传统的Bagging,Adaboost以及RF方法相比,该模型的识别准确率平均提高了8.11%。  相似文献   

7.
距离与差异性度量是聚类分析中的基本概念,是许多聚类算法的核心内容。在经典的聚类分析中,度量差异性的指标是距离的简单函数。该文针对混合属性数据集,提出两种距离定义,将差异性度量推广成为距离、类大小等因素的多元函数,使得原来只适用于数值属性或分类属性数据的聚类算法可用于混合属性数据。实验结果表明新的距离定义和差异性度量方法可提高聚类的质量。  相似文献   

8.
罗会兰  危辉 《计算机科学》2010,37(11):234-238
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。  相似文献   

9.
聚类集成方法研究   总被引:5,自引:3,他引:2  
聚类集成通过对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。聚类集成能够较好地检测和处理孤立点,提高聚类结果质量。综述了聚类集成的相关知识,介绍了聚类集成的相关概念和优点;根据使用的聚类算法介绍了3种产生聚类成员方法,分析了各自的优缺点及适用条件;介绍了目前已有的一致性函数,阐述了其基本原理,并指出了其局限;最后讨论了未来的研究方向。  相似文献   

10.
聚类分析作为数据研究领域的基本技术,旨在从无标签数据集中发现有意义的簇结构.由Kleinberg定理可知不存在能够学习任何数据集的基本聚类算法,即没有一种聚类方法能够正确地找到所有数据集的簇结构.聚类集成解决了这一固有挑战,通过组合多个聚类结果来探索高稳定性和鲁棒性的最终聚类.近些年来,提出了许多聚类集成技术,产生了解决实际问题的新方法以及新应用领域.从基聚类生成机制和共识函数设计两个维度对聚类集成技术进行了综述,分析了各种方法的优缺点并进行实验比较.最后针对当前的研究现状,讨论了未来的研究方向.  相似文献   

11.
Diversity among the members of a team of classifiers is deemed to be a key issue in classifier combination. However, measuring diversity is not straightforward because there is no generally accepted formal definition. We have found and studied ten statistics which can measure diversity among binary classifier outputs (correct or incorrect vote for the class label): four averaged pairwise measures (the Q statistic, the correlation, the disagreement and the double fault) and six non-pairwise measures (the entropy of the votes, the difficulty index, the Kohavi-Wolpert variance, the interrater agreement, the generalized diversity, and the coincident failure diversity). Four experiments have been designed to examine the relationship between the accuracy of the team and the measures of diversity, and among the measures themselves. Although there are proven connections between diversity and accuracy in some special cases, our results raise some doubts about the usefulness of diversity measures in building classifier ensembles in real-life pattern recognition problems.  相似文献   

12.
李建  李杰  孙燕花 《微机发展》2011,(10):250-252,F0003
随着互联网的飞速发展,网络安全的问题日趋严重,传统的网络安全技术已难以应对日益繁多的网络攻击。因此入侵检测便应运而生了,而且其重要性日益提高。基于聚类分析的入侵检测已经成为其主要研究方向。聚类分析是一种有效的异常入侵检测方法,可用以在网络数据集中区分正常流量和异常流量。但单一的聚类算法很难达到预期的效果,为了提高入侵检测的效果,文中采用聚类融合技术,提出一种基于Co—assocition的模糊聚类融合算法,通过实验检测能显著提高检测率和降低误报率。  相似文献   

13.
结合聚类融合方法的优点,探索了聚类融合方法在邮件社区划分中的应用,并提出了一种基于聚类融合的邮件社区划分方法。该方法中应用了聚类融合思想,继承了聚类融合方法的优点,能发现复杂的社区结构,不受离群点干扰,显著提高社区划分质量。模拟实验发现,这种社区划分方法法能够发现高质量的社区。  相似文献   

14.
Rätsch  Gunnar  Demiriz  Ayhan  Bennett  Kristin P. 《Machine Learning》2002,48(1-3):189-218
We examine methods for constructing regression ensembles based on a linear program (LP). The ensemble regression function consists of linear combinations of base hypotheses generated by some boosting-type base learning algorithm. Unlike the classification case, for regression the set of possible hypotheses producible by the base learning algorithm may be infinite. We explicitly tackle the issue of how to define and solve ensemble regression when the hypothesis space is infinite. Our approach is based on a semi-infinite linear program that has an infinite number of constraints and a finite number of variables. We show that the regression problem is well posed for infinite hypothesis spaces in both the primal and dual spaces. Most importantly, we prove there exists an optimal solution to the infinite hypothesis space problem consisting of a finite number of hypothesis. We propose two algorithms for solving the infinite and finite hypothesis problems. One uses a column generation simplex-type algorithm and the other adopts an exponential barrier approach. Furthermore, we give sufficient conditions for the base learning algorithm and the hypothesis set to be used for infinite regression ensembles. Computational results show that these methods are extremely promising.  相似文献   

15.
目前,针对数据库系统内部攻击与威胁的检测方法较少,且已有的数据库异常检测方案存在代价开销高、检测准确率低等问题.为此,将密度聚类和集成学习融合,提出一种基于密度聚类和集成学习的数据库异常检测方法.利用OPTICS(Ordering Points To Identify the Clustering Structure)密度聚类算法对用户产生的数据库SQL操作日志进行聚类,通过对SQL语句中的各属性进行分析,提取用户的异常行为,形成先验知识;将Bagging、Boosting和Stacking进行组合,形成集成学习模型,以OPTICS聚类形成的先验知识为基础,并利用该集成学习模型对用户行为作进一步分析,并创建用户行为特征库.基于用户形成特征库,对用户行为进行检测.给出了方案的详细构建过程,包括数据预处理、训练、学习模型建立以及异常检测;利用相关实验数据进行测试,结果表明本方案能以较高的效率检测出数据库异常行为,并且在准确率方面优于同类方案.  相似文献   

16.
胡翰  李永忠 《计算机仿真》2010,27(3):140-142,150
针对网络环境,提出了一种新的半监督聚类入侵检测算法,将主动学习策略应用于半监督聚类过程中,利用少量的标记数据,生成用于初始化算法的种子聚类,通过辅助聚类过程,根据网络数据的特点,检测已知和未知攻击。主动学习策略查询网络中未标记数据与标记数据的约束关系,对标记数据可以快速获得k个不相交的非空近邻集,经检测结果证明,改进了算法的性能,且表明了算法的可行性及有效性。  相似文献   

17.
聚类集成是机器学习中的新问题.它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能.如何发现从多个划分中得到“consensus clustering”是一个很困难的问题.很多学者对此作了研究.本文提出了一种基于互信息的模糊聚类集成算法.该算法主要扩展了Strehl & Ghosh提出的基于互信息的聚类集成目标函数,将其应用到模糊划分的集成,同时利用类似于信息瓶颈聚类的算法进行求解.实验结果表明,在4个UCI的数据集上,基于互信息的聚类集成能获得良好的性能.  相似文献   

18.
基于PAT-array和模糊聚类的文本聚类方法   总被引:5,自引:0,他引:5  
林建敏  谢康林 《计算机工程》2004,30(12):126-127,177
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。  相似文献   

19.
王玲娣  徐华 《计算机应用》2018,38(3):650-654
针对AdaBoost算法下弱分类器间的多样性如何度量问题以及AdaBoost的过适应问题,在分析并研究了4种多样性度量与AdaBoost算法的分类精度关系的基础上,提出一种基于双误度量改进的AdaBoost方法。首先,选择Q统计、相关系数、不一致度量、双误度量在UCI数据集上进行实验。然后,利用皮尔逊相关系数定量计算多样性与测试误差的相关性,发现在迭代后期阶段,它们都趋于一个稳定的值;其中双误度量在不同数据集上的变化模式固定,它在前期阶段不断增加,在迭代后期基本上不变,趋于稳定。最后,利用双误度量改进AdaBoost的弱分类器的选择策略。实验结果表明,与其他常用集成方法相比,改进后的AdaBoost算法的测试误差平均降低1.5个百分点,最高可降低4.8个百分点。因此,该算法可以进一步提高分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号