首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 406 毫秒
1.
一种结合主动学习的半监督文档聚类算法   总被引:1,自引:0,他引:1  
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法.  相似文献   

2.
成对约束作为半监督学习的一个重要分支,它以无监督的聚类算法为基础,通过利用少量的监督信息来提高聚类的性能。提出了一种基于成对约束的半监督聚类方法,在FCM-NMF聚类算法框架下,采用非负矩阵分解提取样本的本质特征,并且加入成对约束条件指导聚类过程进行模糊聚类。构造出的新的目标函数采用梯度下降法和交替迭代公式来找局部最优解,并在UCI数据集上讨论了成对约束的数量对聚类的影响、价值系数的设置对聚类的影响,并与常见的半监督聚类性能进行了比较,证明了其正确性、有效性、稳定性。  相似文献   

3.
王纵虎  刘速 《计算机科学》2016,43(12):183-188
半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对约束信息扩展后嵌入文档相似度矩阵,在此基础上根据已划分与未划分文档之间的统计信息逐步找出剩余未划分文本集合中密集的且与已划分聚类中心集合相似度较小的K个初始聚类中心集合,然后将剩余的相对较难区分的文档结合成对约束限制信息划分到K个初始聚类中心集合,最后通过融合成对约束违反惩罚的收敛准则函数对聚类结果进行进一步优化。算法在聚类过程中自动确定初始聚类中心集合,避免了K均值算法对初始聚类中心选择的敏感性。在几个中英文数据集上的实验结果表明,所提算法能有效地利用少量的成对约束先验信息提高聚类效果。  相似文献   

4.
钟将  刘龙海  梁传伟 《计算机工程》2011,37(13):183-186
在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法.利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类.实验结果表明,该方法能利用少量的监督信息提高文本聚类的分类准确率.  相似文献   

5.
极大熵聚类算法(MEC)是基于信息论的新型聚类算法。以不同子集之间的协同关系为出发点,与信息理论中的极大熵原理相结合,通过构造新的极大熵目标函数来改变传统聚类算法中对整个数据集直接聚类的机制。提出一种基于协同的极大熵聚类算法CMEC,它不仅具有较MEC算法更高的聚类精度和更好的泛化性等特点,较之协同模糊聚类算法还具有更好的物理意义。实验结果表明所提出的CMEC算法具有上述优点,其聚类效果比传统的聚类算法有了很大的提高。  相似文献   

6.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。  相似文献   

7.
聚类是一门非常重要的技术.所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之间的相似程度即做到"物以类聚".半监督聚类算法研究无监督学习中如何利用少量的监督信息来提高聚类性能,目前正得到不断应用.针对前人提出的半监督模糊聚类,本文为了验证该种半监督学习方法是否可以用于其它聚类算法,对极大熵算法进行了改进,将半监督距离学习引入极大熵聚类,生成半监督极大熵聚类算法,并通过实验证明极大熵聚类算法通过半监督方法改进之后确实有效.  相似文献   

8.
最大间隔聚类是近来聚类分析的一个研究热点,为进一步提高其聚类准确性,提出一种基于成对约束的半监督最大间隔聚类算法.该算法在最大间隔聚类的目标函数中添加针对成对约束的损失项,从而对违反给定约束条件的分界面进行惩罚.对所得到的非凸优化问题,本文提出一种基于约束凹凸过程的迭代算法来进行高效求解.实验表明,本文提出的算法能极大地提高最大间隔聚类的准确性,其聚类性能也明显优于其他两种半监督聚类算法.  相似文献   

9.
基于成对约束的判别型半监督聚类分析   总被引:10,自引:1,他引:9  
尹学松  胡恩良  陈松灿 《软件学报》2008,19(11):2791-2802
现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督信息集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,再利用聚类结果选择投影空间.同时,该算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题.在一组真实数据集上的实验结果表明,与现有相关半监督聚类算法相比,新方法不仅能够处理高维数据,还有效地提高了聚类性能.  相似文献   

10.
针时将模糊聚类扩展为直觉模糊聚类具有的重要的理论和应用价值,研究了直觉模糊熵的基础上,提出了一种基于直觉模糊的聚类目标函数的思想.利用拉格朗日定理推导了目标函数参数求解,并给出了基于直觉模糊熵的聚类算法.通过典型试验表明基于直觉模糊熵的目标函数聚类提高了聚类的准确率,性能优于模糊聚类.  相似文献   

11.
提出一种混合约束的半监督聚类算法(HCC),综合考虑标号点和成对点约束信息的作用,使两种先验信息在聚类的过程中能以不同的方式发挥作用.给出理论推导、具体算法步骤、实验及分析.实验表明在HCC算法中,标号点对提高聚类结果的作用要比成对点约束信息的作用更明显,算法得到的CRI、聚类数、运行时间等多项指标都比对比算法好.  相似文献   

12.
为了在只有少量已知标记的数据集中获得较好的聚类效果,提出了一种基于图收缩的半监督聚类算法。首先将整个样本空间中的数据表达为一个带权图,再根据给出的must-link约束,对图进行边收缩的修改,进而增强must-link约束。在此基础上引入图拉普拉斯算子,结合cannot-link约束将样本空间投影到一个特征子空间。最后在子空间上进行聚类分析。实验结果表明,该方法不仅提高了对复杂数据的聚类结果,而且在约束对数量较少时也能获得较好的结果。  相似文献   

13.
Effective fuzzy c-means clustering algorithms for data clustering problems   总被引:3,自引:0,他引:3  
Clustering is a well known technique in identifying intrinsic structures and find out useful information from large amount of data. One of the most extensively used clustering techniques is the fuzzy c-means algorithm. However, computational task becomes a problem in standard objective function of fuzzy c-means due to large amount of data, measurement uncertainty in data objects. Further, the fuzzy c-means suffer to set the optimal parameters for the clustering method. Hence the goal of this paper is to produce an alternative generalization of FCM clustering techniques in order to deal with the more complicated data; called quadratic entropy based fuzzy c-means. This paper is dealing with the effective quadratic entropy fuzzy c-means using the combination of regularization function, quadratic terms, mean distance functions, and kernel distance functions. It gives a complete framework of quadratic entropy approaching for constructing effective quadratic entropy based fuzzy clustering algorithms. This paper establishes an effective way of estimating memberships and updating centers by minimizing the proposed objective functions. In order to reduce the number iterations of proposed techniques this article proposes a new algorithm to initialize the cluster centers.In order to obtain the cluster validity and choosing the number of clusters in using proposed techniques, we use silhouette method. First time, this paper segments the synthetic control chart time series directly using our proposed methods for examining the performance of methods and it shows that the proposed clustering techniques have advantages over the existing standard FCM and very recent ClusterM-k-NN in segmenting synthetic control chart time series.  相似文献   

14.
改进的半监督模糊聚类算法   总被引:1,自引:0,他引:1  
针对Grira等近期提出的利用点对约束的半监督模糊聚类算法,其约束项与竞争聚类算法(CA)的目标函数之间数量级不一致,造成隶属度调整过度的问题,在重新定义目标函数的基础上提出一种改进算法,约束惩罚函数采用约束点对中两个样本新的联合表达式,使数量级与经典模糊聚类算法一致.实验结果显示,新算法的约束项与CA目标函数之间能很好地协调合作,并能通过对模糊隶属度的适度调整,实现更准确的聚类.  相似文献   

15.
Recent advances in clustering consider incorporating background knowledge in the partitioning algorithm, using, e.g., pairwise constraints between objects. As a matter of fact, prior information, when available, often makes it possible to better retrieve meaningful clusters in data. Here, this approach is investigated in the framework of belief functions, which allows us to handle the imprecision and the uncertainty of the clustering process. In this context, the EVCLUS algorithm was proposed for partitioning objects described by a dissimilarity matrix. It is extended here so as to take pairwise constraints into account, by adding a term to its objective function. This term corresponds to a penalty term that expresses pairwise constraints in the belief function framework. Various synthetic and real datasets are considered to demonstrate the interest of the proposed method, called CEVCLUS, and two applications are presented. The performances of CEVCLUS are also compared to those of other constrained clustering algorithms.  相似文献   

16.
谱聚类算法中图上拉普拉斯矩阵的特征向量(谱)决定聚类结果,如何选择谱至关重要.为了解决这一问题,基于广义信息熵,定义谱的区分性、谱的区分有效性和谱的区分度这3个指标.谱的区分性指标用于衡量谱所含聚类信息的显著程度;谱的区分有效性指标用于剔除聚类结果无效的谱;谱的区分度指标用于构建基于贡献力的选择性聚类集成方案.进而提出基于谱选择的谱聚类算法.各种自然图像分割实验表明文中算法简单有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号