首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 280 毫秒
1.
密度敏感的半监督谱聚类   总被引:27,自引:0,他引:27  
王玲  薄列峰  焦李成 《软件学报》2007,18(10):2412-2422
聚类通常被认为是一种无监督的数据分析方法,然而在实际问题中可以很容易地获得有限的样本先验信息,如样本的成对限制信息.大量研究表明,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能.首先分析了在聚类过程中仅利用成对限制信息存在的不足,尝试探索数据集本身固有的先验信息--空间一致性先验信息,并提出利用这类先验信息的具体方法.接着,将两类先验信息同时引入经典的谱聚类算法中,提出一种密度敏感的半监督谱聚类算法(density-sensitive semi-supervised spectral clustering algorithm,简称DS-SSC).两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用,这使得DS-SSC算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显著的提高.在UCI基准数据集、USPS手写体数字集以及TREC的文本数据集上的实验结果验证了这一点.  相似文献   

2.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。  相似文献   

3.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。  相似文献   

4.
单点逼近型加权模糊C均值算法的遥感图像聚类应用   总被引:2,自引:1,他引:1       下载免费PDF全文
针对模糊C均值算法对数据分布状态和初始聚类中心过于依赖的问题,利用已知样本信息,提出了一种改进的单点逼近型加权模糊C均值算法.该算法首先通过对原始数据进行概率统计和加入样本属性权值来调整数据为均匀分布;然后采用先验样本单点逼近的方法来消除先验样本选取的影响,从而不仅得到了合适的初始聚类中心,而且有效地加快了算法的收敛速度和提高了聚类的精度;最后将改进后算法与遥感数据特点相结合,构成了完整的遥感图像地物聚类算法.通过UCI数据集和扎龙湿地遥感数据的试验结果的比较证明,该改进方法是真实有效的.  相似文献   

5.
传统的视觉词典一般通过K-means聚类生成,一方面这种无监督的学习没有充分利用类别的先验信息,另一方面由于K-means算法自身的局限性导致生成的视觉词典性能较差。针对上述问题,提出一种基于谱聚类构建视觉词典的算法,根据训练样本的类别信息进行分割并采用动态互信息的度量方式进行特征选择,在特征空间中进行谱聚类并生成最终的视觉词典。该方法充分利用了样本的类别信息和谱聚类的优点,有效地解决了图像数据特征空间的高维性和结构复杂性所带来的问题;在Scene-15数据集上的实验结果验证了算法的有效性。  相似文献   

6.
半监督聚类是机器学习的重要研究内容之一,它通过利用样本层面的少量标记数据信息或者利用特征层面的特征偏好信息来指导半监督聚类。但现有的半监督聚类算法仅考虑了单一层面的半监督先验信息,罕有同时考虑两个不同层面的此类信息进行半监督聚类。为了弥补这一遗漏,联合利用特征层面给定的特征偏好,即特征之间的相对重要性关系,并结合样本层面的少量标记数据等半监督信息,在传统的半监督聚类算法基础上发展出一个扩展型半监督聚类算法。初步实验验证了该算法的有效性。  相似文献   

7.
一种基于离群点信息的新型无监督聚类方法   总被引:2,自引:0,他引:2  
在图像检索领域,聚类分析技术有着广泛应用。因为在对图像进行聚类分析时,通常缺少可资利用的先验知识,所以需要采用无监督的聚类算法。为了适应图像检索的需要,提出了一种新型的无监督聚类方法,即根据离群点信息来自动确定聚类算法的终止时机。此方法还弥补了现有聚类算法在离群点识别、使用上的缺欠。为验证其可行性,用其改进了CURE和ROCK两个经典算法。实验表明,改进后的两个算法都能自动终止,并能取得优于以往的聚类效果。  相似文献   

8.
改进退化的半监督模糊聚类应用于MR图像分割   总被引:1,自引:1,他引:0       下载免费PDF全文
半监督聚类利用少量标记样本的辅助信息来引导对大量无标记数据的分割。Pedrycz提出的半监督FCM(sFCM)算法应用标记样本的类别归属信息来辅助聚类,其在标记点过于稀少时会退化为无监督FCM算法且收敛较慢,难以应用于多数实际问题。在半监督FCM的基础上提出一种改进退化的半监督FCM算法(dsFCM),通过在sFCM迭代过程中设置监督成分的比重,来加大标记样本点对聚类中心的影响力,在聚类精度、速度和鲁棒性上均比半监督FCM有所提高,解决了标记点稀疏时的退化问题,在医学图像分割上取得了良好应用。  相似文献   

9.
根据聚类假设,提出一种新的基于图的半监督学习算法,称为密度敏感的半监督聚类。该算法引入一种密度敏感的距离测度,它能较好地反映聚类假设,并且充分挖掘了数据集中复杂的内在结构信息,同时与基于图的半监督学习方法相结合,使得算法在聚类性能上有了显著的提高。经过实验仿真进一步表明,该算法在特定图像应用上具有优越性。  相似文献   

10.
图像分类的随机半监督采样方法   总被引:1,自引:1,他引:0  
为更好地利用大量未标注图像样本信息来提高分类器性能,提出一种半监督学习的图像分类算法--随机半监督采样(RSSS).该算法采用迭代随机采样方法,每次采样中通过谱聚类估计未标注样本的类别值,使用SVM进行模型学习,逐步优化模型;同时,使用图像的局部空间直方图特征可以有效地结合图像的统计和空间信息,以提高分类准确度.实验结果表明,RSSS算法可以充分利用未标注样本信息提高分类器的性能,并且可以有效地消除几何变换带来的影响.  相似文献   

11.
Data clustering using bacterial foraging optimization   总被引:1,自引:0,他引:1  
Clustering divides data into meaningful or useful groups (clusters) without any prior knowledge. It is a key technique in data mining and has become an important issue in many fields. This article presents a new clustering algorithm based on the mechanism analysis of Bacterial Foraging (BF). It is an optimization methodology for clustering problem in which a group of bacteria forage to converge to certain positions as final cluster centers by minimizing the fitness function. The quality of this approach is evaluated on several well-known benchmark data sets. Compared with the popular clustering method named k-means algorithm, ACO-based algorithm and the PSO-based clustering technique, experimental results show that the proposed algorithm is an effective clustering technique and can be used to handle data sets with various cluster sizes, densities and multiple dimensions.  相似文献   

12.
Clustering divides data into meaningful or useful groups (clusters) without any prior knowledge. It is a key technique in data mining and has become an important issue in many fields. This article presents a new clustering algorithm based on the mechanism analysis of chaotic ant swarm (CAS). It is an optimization methodology for clustering problem which aims to obtain global optimal assignment by minimizing the objective function. The proposed algorithm combines three advantages into one: finding global optimal solution to the objective function, not sensitive to clusters with different size and density and suitable to multi-dimensional data sets. The quality of this approach is evaluated on several well-known benchmark data sets. Compared with the popular clustering method named k-means algorithm and the PSO-based clustering technique, experimental results show that our algorithm is an effective clustering technique and can be used to handle data sets with complex cluster sizes, densities and multiple dimensions.  相似文献   

13.
Clustering is often considered as an unsupervised data analysis method, but making full use of the prior information in the process of clustering will significantly improve the performance of the clustering algorithm. Spectral clustering algorithm can well use the prior pairwise constraint information to cluster and has become a new hot spot of machine learning research in recent years. In this paper, we propose an effective clustering algorithm, called a semi-supervised spectral clustering algorithm based on pairwise constraints, in which the similarity matrix of data points is adjusted and optimized by pairwise constraints. The experiments on real-world data sets demonstrate the effectiveness of this algorithm.  相似文献   

14.
一种有效的用于范例提取的改进聚类算法   总被引:8,自引:0,他引:8  
针对传统范例提取算法随范例教增加而效率下降快的缺点,结合基于选择的CLARA聚类方法和NCL聚类算法的优点,给出了一种有效的无监督聚类学习算法.通过实验表明,该算法能在无监督下对范例进行准确归类,将它用于CBR的范例提取中,能大大地提高范例提取的速度和质量。  相似文献   

15.
宏基因组序列组装在计算和内存上面临着巨大挑战。SpaRC(Spark Reads Clustering)是基于Apache Spark的宏基因组序列片段聚类算法,为来自下一代测序技术的数十亿测序片段聚类提供了一种可扩展的解决方案。但是,SpaRC算法参数的设置是一项非常具有挑战性的工作。SpaRC算法拥有许多对算法性能有着很大影响的超参数,选择合适的超参数集对于充分发挥SpaRC算法的性能来说是至关重要的。为了提高SpaRC算法的性能,探索了一种基于树状结构Parzen估计方法(Tree Parzen Estimator,TPE)的超参数优化方法,其能够利用先验知识高效地调节参数,并通过减少计算任务加速寻找最优参数,达到最佳聚类效果,从而避免昂贵的参数探索。对长序列片段(PacBio)和短序列片段(CAMI2)进行实验,结果表明,该方法在改善SpaRC算法性能方面有着良好的效果。  相似文献   

16.
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法.为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm).算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上.实验表明,算法WVB-MSCA是可行且有效的.  相似文献   

17.
Clustering multiple data streams has become an active area of research with many practical applications. Most of the early work in this area focused on one-sided clustering, i.e., clustering data streams based on feature correlation. However, recent research has shown that data streams can be grouped based on the distribution of their features, while features can be grouped based on their distribution across data streams. In this paper, an evolutionary clustering algorithm is proposed for multiple data streams using graph regularization non-negative matrix factorization (EC-NMF) in which the geometric structure of both the data and feature manifold is considered. Instead of directly clustering multiple data streams periodically, EC-NMF works in the low-rank approximation subspace and incorporates prior knowledge from historic results with temporal smoothness. Furthermore, we develop an iterative algorithm and provide convergence and correctness proofs from a theoretical standpoint. The effectiveness and efficiency of the algorithm are both demonstrated in experiments on real and synthetic data sets. The results show that the proposed EC-NMF algorithm outperforms existing methods for clustering multiple data streams evolving over time.  相似文献   

18.
Clustering technique is used in image segmentation because of its simple and easy approach. However, the existing clustering techniques required prior information as input and the performance are entirely dependent on this prior information, which is the main drawback of the clustering approaches. Therefore, many researchers are trying to introduce a novel method with user free parameter. We proposed a clustering method, that is, independent of user parameters and later we used a region merging technique to improve the performance of the clustering output. In this article, we proposed a hybrid image segmentation method which is based on a clustering algorithm and black hole algorithm. In the clustering technique, we have used recursive density estimation technique of surrounding pixels. After clustering technique, presence of small segments may be present and it would give lower a performance of segmentation output. Therefore, a segment is merged with another segment by finding best matched segment. Black hole algorithm concept has been used to define the fitness of each segment and to find the best matching segment. We have compared the proposed method with the other clustering-based segmentation methods and different evaluation indices are used to calculate the performance, and the result proved the effectiveness of the proposed algorithm.  相似文献   

19.
一种新的聚类分析算法   总被引:5,自引:0,他引:5       下载免费PDF全文
给出了一种新的无监督聚类算法,但这种算法并非是基于目标函数的聚类算法,而是对数据直接设计一种迭代运算,以使数据在保持类特征的情况下进行重新组合最终达到分类的目的。通过对一类数据的实验表明,该算法在无监督给出类数方面具有较好的鲁棒性;另外,该算法在数据的准确归类、无监督聚类、确定性,以及对特殊类分布的适用性等方面均优于HCM和FCM算法,  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号