首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
聚类是一门非常重要的技术.所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之间的相似程度即做到"物以类聚".半监督聚类算法研究无监督学习中如何利用少量的监督信息来提高聚类性能,目前正得到不断应用.针对前人提出的半监督模糊聚类,本文为了验证该种半监督学习方法是否可以用于其它聚类算法,对极大熵算法进行了改进,将半监督距离学习引入极大熵聚类,生成半监督极大熵聚类算法,并通过实验证明极大熵聚类算法通过半监督方法改进之后确实有效.  相似文献   

2.
传统的有监督度量学习算法没有利用大量存在的无标记样本,且得到的度量矩阵复杂,难以了解不同原始特征的重要程度。针对这些情况,提出基于半监督假设的半监督稀疏度量学习算法。根据三样本组约束建立间隔损失函数;基于平滑假设、聚类假设、流形假设这三个半监督假设建立半监督正则项,并利用L_1范数建立稀疏正则项;利用梯度下降法求解目标函数。实验结果表明,该算法学习得到的度量能有效地使不同类别的样本间距离增大,度量矩阵具有稀疏性,分界面穿过低密度区域,该算法在UCI的样本数据集上具有良好的分类准确性。  相似文献   

3.
牛科  张小琴  贾郭军 《计算机工程》2015,41(1):207-210,244
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。  相似文献   

4.
局部线性嵌入算法LLE(Locally Linear Embedding)是一种有效的非线性降维方法,但是该算法没有考虑样本的类别标签,并且欧式距离无法精确表示非线性数据的流形结构。针对以上LLE方法的缺陷,提出一种结合测地距离与样本类别信息的监督型LLE算法(ISO-SPLLE)。首先在LLE算法的近邻选择中使用测地距离作为相似性度量,然后利用极限学习机求出其映射函数后进行分类测试。将ISO-SPLLE算法与其他改进的LLE算法在UIC标准数据集与基因数据集上进行对比实验,结果表明,该方法对已知类别的数据能更有效地进行降维与识别。  相似文献   

5.
基于流形距离的人工免疫半监督聚类算法   总被引:1,自引:1,他引:0  
将流形距离作为样本间相似性的基本度量测度,加入成对约束信息,通过近部传播得出新的度量矩阵。把聚 类问题转化为一优化数学模型。采用克隆选择算法求解这个优化模型,得出最后的聚类结果,通过人工数据集和UCI 标准数据集验证了这种方法具有较高的准确性。  相似文献   

6.
针对行人再识别中相似性度量误差引起的识别效果较差的问题,提出多置信度重排序的行人再识别算法,通过对再排序过程中测试样本的置信度进行评估,提高行人再识别的准确性.首先对目标样本及测试样本依据深度学习网络ResNet50获得描述特征.然后对目标样本与测试样本之间的相似性进行初始排序,对相似排序得到的样本构建相似样本集合,获得每个类别的聚类中心和样本距离聚类中心的最小、最大、均值距离,设置3个置信度不同的置信区间.最后使用Jaccard距离对目标样本与测试样本的相似度进行重排序.在标准测试数据集上的实验表明文中算法的有效性.  相似文献   

7.
基于分类权与质心驱动的无监督学习算法   总被引:1,自引:0,他引:1  
为了充分挖掘隐藏在样本向量中的空间信息和知识信息: 用聚类点代替类均值, 把提取指标对聚类所做贡献的量化值定义为指标分类权; 用分类权定义样本点与聚类点的加权距离, 使之作为样本与类之间的相似性度量更具合理性, 即将加权距离转化为样本隶属度. 为了消除序贯算法产生的随机性, 用样本的K类隶属度作为点质量的样本质点组的质心, 修正当前的K类聚类点, 由此建立基于分类权和质心驱动的搜索聚类点的迭代算法. IRIS数据检验结果表明, 新算法的聚类效果与稳定性都优于已有的无监督学习方法.  相似文献   

8.
分类问题的一种流形学习算法   总被引:1,自引:0,他引:1  
提出了一种分类问题的流形学习算法.利用LLE算法的思想寻找样本的内在流形分布,并通过比较未知样本与正样本流形及负样本流形之间的距离来判定该样本的类别.实验显示,本文提出的流形学习算法的分类效果与SVM、Boosting等当前流行的机器学习算法相当.与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为分类问题的机器学习提供了一条新的途径.  相似文献   

9.
复杂分布数据的二阶段聚类算法   总被引:4,自引:0,他引:4  
公茂果  王爽  马萌  曹宇  焦李成  马文萍 《软件学报》2011,22(11):2760-2772
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少.  相似文献   

10.
为了解决流形学习不能充分利用样本类别信息的问题,提出了一种基于划分的有监督局部切空间排列算法,并将其应用于人脸识别。新算法采用基于动态粒子群算法的有监督的K-均值聚类算法确定样本的聚类中心,将样本划分为有重叠的块。新算法在利用数据类别信息的同时保持了流形的局部几何结构,提高了流形学习对图像的识别能力,能更好的适用于人脸识别。通过在ORL数据库上与其他流形方法比较,验证了新算法的有效性。  相似文献   

11.
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。  相似文献   

12.
为了解决谱聚类方法中大规模的相似性矩阵的存储和特征分解困难的问题,利用权核K-均值算法的目标函数和图谱划分准则的等价性,将图谱划分准则作为免疫克隆选择优化算法的亲和度函数,提出一种利用免疫克隆选择优化算法求解图谱划分问题的新方法——免疫克隆选择图划分方法。该方法在免疫克隆选择操作的过程中引入了一个个体修正算子,使得个体以更快的速度向更优的个体进化。此外,在新方法中还引入了流形距离测度来构造相似性矩阵,使得新算法可以有效处理具有复杂结构的数据。采用人工数据集、USPS手写体数字识别和UMIST人脸识别的仿真实验验证了新方法的有效性和鲁棒性。  相似文献   

13.
When gene expression datasets contain some labeled data samples, the labeled information should be incorporated into clustering algorithm such that more reasonable clustering results can be achieved. In this paper, a novel semi-supervised clustering algorithm, Semi-supervised Iterative Visual Clustering Algorithm (Semi-IVCA), is presented to tackle with such datasets. The new algorithm first constructs the visual sampling image of the dataset based on visual theorem and obtains its attractors using the gradient learning rules, where each attractor denotes a cluster of the dataset. Then the new algorithm introduces an iterative clustering procedure to realize the semi-supervised learning. The new algorithm is a generalization of the current Visual Clustering Algorithm (VCA) presented by authors. Except for the advantage that Semi-IVCA can effectively utilize the labeled data information in clustering, it is robust and insensitive to initialization, and it has strong parameter learning capability and good interpretation for the clustering results. When the new algorithm Semi-IVCA is applied to the artificial and real gene expression datasets, the experimental results confirm the above advantages of algorithm Semi-IVCA.  相似文献   

14.
K-means type clustering algorithms for mixed data that consists of numeric and categorical attributes suffer from cluster center initialization problem. The final clustering results depend upon the initial cluster centers. Random cluster center initialization is a popular initialization technique. However, clustering results are not consistent with different cluster center initializations. K-Harmonic means clustering algorithm tries to overcome this problem for pure numeric data. In this paper, we extend the K-Harmonic means clustering algorithm for mixed datasets. We propose a definition for a cluster center and a distance measure. These cluster centers and the distance measure are used with the cost function of K-Harmonic means clustering algorithm in the proposed algorithm. Experiments were carried out with pure categorical datasets and mixed datasets. Results suggest that the proposed clustering algorithm is quite insensitive to the cluster center initialization problem. Comparative studies with other clustering algorithms show that the proposed algorithm produce better clustering results.  相似文献   

15.
Currently cluster analysis techniques are used mainly to aggregate objects into groups according to similarity measures. Whether the number of groups is pre-defined (supervised clustering) or not (unsupervised clustering), clustering techniques do not provide decision rules or a decision tree for the associations that are implemented. The current study proposes and evaluates a new technique to define decision tree based on cluster analysis. The proposed model was applied and tested on two large datasets of real life HR classification problems. The results of the model were compared to results obtained by conventional decision trees. It was found that the decision rules obtained by the model are at least as good as those obtained by conventional decision trees. In some cases the model yields better results than decision trees. In addition, a new measure is developed to help fine-tune the clustering model to achieve better and more accurate results.  相似文献   

16.
多聚类中心近邻传播聚类算法(MEAP),在处理任意形状具有流形分布结构的数据时,往往得不到理想的聚类结果。为此,基于流形学习的思想,设计了一种全新的相似性度量,该相似性度量能够扩大位于同一流形中数据点间的相似性,同时缩小处于不同流形上数据点间的相似性,从而使得相似性矩阵能够准确地反映数据集内在的流形分布结构。将该相似性度量与MEAP相结合,提出基于流形结构的多聚类中心近邻传播聚类算法MS-MEAP(Manifold Structure based Multi-Exemplar Affinity Propagation),从而有效地拓展了算法处理任意形状具有流形分布结构数据集的能力,同时提高了算法的运行效率。在人工数据集与USPS手写体数据集上进行了实验,仿真实验结果及算法有效性分析证明,MS-MEAP算法相比于原算法在处理任意形状具有流形分布结构的数据时,具有更好的聚类性能。  相似文献   

17.
Optimal approximation of linear sys-tems by artificial immune response   总被引:15,自引:0,他引:15  
1 Introduction Optimal approximation of linear system models is an important task in the simulation and controller design for complex dynamic systems[1]. In the attempts at solving the model approximation problem, numerous methods have been proposed[2―7]…  相似文献   

18.
Dynamic Time Warping (DTW) is a popular and efficient distance measure used in classification and clustering algorithms applied to time series data. By computing the DTW distance not on raw data but on the time series of the (first, discrete) derivative of the data, we obtain the so-called Derivative Dynamic Time Warping (DDTW) distance measure. DDTW, used alone, is usually inefficient, but there exist datasets on which DDTW gives good results, sometimes much better than DTW. To improve the performance of the two distance measures, we can combine them into a new single (parametric) distance function. The literature contains examples of the combining of DTW and DDTW in algorithms for supervised classification of time series data. In this paper, we demonstrate that combination of DTW and DDTW can also be applied in a method of time series clustering (unsupervised classification). In particular, we focus on a hierarchical clustering (with average linkage) of univariate (one-dimensional) time series data. We construct a new parametric distance function, combining DTW and DDTW, where a single real number parameter controls the contribution of each of the two measures to the total value of the combined distances. The parameter is tuned in the initial phase of the clustering algorithm. Using this technique in clustering methods requires a different approach (to address certain specific problems) than for supervised methods. In the clustering process we use three internal cluster validation measures (measures which do not use labels) and three external cluster validation measures (measures which do use clustering data labels). Internal measures are used to select an optimal value of the parameter of the algorithm, where external measures give information about the overall performance of the new method and enable comparison with other distance functions. Computational experiments are performed on a large real-world data base (UCR Time Series Classification Archive: 84 datasets) from a very broad range of fields, including medicine, finance, multimedia and engineering. The experimental results demonstrate the effectiveness of the proposed approach for hierarchical clustering of time series data. The method with the new parametric distance function outperforms DTW (and DDTW) on the data base used. The results are confirmed by graphical and statistical comparison.  相似文献   

19.
传统根据[K]-近邻图计算测地距离的方法,虽然能够发现流形分布数据间的相似关系,但是当不同类的点存在粘连关系时,依此计算相似度时不能体现样本间的真实关系,从而无法有效聚类。针对传统测地距离计算相似度的方法不能有效处理粘连数据集的问题,提出了基于局部密度和测地距离的谱聚类方法。计算样本的局部密度,寻找每个样本点的最近高密度点,并选择边缘点和非边缘点;在边缘点和其最近高密度点之间构造边、非边缘点之间的[K]个近邻点构造边,依此计算测地距离和相似度并进行聚类。在人工数据集和UCI数据集上的实验表明,该算法在处理粘连数据集时有效提高了聚类准确率。  相似文献   

20.
针对非线性数据流形的线性结构挖掘问题,提出一种基于Grassmann 流形和蚁群方法的聚类算法.为抑制噪声对线性结构探测的影响, 对含噪数据集进行算法处理最小单元提升,利用Grassmann 流形定义提升后单元间相似度,同时设计了一种类测地距离作为簇连通性约束. 为提高蚁群解的线性结构挖掘质量,提出了曲面复杂度最小方向定义,并将其作为信息素更新的启发信息引入. 在多个数据集上的实验和分析表明,与K-means、Geodesic K-means 以及有限混合模型(Finite mixture model, FMM) 等传统算法相比,本文算法具备挖掘非线性流形上线性结构的新特性,并且能够保证线性结构内部的连通性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号