对肺结节的分类识别是肺部肿瘤计算机辅助诊断系统的关键环节。为了提高肺结 节分类识别的准确率,针对肺结节的病变特征提取出一组以形状特征为主的特征向量,同时基 于LIDC 数据库中医生提供的标记信息,提出一种改进的半监督FCM 聚类分析算法,利用部分 标记样本的类别信息来指导聚类过程,使非标记样本更准确的聚类。实验结果表明,本文方法 能得到更高的分类准确率。  相似文献   

部分监督加权模糊C-均值算法的聚类分析   总被引:5,自引:0,他引:5  
模糊C-均值(FCM)算法具有对样本集进行等划分趋势的缺陷,对于团状、每类样本数相差较大的数据集,FCM算法的最优解可能不是数据集的正确划分,基于以上原因,以少量的先验知识作为部分监督信息,再利用样本点分布密度大小作为权值,提出了一种新的部分监督加权模糊C-均值(PSWFCM)算法,并且该算法的加权系数的计算和点密度范围限定值的选取都具有客观性。仿真结果证明,PSWFCM算法不仅在一定程度上克服了FCM算法的缺陷,而且具有良好的收敛性和鲁棒性,聚类效果也有较好的改善。  相似文献   

具有部分监督的遥感影像模糊聚类方法研究及应用   总被引:7,自引:0,他引:7       下载免费PDF全文
遥感信息主要反映的是地球表层信息。由于地球表层系统的复杂性和开放性,地表信息是多维的、无限的,遥感信息传递过程中的局限性以及遥感信息之间的复杂相关性,决定了遥感信息其结果的不确定性和多解性。模糊分类是遥感影像分类研究的重要趋势。在Fuzzy-ISODATA 方法的基础上,探讨如何在样本数据集中融合部分知识和随机样本,通过聚类分析获得目标类别的模糊隶属度矩阵和特征空间的特征模式的方法。提出了基于该方法的遥感影像模糊分类模型  相似文献   

为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。  相似文献   

基于单簇聚类的数据描述   总被引:3,自引:0,他引:3  
陈斌  冯爱民  陈松灿  李斌 《计算机学报》2007,30(8):1325-1332
文中提出了一种基于单簇可能性C-均值聚类(Possibilistjc C-Means,PCM)的数据描述方法并用于单分类.训练时,其首先进行P1M(PCM,C值取1)聚类,得到所有训练样本对目标类的隶属度;然后设置隶属度阈值,形成相应的数据描述进行单分类.分类时,计算新样本对目标类的隶属度,若其隶属度小于该阈值则判为异常,否则为正常.该方法和当前流行的支持向量域数据描述方法以及Parzen方法窗具有类似的参数配置和相当的分类性能,由此提供了另一种单分类学习算法.值得指出的是,尽管是PCM的一个特例,但P1M拥有PCM一般不具备的全局最优特性,而该特性对解决实际问题十分重要.  相似文献   

The paper is concerned with methods of fuzzy clustering based minimization of a scalar performance index with the aid of some labelled patterns. Some modifications of the performance index that take into account the results of partial supervision are proposed. The results of the algorithms introduced are exemplified by the use of numerical examples (Gustafson's cross and EKG data set).  相似文献   

Recently, a massive quantity of data is being produced from a distinct number of sources and the size of the daily created on the Internet has crossed two Exabytes. At the same time, clustering is one of the efficient techniques for mining big data to extract the useful and hidden patterns that exist in it. Density-based clustering techniques have gained significant attention owing to the fact that it helps to effectively recognize complex patterns in spatial dataset. Big data clustering is a trivial process owing to the increasing quantity of data which can be solved by the use of Map Reduce tool. With this motivation, this paper presents an efficient Map Reduce based hybrid density based clustering and classification algorithm for big data analytics (MR-HDBCC). The proposed MR-HDBCC technique is executed on Map Reduce tool for handling the big data. In addition, the MR-HDBCC technique involves three distinct processes namely pre-processing, clustering, and classification. The proposed model utilizes the Density-Based Spatial Clustering of Applications with Noise (DBSCAN) technique which is capable of detecting random shapes and diverse clusters with noisy data. For improving the performance of the DBSCAN technique, a hybrid model using cockroach swarm optimization (CSO) algorithm is developed for the exploration of the search space and determine the optimal parameters for density based clustering. Finally, bidirectional gated recurrent neural network (BGRNN) is employed for the classification of big data. The experimental validation of the proposed MR-HDBCC technique takes place using the benchmark dataset and the simulation outcomes demonstrate the promising performance of the proposed model interms of different measures.  相似文献   

区别于传统的聚类方法,提出了以类为起点,通过构造闭包进行聚类的新方法,并建立了聚类判别模型,此模型给出了对于闭包间的交叉区域的检验点的判别准则。然后针对二维的聚类问题,提出了以最小圆为闭包的聚类判别模型,并对乳房肿瘤病例进行数值实验。对于乳房肿瘤病例,首先进行了指标选取、数据预处理,然后以最小圆为闭包建立了模型,最后对69个待检测数据进行检验,结果误判率为4.35%。  相似文献   

This paper is concerned with the organization and retrieval of reusable software components with the aid of unsupervised learning. The methods considered of unsupervised learning include FUZZY ISODATA and Kohonen self-organizing maps. The key issues addressed in the study include information retrieval in the presence of incomplete information, and domain specific enhancements of unsupervised learning, including those of partial supervision. The primary intention is to reveal how the learning mechanism can accommodate individual preferences (profile) of the users viewed as a significant component of organization and retrieval algorithms. Numerical examples use a set of MS-DOS system commands and a collection of reusable C++ classes. © 1997 by John Wiley & Sons, Ltd.  相似文献   

在一些回归分析问题中,数据来自于空间对象的非空间属性.许多问题中不用考虑空间属性,而直接分析非空间属性.如果在整个问题空间中,对象空间差异较大,需要将空间对象划分为若干子空间,子空间对应的局域回归模型,可以减小空间差异性的影响.针对子空间连通性约束情况下空间对象的局域回归分析问题,提出基于最小拟合误差平方和准则的空间划分方法,从一个空间的初始划分开始,按照拟合误差平方和下降的原则调整子空间边界,获得新的空间划分和对应的回归模型,不断迭代直到准则函数收敛.  相似文献   

基于一趟聚类的不平衡数据下抽样算法   总被引:1,自引:0,他引:1  
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.  相似文献   

Clustering time series is a problem that has applications in a wide variety of fields, and has recently attracted a large amount of research. Time series data are often large and may contain outliers. We show that the simple procedure of clipping the time series (discretising to above or below the median) reduces memory requirements and significantly speeds up clustering without decreasing clustering accuracy. We also demonstrate that clipping increases clustering accuracy when there are outliers in the data, thus serving as a means of outlier detection and a method of identifying model misspecification. We consider simulated data from polynomial, autoregressive moving average and hidden Markov models and show that the estimated parameters of the clipped data used in clustering tend, asymptotically, to those of the unclipped data. We also demonstrate experimentally that, if the series are long enough, the accuracy on clipped data is not significantly less than the accuracy on unclipped data, and if the series contain outliers then clipping results in significantly better clusterings. We then illustrate how using clipped series can be of practical benefit in detecting model misspecification and outliers on two real world data sets: an electricity generation bid data set and an ECG data set.  相似文献   

不平衡数据集的应用领域日益广泛,需求也越来越高,为提升整体数据集的分类准确率,以谱聚类欠取样为前提条件,构建一种自编码网络不平衡数据挖掘方法.把聚类问题转换成无向图多路径划分问题,通过无向图与标准化处理完成谱聚类,经过有选择地欠取样处理多数类数据集,获取分类边界偏移量,利用学习过程是无监督学习的自编码网络,升、降维数据,获取各维度隐藏特征,实现各层面的数据高效表示学习,根据最大均值差异与预设阈值的对比结果,调整自编码网络,基于得到的分类界面,完成不平衡数据挖掘.选用具有不同实际应用背景的UCI数据集,从中抽取10组数据作为测试集,经谱聚类欠取样处理与模拟实验,发现所提方法大幅提升少数类分类精度与整体挖掘性能,具有较好的适用性与可行性.  相似文献   

应用分类方法进行聚类评价*   总被引:1,自引:1,他引:0  
针对现有基于几何结构的聚类有效性指标不能有效解决不同结构数据的聚类结果评价问题,提出了一种使用分类对聚类结果进行评价的方法。该方法把聚类得到的对象类标志作为分类问题的已知类标志,使用交叉验证法对数据集重新分类,通过对比聚类结果与分类结果之间的差异来衡量聚类有效性。一个易于聚类的数据集的结构意味着也容易进行分类,对模拟数据和真实数据的实验和分析验证了该方法的可行性和有效性。  相似文献   

行政监督量化考核指标虽然实施数年,对这些指标量之间的关系和作用的分析却很少涉及,为了提高行政监督考核量化指标的设置,分析指标间的相互关系,利用行政监督管信息管理系统的数据,应用主成分分析方法对不同业务的量化分级管理数据进行处理,依照不同的贡献率从数据中提炼出主信息,可去掉变量之间的多重相关性,简化考核指标项,指导优化行政监督过程,提高效率、降低成本。  相似文献   

提出了一种利用类关联词和K-Means聚类算法实现对文本文档进行分类的方法。类关联词是与类主题相关、能反映类主题的单词或短语。根据文档中包含的类关联词,形成初始聚类中心。在聚类算法过程中,类关联词提供的信息被用来约束待分类文档与聚类中心的相似度比较,加快了算法的执行。实验证明了算法的有效性。  相似文献   

由于客观世界的复杂性,信息缺失、不确定信息是普遍存在的,因此数据库也不可避免地存在信息缺失的问题,本文主要针对数据库中空值缺失问题进行研究和改进。该文采用模糊聚类算法,使用MATLAB编程求解模糊相似矩阵和模糊等价矩阵,对原始数据分簇。然后根据包含空值的元组的其它属性将其划归到最相似的簇中,最后再用线性回归法对空值进行估计。  相似文献   

Traditional semi‐supervised clustering uses only limited user supervision in the form of instance seeds for clusters and pairwise instance constraints to aid unsupervised clustering. However, user supervision can also be provided in alternative forms for document clustering, such as labeling a feature by indicating whether it discriminates among clusters. This article thus fills this void by enhancing traditional semi‐supervised clustering with feature supervision, which asks the user to label discriminating features during defining (labeling) the instance seeds or pairwise instance constraints. Various types of semi‐supervised clustering algorithms were explored with feature supervision. Our experimental results on several real‐world data sets demonstrate that augmenting the instance‐level supervision with feature‐level supervision can significantly improve document clustering performance.  相似文献   

数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

数据挖掘过程中的模糊聚类方法   总被引:6,自引:0,他引:6  
在研究数据挖掘过程中常见的数据聚类方法的基础上,在数据挖掘中引入了模糊聚类分析的方法,分析了该方法在数据挖掘过程中的特性,讨论了其在大型数据库中的应用方法。  相似文献   

