首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
核向量机可以高效学习大样本数据集,却有泛化能力低的缺陷.针对已有参数C选择算法缺乏启发性以及选取困难的不足,本文在分析了核聚类算法和距离比较算法的基础之上,提出基于核聚类的相对距离比较方法,该算法利用核聚类算法在特征空间对样本点进行聚类分簇,然后根据样本点到簇心相对距离的比值,得到参数C.本文在理论和实验两个方面,证明该算法有效地选择参数C,从而提高核支持向量机算法的泛化能力.  相似文献   

2.
樊仲欣  王兴  苗春生 《计算机应用》2019,39(4):1027-1031
为解决利用层次方法的平衡迭代规约和聚类(BIRCH)算法聚类结果依赖于数据对象的添加顺序,且对非球状的簇聚类效果不好以及受簇直径阈值的限制每个簇只能包含数量相近的数据对象的问题,提出一种改进的BIRCH算法。该算法用描述数据对象个体间连通性的连通距离和连通强度阈值替代簇直径阈值,还将簇合并的步骤加入到聚类特征树的生成过程中。在自定义及iris、wine、pendigits数据集上的实验结果表明,该算法比多阈值BIRCH、密度改进BIRCH等现有改进算法的聚类准确率更高,尤其在大数据集上比密度改进BIRCH准确率提高6个百分点,耗时降低61%。说明该算法能够适用于在线实时增量数据,可以识别非球形簇和体积不均匀簇,具有去噪功能,且时间和空间复杂度明显降低。  相似文献   

3.
阈值优化的文本密度聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果影响的问题,提高了聚类精确度和时间效率。采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。  相似文献   

4.
董晓君  程春玲 《计算机科学》2018,45(11):244-248
快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新的基于密度的聚类算法,它通过发现密度峰值来有效地识别类簇中心,具有聚类速度快、实现简单等优点。针对CFSFDP算法的准确性依赖于数据集的密度估计和截断距离(dc)的人为选择问题,提出一种基于核密度估计的K-CFSFDP算法。该算法利用无参的核密度估计分析数据点的分布特征并自适应地选取dc,从而搜索和发现数据点的密度峰值,并以峰值点数据作为初始聚类中心。基于4个典型数据集的仿真结果表明,K-CFSFDP算法比CFSFDP,K-means和DBSCAN算法具有更高的准确度和更强的鲁棒性。  相似文献   

5.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

6.
李斌  狄岚  王少华  于晓瞳 《计算机应用》2016,36(7):1981-1987
传统的核聚类仅考虑了类内元素的关系而忽略了类间的关系,对边界模糊或边界存在噪声点的数据集进行聚类分析时,会造成边界点的误分问题。为解决上述问题,在核模糊C均值(KFCM)聚类算法的基础上提出了一种基于改进核模糊C均值类间极大化聚类(MKFCM)算法。该算法考虑了类内元素和类间元素的联系,引入了高维特征空间的类间极大惩罚项和调控因子,拉大类中心间的距离,使得边界处的样本得到了较好的划分。在各模拟数据集的实验中,该算法在类中心的偏移距离相对其他算法均有明显降低。在人造高斯数据集的实验中,该算法的精度(ACC)、归一化互信息(NMI)、芮氏指标(RI)指标分别提升至0.9132,0.7575,0.9138。  相似文献   

7.
基于高斯分布的簇间距离计算方法   总被引:2,自引:0,他引:2  
凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。  相似文献   

8.
通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法。随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函数作为测量向量之间距离的方法,提高聚类的准确性。基于此改进的k-means算法,使用在不同网站上采集的文章作为数据源,并利用TF-IDF以及Word2Vec技术对文本进行向量化处理,进而完成对文本的聚类任务。与传统的k-means文本聚类相比,不仅提高了聚类的准确性,而且改善了传统k-means算法结果可能会出现空簇的缺陷。  相似文献   

9.
针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。  相似文献   

10.
陈利跃  杭钟灵  余亮  黄剑  何星 《控制工程》2015,22(2):360-364
通过对电力远动监测系统和数据挖掘技术的讨论,提出一种基于马氏距离的双层聚类异常检测算法。针对远动系统数据非球面分布的特点,该算法通过K-means聚类改进算法对数据进行初始分类,然后使用基于马氏距离的Clustering Using Representatives(CURE)聚类改进算法对初始分类结果进行优化,以较少的计算成本去除K值设定的影响,达到预期的检测结果。同时,基于马氏距离的CURE聚类改进算法对球面和非球面分布的数据有非常好的适应能力。  相似文献   

11.
In the above paper by Mao-Jain (ibid., vol.7 (1996)), the Mahalanobis distance is used instead of Euclidean distance as the distance measure in order to acquire the hyperellipsoidal clustering. We prove that the clustering cost function is a constant under this condition, so hyperellipsoidal clustering cannot be realized. We also explains why the clustering algorithm developed in the above paper can get some good hyperellipsoidal clustering results. In reply, Mao-Jain state that the Wang-Xia failed to point out that their HEC clustering algorithm used a regularized Mahalanobis distance instead of the standard Mahalanobis distance. It is the regularized Mahalanobis distance which plays an important role in realizing hyperellipsoidal clusters. In conclusion, the comments made by Wang-Xia together with this response provide some new insights into the behavior of their HEC clustering algorithm. It further confirms that the HEC algorithm is a useful tool for understanding the structure of multidimensional data.  相似文献   

12.
提出一种新的鲁棒核模糊C-均值聚类算法.将连通核与AFCM(Alternative fuzzy C-means)聚类算法相结合,给出基于连通核的核AFCM:CRKFCM(Connectivity kernel based robust fuzzy C-means).CRKFCM一方面有效地利用了连通核,可以对任意形状数据聚类,且避免了核参数的选取问题;另一方面在特征空间使用非欧氏距离,可以有效地处理含噪声数据的聚类问题.实验结果表明,与原有的AFCM和连通核硬C-均值(CKHCM,Connectivity kernel based hard C-means)聚类算法相比,新算法在处理噪声环境中的任意形状聚类问题方面更有效.  相似文献   

13.
徐鲲鹏  陈黎飞  孙浩军  王备战 《软件学报》2020,31(11):3492-3505
现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量.  相似文献   

14.
A self-organizing network for hyperellipsoidal clustering (HEC)   总被引:3,自引:0,他引:3  
We propose a self-organizing network for hyperellipsoidal clustering (HEC). It consists of two layers. The first employs a number of principal component analysis subnetworks to estimate the hyperellipsoidal shapes of currently formed clusters. The second performs competitive learning using the cluster shape information from the first. The network performs partitional clustering using the proposed regularized Mahalanobis distance, which was designed to deal with the problems in estimating the Mahalanobis distance when the number of patterns in a cluster is less than or not considerably larger than the dimensionality of the feature space during clustering. This distance also achieves a tradeoff between hyperspherical and hyperellipsoidal cluster shapes so as to prevent the HEC network from producing unusually large or small clusters. The significance level of the Kolmogorov-Smirnov test on the distribution of the Mahalanobis distances of patterns in a cluster to the cluster center under the Gaussian cluster assumption is used as a compactness measure. The HEC network has been tested on a number of artificial data sets and real data sets, We also apply the HEC network to texture segmentation problems. Experiments show that the HEC network leads to a significant improvement in the clustering results over the K-means algorithm with Euclidean distance. Our results on real data sets also indicate that hyperellipsoidal shaped clusters are often encountered in practice.  相似文献   

15.
针对模糊聚类算法邻域信息与空间信息利用率低易受噪声影响的问题,提出一种结合核函数与马氏距离的FCM算法,即FCMKM算法。首先,将图像像素点由低维空间通过核函数非线性映射到高维空间;然后,利用马氏距离替换原有的欧氏距离作为高维空间距离量度;最后,利用改进后的算法对图像进行分割。为验证FCMKM算法的性能,选取Bezdek划分系数、Xie-Beni系数、重构错误率、运行时间、迭代次数五个评测指标作为对比实验的评价标准。实验结果表明,与传统FCM算法、基于核函数的FCM算法、基于马氏距离的FCM算法相比,FCMKM算法能有效地提高模糊聚类算法的抗噪性。  相似文献   

16.
核聚类算法   总被引:112,自引:0,他引:112  
该文提出了一种用于聚类分析的核聚类方法,通过利用Mercer核,作者把输入空间的样本映射到高维特征空间后,在特征空间中进行聚类,由于经过了核函数的映射,使原来没有显现的特征突出来,从而能够更好地聚类,该核聚类方法在性能上比以典的聚类算法有较大的改进,具有更快的收敛速度以及更为准确的聚类,仿真实验的结果证实了核聚类方法的可行性和有效性。  相似文献   

17.
离群模糊核聚类算法   总被引:30,自引:2,他引:30       下载免费PDF全文
沈红斌  王士同  吴小俊 《软件学报》2004,15(7):1021-1029
一般说来,离群点是远离其他数据点的数据,但很可能包含着极其重要的信息.提出了一种新的离群模糊核聚类算法来发现样本集中的离群点.通过Mercer核把原来的数据空间映射到特征空间,并为特征空间的每个向量分配一个动态权值,在经典的FCM模糊聚类算法的基础上得到了一个特征空间内的全新的聚类目标函数,通过对目标函数的优化,最终得到了各个数据的权值,根据权值的大小标识出样本集中的离群点.仿真实验的结果表明了该离群模糊核聚类算法的可行性和有效性.  相似文献   

18.
《Pattern recognition letters》1999,20(11-13):1141-1147
This paper introduces a new learning algorithm for on-line ellipsoidal clustering. The algorithm is based on the competitive clustering scheme extended by two specific features. Elliptical clustering is accomplished by efficiently incorporating the Mahalanobis distance measure into the learning rules, and underutilization of smaller clusters is avoided by incorporating a frequency-sensitive term. Experiments are conducted to demonstrate the usefulness of the algorithm on artificial data-sets as well as on the problem of texture segmentation.  相似文献   

19.
基于Seed集的半监督核聚类   总被引:2,自引:1,他引:1       下载免费PDF全文
提出了一种新的半监督核聚类算法——SKK-均值算法。算法利用一定数量的标记样本构成seed集,作为监督信息来初始化K-均值算法的聚类中心,引导聚类过程并约束数据划分;同时还采用了核方法把输入数据映射到高维特征空间,并用核函数来实现样本之间的距离计算。在UCI数据集上进行了数值实验,并与K-均值算法和核-K-均值算法进行了比较。  相似文献   

20.
Approaches to distance metric learning (DML) for Mahalanobis distance metric involve estimating a parametric matrix that is associated with a linear transformation. For complex pattern analysis tasks, it is necessary to consider the approaches to DML that involve estimating a parametric matrix that is associated with a nonlinear transformation. One such approach involves performing the DML of Mahalanobis distance in the feature space of a Mercer kernel. In this approach, the problem of estimation of a parametric matrix of Mahalanobis distance is formulated as a problem of learning an optimal kernel gram matrix from the kernel gram matrix of a base kernel by minimizing the logdet divergence between the kernel gram matrices. We propose to use the optimal kernel gram matrices learnt from the kernel gram matrix of the base kernels in pattern analysis tasks such as clustering, multi-class pattern classification and nonlinear principal component analysis. We consider the commonly used kernels such as linear kernel, polynomial kernel, radial basis function kernel and exponential kernel as well as hyper-ellipsoidal kernels as the base kernels for optimal kernel learning. We study the performance of the DML-based class-specific kernels for multi-class pattern classification using support vector machines. Results of our experimental studies on benchmark datasets demonstrate the effectiveness of the DML-based kernels for different pattern analysis tasks.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号