首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
马福民  孙静勇  张腾飞 《控制与决策》2022,37(11):2968-2976
在原有数据聚类结果的基础上,如何对新增数据进行归属度量分析是提高增量式聚类质量的关键,现有增量式聚类算法更多地是考虑新增数据的位置分布,忽略其邻域数据点的归属信息.在粗糙K-means聚类算法的基础上,针对边界区域新增数据点的不确定性信息处理,提出一种基于邻域归属信息的粗糙K-means增量式聚类算法.该算法综合考虑边界区域新增数据样本的位置分布及其邻域数据点的类簇归属信息,使得新增数据点与各类簇的归属度量更为合理;此外,在增量式聚类过程中,根据新增数据点所导致的类簇结构的变化,对类簇进行相应的合并或分裂操作,使类簇划分可以自适应调整.在人工数据集和UCI标准数据集上的对比实验结果验证了算法的有效性.  相似文献   

2.
针对K-medoids聚类算法对初始聚类中心敏感、聚类结果依赖于初始聚类中心的缺陷,提出一种局部方差优化的K-medoids聚类算法,以期使K-medoids的初始聚类中心分布在不同的样本密集区域,聚类结果尽可能地收敛到全局最优解.该算法引入局部方差的概念,根据样本所处位置的局部样本分布定义样本的局部方差,以样本局部标准差为邻域半径,选取局部方差最小且位于不同区域的样本作为K-medoids的初始中心,充分利用了方差所提供的样本分布信息.在规模大小不等的UCI数据集以及带有不同比例噪声的不同规模的人工模拟数据集上进行实验,并利用六种聚类算法性能测试指标进行测试,结果表明该算法具有聚类效果好、抗噪性能强的优点,而且适用于大规模数据集的聚类.提出的Num-近邻方差优化的K-medoids聚类算法优于快速K-me-doids聚类算法及基于邻域的改进K-medoids聚类算法.  相似文献   

3.
一种用于蛋白质结构聚类的聚类中心选择算法   总被引:1,自引:0,他引:1  
黄旭  吕强  钱培德 《自动化学报》2011,37(6):682-692
提出一种对蛋白质结构聚类中心进行选择的算法. 聚类是蛋白质结构预测过程中必不可少的一个后处理步骤, 而目前在蛋白质结构预测中常用的属性阈值(Quality threshold, QT)聚类算法依赖于由经验得出的聚类半径; 其他聚类算法, 如近邻传播(Affinity propagation, AP)聚类算法也存在影响聚类分布的参数. 为克服对主观经验参数的依赖,本文提出一种聚类中心选择算法(Exemplar selection algorithm, ESA), 用于对不同参数下的聚类结果进行分析,从而选择最佳聚类中心,进而确定聚类半径等经验参数. 该算法在真实蛋白质结构数据集上进行了实验,在未知经验参数情况下选择出最佳聚类中心, 同时也为不同聚类算法寻找适合相应数据集的客观聚类参数提供了支持.  相似文献   

4.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

5.
多尺度的谱聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种多尺度的谱聚类算法。与传统谱聚类算法不同,多尺度谱聚类算法用改进的k-means算法对未经规范的Laplacian矩阵的特征向量进行聚类。与传统k-means算法不同,改进的k-means算法提出一种新颖的划分数据点到聚类中心的方法,通过比较聚类中心与原点的距离和引入尺度参数来计算数据点与聚类中心的距离。实验表明,改进算法在人工数据集上取得令人满意的结果,在真实数据集上聚类结果较优。  相似文献   

6.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

7.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

8.
K均值聚类,对于非凸、稀疏及模糊的非线性可分数据,其聚类效果不佳.针对此问题,通过引入粒计算理论,采用邻域粒化技术,提出一种邻域粒K均值聚类方法.样本在单特征上使用邻域粒化技术构造邻域粒子,在多特征上使用邻域粒化技术形成邻域粒向量;通过定义邻域粒与邻域粒向量的大小、度量和运算规则,提出两种邻域粒距离度量,并对所提出的邻域粒距离度量进行公理化证明.采用多个UCI数据集进行实验,将K均值聚类算法分别结合两种邻域粒距离度量,在邻域参数和距离度量两个方面与经典聚类算法进行比较,结果验证了所提出的邻域粒K均值聚类方法的可行性和有效性.  相似文献   

9.
谱聚类算法中如何定义一个合适的尺度参数仍待学习。针对谱聚类算法中由高斯核函数建立的相似度矩阵对尺度参数敏感的问题,提出了一个新的基于加权密度的自适应谱聚类算法——WDSC。该算法将数据点的加权K近邻距离作为尺度参数,尺度参数的倒数作为数据点所在邻域的密度,引入新的密度差调整相似度矩阵;考虑了每个数据点的邻域分布,故对噪声有一定的鲁棒性,且对参数也不再敏感。在不同数据集上的实验以及对比实验均验证了该算法的有效性与鲁棒性。  相似文献   

10.
针对DBSCAN聚类算法不能对变密度分布数据集进行有效聚类,VDBSCAN算法借助k-dist图来自动获取各个密度层次的数据对象的邻域半径,解决了具有不同密度层次分布数据集的聚类问题. k-VDBSCAN算法通过对k值的自动获取,减小了VDBSCAN中参数k对最终聚类结果的影响. 针对k值的自动获取,在原有的k-VDBSCAN聚类算法基础上,依据数据集本身,利用数据对象间距离的特征,提出了一种k值改进自动获取聚类算法. 理论分析与实验结果表明,新的改进算法能够有效的自动获得参数k的值,并且在聚类结果、时间效率方面都有明显的提高.  相似文献   

11.
Suppressed fuzzy c-means clustering algorithm (S-FCM) is one of the most effective fuzzy clustering algorithms. Even if S-FCM has some advantages, some problems exist. First, it is unreasonable to compulsively modify the membership degree values for all the data points in each iteration step of S-FCM. Furthermore, duo to only utilizing the spatial information derived from the pixel’s neighborhood window to guide the process of image segmentation, S-FCM cannot obtain satisfactory segmentation results on images heavily corrupted by noise. This paper proposes an optimal-selection-based suppressed fuzzy c-means clustering algorithm with self-tuning non local spatial information for image segmentation to solve the above drawbacks of S-FCM. Firstly, an optimal-selection-based suppressed strategy is presented to modify the membership degree values for data points. In detail, during each iteration step, all the data points are ranked based on their biggest membership degree values, and then the membership degree values of the top r ranked data points are modified while the membership degree values of the other data points are not changed. In this paper, the parameter r is determined by the golden section method. Secondly, a novel gray level histogram is constructed by using the self-tuning non local spatial information for each pixel, and then fuzzy c-means clustering algorithm with the optimal-selection-based suppressed strategy is executed on this histogram. The self-tuning non local spatial information of a pixel is derived from the pixels with a similar neighborhood configuration to the given pixel and can preserve more information of the image than the spatial information derived from the pixel’s neighborhood window. This method is applied to Berkeley and other real images heavily contaminated by noise. The image segmentation experiments demonstrate the superiority of the proposed method over other fuzzy algorithms.  相似文献   

12.
APSCAN: A parameter free algorithm for clustering   总被引:1,自引:0,他引:1  
DBSCAN is a density based clustering algorithm and its effectiveness for spatial datasets has been demonstrated in the existing literature. However, there are two distinct drawbacks for DBSCAN: (i) the performances of clustering depend on two specified parameters. One is the maximum radius of a neighborhood and the other is the minimum number of the data points contained in such neighborhood. In fact these two specified parameters define a single density. Nevertheless, without enough prior knowledge, these two parameters are difficult to be determined; (ii) with these two parameters for a single density, DBSCAN does not perform well to datasets with varying densities. The above two issues bring some difficulties in applications. To address these two problems in a systematic way, in this paper we propose a novel parameter free clustering algorithm named as APSCAN. Firstly, we utilize the Affinity Propagation (AP) algorithm to detect local densities for a dataset and generate a normalized density list. Secondly, we combine the first pair of density parameters with any other pair of density parameters in the normalized density list as input parameters for a proposed DDBSCAN (Double-Density-Based SCAN) to produce a set of clustering results. In this way, we can obtain different clustering results with varying density parameters derived from the normalized density list. Thirdly, we develop an updated rule for the results obtained by implementing the DDBSCAN with different input parameters and then synthesize these clustering results into a final result. The proposed APSCAN has two advantages: first it does not need to predefine the two parameters as required in DBSCAN and second, it not only can cluster datasets with varying densities but also preserve the nonlinear data structure for such datasets.  相似文献   

13.
K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性。针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法。该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的计算。按照距离最近原则将孤立点分配到相应类中完成整个算法。实验结果表明,改进的K-means算法能提高聚类的准确率,减少迭代次数,得到更好的聚类结果。  相似文献   

14.
局部线性嵌入法(Locally Linear Embedding,LLE)是一种基于流形学习的非线性降维方法。针对LLE近邻点个数选取、样本点分布以及计算速度的问题,提出基于模糊聚类的改进LLE算法。算法根据聚类中心含有大量的信息这一特点,基于模糊聚类原理,采用改进的样本点距离计算方法,定义了近似重构系数,提高了LLE计算速度,改进了模糊近邻点个数的选取。实验结果表明,改进的算法有效地降低了近邻点个数对算法的影响,具有更好的降维效果和更高的计算速度。   相似文献   

15.
针对特征空间中存在潜在相关特征的规律,分别利用谱聚类探索特征间的相关性及邻域互信息以寻求最大相关特征子集,提出联合谱聚类与邻域互信息的特征选择算法.首先利用邻域互信息移除与标记不相干的特征.然后采用谱聚类将特征进行分簇,使同一簇组中的特征强相关而不同簇组中的特征强相异.继而基于邻域互信息从每一特征簇组中选择与类标记强相关而与本组特征低冗余的特征子集.最后将所有选中特征子集组成最终的特征选择结果.在2个基分类器下的实验表明,文中算法能以较少的合理特征获得较高的分类性能.  相似文献   

16.
传统的K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但计算复杂度较高,而且凝聚过程不可逆。结合网络舆情的特点,深入剖析了K-Means聚类算法和凝聚层次聚类算法的优缺点,对K-Means聚类算法进行改进。改进后算法的核心思想是,结合两种算法分别在初始点选择和聚类过程两个方面的优势,进行整合优化。通过实验分析及实际应用表明,改进后的文本聚类算法在很大程度上可以提高网络舆情信息聚类结果的准确性、有效性以及算法的效率。  相似文献   

17.
针对模糊C均值(FCM)聚类算法没有考虑样本不同属性的重要程度、邻域信息等问题,提出一种基于熵与邻域约束的FCM算法。首先通过计算样本各属性的熵值来为各属性赋予权重,结合属性权重改进距离度量函数;随后根据邻域样本与中心样本间的距离计算邻域隶属度权重,加权得到邻域隶属度,利用邻域隶属度约束目标函数,修正隶属度迭代过程,最终达到提升FCM聚类算法性能的目的。理论分析和在人造数据集、多个UCI数据集的试验结果表明,改进后的算法在聚类效果、鲁棒性上均优于传统FCM算法、PCM算法、KFCM算法、KPCM算法和DSFCM算法,表明了本文算法的有效性。  相似文献   

18.
针对现存的基于自适应邻域的多视图聚类算法没有考虑噪声和共识图信息损失的问题,提出一种基于自适应邻域的鲁棒多视图聚类(RMVGC)算法。首先,为了避免噪声和异常值对数据的影响,通过鲁棒主成分分析模型(RPCA)从原始数据中学习多个干净的低秩数据;其次,用自适应邻域学习直接融合多个干净的低秩数据来得到一个干净的共识关系图,从而减少图融合过程中的信息丢失。实验结果表明,所提RMVGC算法的标准化互信息(NMI)在MRSCV1、BBCSport、COIL20、ORL和UCI digits数据集上比目前流行的多视图聚类算法分别提升了5.2、1.36、27.2、4.66和5.85个百分点。同时,该算法保持了数据局部结构,增强了对原始数据的鲁棒性,提高了关系图质量,在多视图数据集上具有较好的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号