首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
为提升谱聚类的聚类精度和适用性,提出了一种基于Fréchet距离的谱聚类算法(A Spectral Clustering Algorithm Based on Fréchet Distance, FSC),通过Fréchet距离构建相似度矩阵,并将重构的相似矩阵应用于谱聚类中。利用Fréchet距离度量数据特征维度的相似性对样本的多个特征进行分析,进而扩展典型谱聚类算法的适用性。FSC不仅适用于低维流形结构清晰的数据,也适用于高维或稀疏数据,如高光谱图像数据。在3个经典的高光谱图像上的实验结果表明,FSC算法有效提高了高光谱图像聚类的精度。  相似文献   

2.
由于分类型数据相异度度量的局限性以及分类型数据在高维空间中的稀疏性,使得传统的相异度度量在高维分类型数据聚类中失效,针对上述问题,本研究提出了一个基于信息熵的理论高维分类型数据聚类算法。该算法综合考虑对应子空间和噪声空间的维度信息熵设计了一个高效、无监督的子空间搜索对高维数据进行有效降维,同时提出了基于整体数据的平均信息熵的全局优化方法对聚类结果进行迭代寻优。通过用人工数据和Votes、Mushroom和Soybean 3个典型的真实分类数据集试验,与其他分类型聚类算法相比,新算法在聚类准确性、熵值、CU(category utility)以及类个数等指标上有明显提高。  相似文献   

3.
基于遗传算法的动态模糊聚类基于遗传算法的动态模糊聚类   总被引:13,自引:0,他引:13  
提出了一种基于遗传算法的动态模糊聚类方法。通过计算样本之间的模糊相似性,不失真地反映它们之间的内在关联。同时将样本之间的模糊相似性映射到样本之间的欧氏距离,即将高维样本映射到二维平面。利用遗传算法不断优化两者之间的映射,使样本之间的欧氏距离逐步趋近于其模糊相似性,实现动态模糊聚类。克服了聚类有效性对样本分布的依赖性;同时,增加了聚类的灵活性和可视化。该方法在性能上较经典的模糊聚类算法有一定改进,具有较好的聚类效果和较快的收敛速度。仿真实验结果证明了该方法的可行性和有效性。  相似文献   

4.
为了有效处理三维列联表数据,采用模糊联合聚类算法的思想,提出一种基于信息瓶颈理论的模糊三维聚类算法(IBFTC).IBFTC算法为每个维度指定隶属度函数,可实现3个维度上的同时聚类,且在目标函数中引入信息瓶颈理论计算对象与簇之间的距离.采用MovieLens数据集对IBFTC算法进行多方面分析,结果表明,IBFTC算法可获得比现有模糊联合聚类算法更高的聚类准确率.  相似文献   

5.
基于主成分分析的密度聚类算法   总被引:1,自引:0,他引:1  
密度聚类算法可以描述任意形状的聚类,可以有效地处理异常数据,适合处理大数据集,但不适用于高维数据集的聚类,因此提出了基于主成分分析的密度聚类算法,将DBSCAN算法应用于PCA的k个主成分张成的子空间,解决了DBSCAN算法用于高维数据集的问题.运用气象数据进行实验,结果表明:主成分个数k值的选择严重影响聚类效果,故提出k的基本选择方法,正确选择k值情况下,该算法具有较好的聚类效果.  相似文献   

6.
基于模糊聚类的高维划分策略研究   总被引:1,自引:0,他引:1  
数据集的划分策略是影响高维数据库索引性能的一个关键因素。金字塔技术是一种较好的高维索引方法,但它只对均匀分布的数据集具有良好的性能。为此,提出了一种改进的基于模糊聚类的金字塔技术,并将其用于高维划分策略,先对数据集进行模糊聚类处理,然后针对每个聚类进行金字塔划分,从而较好地实现了对非均匀分布数据的高维划分。  相似文献   

7.
为有效检测聚类的边界,提出了一种基于局部质变因子的聚类边界检测算法(BRINK).该算法使用加权欧式距离技术解决现有聚类边界检测算法不能适用于高维数据的问题,根据局部质变因子在聚类的边界具有稍大于1的特征来识别聚类的边界.实验结果表明,该算法能有效的检测出聚类的边界.  相似文献   

8.
密度峰值聚类算法(DPC)是近年来提出的一种新的密度聚类算法,其核心基于局部密度和相对距离。该算法在定义局部密度以及相对距离时直接用欧式距离,导致在一些稀疏差异大及长弧形的类簇聚类效果差,且一步分配策略的鲁棒性不佳。提出基于随机游走的密度峰值聚类算法(RW-DPC),即引入随机游走首次到达模型来刻画数据点之间的相似性,重新定义数据点的局部密度,且给出一种新的样本分配策略。对比在人工数据集和UCI真实数据集上与其他聚类算法的实验结果,说明对于密度不均匀及弧形类的数据集,本文算法的聚类效果优于密度峰值聚类算法以及其他算法。  相似文献   

9.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.  相似文献   

10.
针对纵向数据集的数据特征,如多维、含缺失值、序列不等间隔和不全等长等特点,研究一种基于Eros距离的纵向数据的相似性度量方法,并对模糊C均值聚类算法进行改进,提出一种基于Eros距离度量的模糊聚类数据处理方法.对于纵向数据集,首先进行缺失值填充、变量标准化等预处理,使用粗糙集理论对冗余属性进行约简,然后基于FErosCM聚类方法进行数据自动分类.对比实验证实此方法可用于纵向数据集的自动聚类处理,并使用信息熵作为聚类效果的评价手段。实验结果表明:无论在聚类效率还是准确度上,FErosCM方法对于纵向数据的分类处理均是有效可行的.  相似文献   

11.
一种基于近似EMD的DBSCAN改进算法   总被引:2,自引:2,他引:0  
DBSCAN(density based spatial clustering of applications with noise)算法是基于密度的经典聚类算法,但是该算法应用于高维数据时,常用距离函数不能很好地反映出数据点之间的关系, 从而可能导致聚类簇不够精确。如果能在高维空间中采用合适的距离度量,将会改善聚类结果。针对上述问题,提出利用近似EMD(earth mover’s distance,堆土机距离)作为距离测度,通过迭代搜索的方法找出所有直接密度可达对象实现聚类。实验结果表明:在高维文本数据的聚类中,和原来算法相比,改进算法的正确率提高了6%,两者在时间上相差不大;而对低维的Iris数据,改进算法通过EMD改善了实体间的相似性度量,减少了划分为噪声点的数据点个数,平均正确率提高了10%。实验结果表明了改进算法对高维数据的有效性,并可以改善聚类性能。  相似文献   

12.
一种基于文本分类的特征选择方法   总被引:1,自引:0,他引:1  
文本分类中通常采用向量空间模型(VSM)来表示文本特征,如何选择最能够表达文本主题的特征词,从而减少特征空间维数,降低时空复杂度,是一个十分重要的问题。针对此问题本文提出了采用截集模糊C-均值(S2FCM)聚类进行类间特征降维,该方法以最大隶属度原则为指导,在保持模糊聚类的同时,提高收敛速度,并且能够提高特征选择的正确性。同时在算法中使用改进的隶属度、聚类中心计算方法并使用非随机方法确定初始聚类中心。最后实验表明采用该方法选择的文本特征项进行文本分类能够收到比较好的分类结果。  相似文献   

13.
多视图子空间聚类是处理高维数据的一种聚类方法,通过分别在每个视图上构造邻接矩阵的方法解决聚类问题,但未考虑到低秩表示和稀疏约束的结合在构造邻接矩阵中的重要性. 针对此问题,提出一种联合低秩表示和稀疏约束的双层多视角子空间聚类方法,使其更全面地描述数据本身,从而实现更有效的聚类,并采用ADMM方法来解决每个视图相关的低秩表示和稀疏性约束优化问题. 在多个数据集上的实验表明,其聚类性能比现有的多视角子空间聚类算法好,低秩表示和稀疏约束的结合可以提高聚类的准确性.  相似文献   

14.
针对典型模糊聚类算法难以准确获取最佳聚类数的问题,提出了一种基于改进划分系数的模糊聚类有效性函数.在划分系数方法基础上,将类与类之间的分离性和类内的紧致性相结合,引入指数函数有效抑制噪声和孤立点数据对聚类有效性的影响.仿真实验将所提及的聚类有效性函数应用于模糊C均值聚类中,分别对两组自定义数据集和IRIS数据集进行了有效性验证,实验结果表明,本文提出的模糊聚类有效性函数能够准确划分最佳聚类数.  相似文献   

15.
基于CSA无监督模糊聚类算法的异常检测方法   总被引:1,自引:0,他引:1  
为解决模糊k 均值算法对初始化敏感及易陷入局部极值的不足,提出了基于克隆选择算法(CSA)的无监督模糊聚类异常入侵检测方法. 应用结合了具有进化搜索、全局搜索、随 机搜索和局部搜索特点的克隆算子快速得到了全局最优聚类,并应用模糊检测算法检测网络中的异常行为模式. 该方法的优点是不需要人工对训练集分类,并且可以检测出未知的攻击. 仿真试验表明,该方法不但能检测出未知的攻击,而且具有较低的误报率和较高的检测率.  相似文献   

16.
针对解决网格节点资源聚类问题,提出了基于小生镜遗传算法的模糊聚类分析方法。该算法把小生镜遗传算法搜索的随机性和并行性引入模糊聚类中,对模糊聚类中的聚类中心的个数和聚类中心的选取进行指导,解决了模糊C均值聚类对初始聚类中心的敏感性问题、实验证明该方法能具有全局收敛性,克服了FCM算法可能陷入局部极小值,并有效地对网格节点资源整合归类,从而改善网格节点资源发现的性能。  相似文献   

17.
模糊聚类分析主要用于研究样本的分类问题。利用层次分析方法给出了样本指标的权重,进一步引入了加权相似系数和加权距离系数的计算公式。在该系数的基础上,提出了一种既能考虑到样本之间的值贴近程度,又能考虑到样本之间的形贴近程度的改进统计量——相似度,用相似度矩阵替代传统的相似矩阵,得到了模糊聚类分析方法的改进。将其应用到网络安全综合评价实际样本数据的聚类分析中,结果表明改进的模糊聚类分析方法是有效的。  相似文献   

18.
一种新的模糊C均值聚类算法的优化方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对模糊C均值聚类算法对初始值敏感、易陷入局部最优的缺陷,提出一种新的优化方法.该方法通过分集聚类的结果初始化粒子群,得到逼近全局最优的聚类中心,再进行全局聚类,能有效避免陷入局部最优.真实数据集上的实验结果表明模糊C均值算法经该方法优化后,能快速收敛至全局最优解,在保证聚类速度的同时提高了聚类精度.  相似文献   

19.
一种基于十八元语言值模糊相似矩阵的聚类方法   总被引:2,自引:1,他引:1  
基于18元语言值格蕴涵代数,提出了语言值模糊集的语言值模糊相似度概念,给出平均语言值模糊相似度计算公式,并证明了其合理性;然后构建了语言值模糊相似矩阵、语言值模糊等价矩阵及语言值模糊矩阵的λ-截矩阵;最后提出了一种基于语言值模糊相似矩阵的聚类新方法,并给出了实例验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号