首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

2.
任永功  刘洋  赵月 《计算机科学》2017,44(5):276-279, 284
传统的聚类算法一般使用欧氏距离获得数据的相似矩阵,在处理一些较复杂的数据时,欧氏距离由于不能反映全局一致性,因此无法有效地描述出数据点的实际分布。提出了一种基于秩约束密度敏感距离(Rank Constraints Density Sensitive Distance,RCDSD) 的自适应聚类算法。该方法首先引入密度敏感距离的相似性度量得到相似矩阵,有效地扩大了不同类数据点之间的距离,缩小了同类数据点间的距离,从而解决了传统聚类算法使用欧氏距离作为相似性度量导致聚类结果出现偏差的弊端;其次,在相似矩阵的拉普拉斯矩阵上施加秩约束,使相似矩阵的连通区域数等于聚类数,直接将数据点划分到正确的类中,得到最终的聚类结果,而不需要执行k-means或其它离散化程序。在人工仿真数据集和真实数据集上进行了大量实验,结果表明,所提算法得到了准确的聚类结果,并提高了聚类性能。  相似文献   

3.
基于低密度分割密度敏感距离的谱聚类算法   总被引:1,自引:0,他引:1  
本文提出一种基于低密度分割密度敏感距离的谱聚类算法, 该算法首先使用低密度分割密度敏感距离计算相似度矩阵, 该距离测度通过指数函数和伸缩因子实现放大不同流形体数据间的距离和缩短同一流形体数据间距离的目的, 从而有效反映数据分布的全局一致性和局部一致性特征.另外, 算法通过增加相对密度敏感项来考虑数据的局部分布特征, 从而有效避免孤立噪声和"桥"噪声的影响.文中最后给出了基于SC (Scattering criteria)指标的k近邻图k值选取办法和基于谱熵贡献率的特征向量选取方法.实验部分, 讨论了参数选择对算法性能的影响并给出取值建议, 通过与其他流行谱聚类算法聚类结果的对比分析, 表明本文提出的基于低密度分割密度敏感距离的谱聚类算法聚类性能明显优于其他算法.  相似文献   

4.
针对标准谱聚类算法中,基于欧氏距离的相似性度量不能完全反映数据聚类复杂的空间分布特性的问题,提出了一种基于流形距离核的谱聚类算法.它能充分挖掘数据集中的内在结构信息,较好地反映局部和全局一致性,并且可以很好地防止"桥"噪声点的影响,提高算法的聚类性能.与传统的聚类算法和常见谱聚类算法进行了比较,在人工数据集和UCI数据集上的实验都验证了本算法能够获得更好的聚类效果.  相似文献   

5.
王治和  王淑艳  杜辉 《计算机工程》2021,47(5):88-96,103
模糊C均值(FCM)聚类算法无法识别非凸数据,算法中基于欧式距离的相似性度量只考虑数据点之间的局部一致性特征而忽略了全局一致性特征。提出一种利用密度敏感距离度量创建相似度矩阵的FCM算法。通过近邻传播算法获取粗类数作为最佳聚类数的搜索范围上限,以解决FCM算法聚类数目需要人为预先设定和随机选定初始聚类中心造成聚类结果不稳定的问题。在此基础上,改进最大最小距离算法,得到具有代表性的样本点作为初始聚类中心,并结合轮廓系数自动确定最佳聚类数。基于UCI数据集和人工数据集的实验结果表明,相比经典FCM、K-means和CFSFDP算法,该算法不仅具有识别复杂非凸数据的能力,而且能够在保证聚类性能和稳定性的前提下加快收敛速度。  相似文献   

6.
邱兴兴  程霄 《计算机应用》2013,33(9):1001-9081
针对空间分布复杂的数据以及空间分布未知的现实数据聚类问题,设计了一种改进流形距离作为不相似测度。该不相似测度可有效利用所有数据点之间的全局一致性,挖掘无类属数据集的空间分布信息。通过使用该不相似测度,提出了基于改进流形距离K-medoids算法。将新算法与基于已有的流形距离和基于欧氏距离的K-medoids算法进行性能比较,对八个人工数据集以及USPS手写体数字识别问题的实验结果表明:新算法针对不同结构的测试数据集,在聚类性能上均优于或接近于另外两种K-medoids算法,并且对于各种分布的,无论简单或复杂,凸或者非凸的数据都可以进行聚类。  相似文献   

7.
模糊C均值算法(FCM)是一种用于聚类的最流行的技术。不过,传统的FCM使用欧氏距离作为数据集的相似准则,从而导致数据集的划分有相等的趋势。而数据集的形状和簇的密度对聚类性能有高度影响。为了解决这个问题,提出基于簇密度的距离调节因子以修正相似性度量。同时,针对模糊C-均值(FCM)聚类算法对初始聚类中心选择敏感,易陷入局部最优的问题,采用量子粒子群优化算法以获取全局最优解。仿真实验证明,改进的聚类算法(QPSO-FCM-CD)具有良好的性能。  相似文献   

8.
模糊C均值算法(FCM)是一种用于聚类的最流行的技术。不过,传统的FCM使用欧氏距离作为数据集的相似准则,从而导致数据集的划分有相等的趋势。而数据集的形状和簇的密度对聚类性能有高度影响。为了解决这个问题,提出基于簇密度的距离调节因子以修正相似性度量。同时,针对模糊C-均值(FCM)聚类算法对初始聚类中心选择敏感,易陷入局部最优的问题,采用量子粒子群优化算法以获取全局最优解。仿真实验证明,改进的聚类算法(QPSO-FCM-CD)具有良好的性能。  相似文献   

9.
针对仿射传播聚类(AP)算法应用于流形结构复杂、密度不均匀的数据集存在的不足,通过学习数据集的低维流形结构,提出了密度自适应的“流形距离核”(ad-MDK)的概念。该距离测度既考虑了数据点的局部密度信息,又包含了数据集全局结构信息,从而提高了算法对这类数据集的处理能力。同时,针对引入流形距离所带来的计算复杂问题,提出了算法的并行化设计方法,有效提高了算法处理效率。通过在多个数据集上的实验验证了所提算法在处理大规模多尺度数据集上的性能优于传统AP算法。  相似文献   

10.
《计算机科学与探索》2016,(10):1439-1450
针对现有数据竞争聚类算法在处理密度不均匀数据集时聚类效果不理想的问题,提出了一种密度自适应的数据竞争聚类算法。首先,定义了一种局部密度自适应线段;然后,根据局部密度自适应线段计算出密度自适应相似度,密度自适应相似度不仅反映了数据的整体空间分布信息,还反映了数据点的局部信息,更加符合数据的实际分布;最后,将密度自适应相似度用于数据竞争聚类算法中。在人工和真实数据集上的仿真实验结果表明,新算法比现有的数据竞争聚类算法在处理密度不均匀数据集时,具有更高的聚类性能。  相似文献   

11.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性。针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN)。通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度量进而消除参数对构建相似图的影响,体现全局和局部的一致性。实验结果表明,SC-DANSN算法相比K-means算法和基于K最近邻的谱聚类算法(SC-KNN)具有更高的聚类精度,同时相比SC-KNN算法对参数的选取敏感性更低。  相似文献   

12.
以密度敏感距离作为相似性测度,结合近邻传播聚类算法和谱聚类算法,提出了一种密度敏感的层次化聚类算法。算法以密度敏感距离为相似度,多次应用近邻传播算法在数据集中选取一些“可能的类代表点”;用谱聚类算法将“可能的类代表点”再聚类得到“最终的类代表点”;每个数据点根据其类代表点的类标签信息找到自己的类标签。实验结果表明,该算法在处理时间、内存占用率和聚类错误率上都优于传统的近邻传播算法和谱聚类算法。  相似文献   

13.
针对数据竞争算法采用欧式距离计算相似度、人为指定聚类簇数以及聚类中心无法准确自动确定等问题,提出了一种自动确定聚类中心的数据竞争聚类算法。引入了数据场的概念,使得计算出的势值更加符合数据集的真实分布;同时,结合数据点的势能与局部最小距离形成决策图完成聚类中心点的自动确定;根据近邻原则完成聚类。在人工以及真实数据集上的实验效果表明,提出的算法较原数据竞争算法具有更好的聚类性能。  相似文献   

14.
This paper proposes a novel kernel clustering algorithm using a hybrid memetic algorithm for clustering complex, unlabeled, and linearly non-separable datasets. The kernel function can transform nonlinear data into a high dimensional feature space. It increases the probability of the linear separability of the patterns within the transformed space and simplifies the associated data structure. According to the distribution of various datasets, three local learning operators are designed; meanwhile double mutation operators incorporated into local learning operators to further enhance the ability of global exploration and overcome premature convergence effectively. The performance comparisons of the proposed method with k-means, kernel k-means, global kernel k-means and spectral clustering algorithms on artificial datasets and UCI datasets indicate that the proposed clustering algorithm outperforms the compared algorithms.  相似文献   

15.
半监督算法作为一种能有效利用大量的未标签数据来改善少量的标签数据训练出来的分类器性能的算法,无论在理论上还是实践上都很有意义。提出一种基于密度敏感距离的协同训练算法,通过引入一种能有效描述数据的内在聚类分布的距离度量,来改善用组合分类器在少量数据集上得到的弱分类器,实验表明该方法是有效的。  相似文献   

16.
针对传统k均值算法易受初始聚类中心和异常数据的影响等缺陷,利用萤火虫优化算法全局搜索能力强、收敛速度快的优势,对k均值算法的初始聚类中心进行优化,并通过引用一种加权的欧氏距离,减少异常数据等不确定因素带来的不良影响,提出了一种基于萤火虫优化的加权k均值算法。该算法在提升聚类性能的同时,有效增强了算法的收敛速度。在实验阶段,通过UCI数据集中的几组数据对该算法进行了分类实验及有效性测试,实验结果充分表明了该算法的有效性及优越性。  相似文献   

17.
密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响, 易导致误选类簇中心; 其分配策略依据欧氏距离通过密度峰值进行链式分配, 而流形数据通常有较多样本距离其密度峰值较远, 导致大量本应属于同一个类簇的样本被错误分配给其他类簇, 致使聚类精度不高. 鉴于此, 本文提出了一种K近邻和加权相似性的密度峰值聚类算法. 该算法基于样本的K近邻信息重新定义了样本局部密度, 此定义方式可以调节样本局部密度的大小, 能够准确找到密度峰值; 采用样本的共享最近邻及自然最近邻信息定义样本间的相似性, 摒弃了欧氏距离对分配策略的影响, 避免了样本分配策略产生的错误连带效应. 流形及密度分布不均数据集上的对比实验表明, 本文算法能准确找到疏密程度相差较大数据集的密度峰值, 避免了流形数据的分配错误连带效应, 得到了满意的聚类效果; 同时在真实数据集上的聚类效果也十分优秀.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号