面向流形数据的共享近邻密度峰值聚类算法 |
| |
引用本文: | 赵嘉,马清,肖人彬,潘正祥,韩龙哲.面向流形数据的共享近邻密度峰值聚类算法[J].智能系统学报,2023(4):719-730. |
| |
作者姓名: | 赵嘉 马清 肖人彬 潘正祥 韩龙哲 |
| |
作者单位: | 1. 南昌工程学院信息工程学院;2. 华中科技大学人工智能与自动化学院;3. 山东科技大学计算机科学与工程学院 |
| |
基金项目: | 国家自然科学基金项目(52069014,61962036); |
| |
摘 要: | 流形数据由一些弧线状或环状的类簇组成,其特点是同一类簇的样本间距离差距较大。密度峰值聚类算法不能有效识别流形类簇的类簇中心且分配剩余样本时易引发样本的连续误分配问题。为此,本文提出面向流形数据的共享近邻密度峰值聚类(density peaks clustering based on shared nearest neighbor for manifold datasets,DPC-SNN)算法。提出了一种基于共享近邻的样本相似度定义方式,使得同一流形类簇样本间的相似度尽可能高;基于上述相似度定义局部密度,不忽略距类簇中心较远样本的密度贡献,能更好地区分出流形类簇的类簇中心与其他样本;根据样本的相似度分配剩余样本,避免了样本的连续误分配。DPC-SNN算法与DPC、FKNNDPC、FNDPC、DPCSA及IDPC-FA算法的对比实验结果表明,DPC-SNN算法能够有效发现流形数据的类簇中心并准确完成聚类,对真实以及人脸数据集也有不错的聚类效果。
|
关 键 词: | 密度峰值 聚类分析 流形数据 K近邻 共享近邻 样本相似度 数据挖掘 图像处理 |
|
|