首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于核的自适应K—Medoid聚类   总被引:1,自引:1,他引:1  
针对K-Medoid算法不能有效聚类大数据集和高维数据的弱点,将核学习方法引入到K-Medoid算法,提出了基于核的自适应K-Medoid算法.该算法利用核函数将输入空间样本映射到一个高维的特征空间,在这个核空间中进行K-Medoid聚类,在聚类过程中,数据可以自适应地加入到最适合它的簇当中,并且聚类结果与初始k个中心点的选取无关,该算法可以完成对大数据集和高维数据的聚类.实验结果表明,与K-Medoid算法相比,该算法具有较高的聚类准确率.  相似文献   

2.
对互联网产生的大量短文本进行聚类分析具有重要的应用价值,但由于短文本存在特征稀疏和特征难以提取的问题,导致传统的文本聚类算法难以有效处理该问题。为了解决该问题,利用非负矩阵分解(NMF)模型提出基于加权核非负矩阵分解(WKNMF)的短文本聚类算法。该算法通过核方法的映射关系将稀疏特征空间映射到高维隐性空间,从而可以充分利用短文本中的隐性语义特征进行聚类;另外,利用核技巧简化高维数据的复杂运算,并通过迭代更新规则不断地动态调整短文本的权重向量,从而可以区分不同短文本对聚类的重要性。在真实的微博数据集上进行了相关实验,结果表明WKNMF算法比K均值、隐含狄利克雷分布(LDA)、NMF和自组织神经网络(SOM)具有更好的聚类质量,准确度和归一化互信息分别达到了66.38%和66.91%。  相似文献   

3.
邱保志  唐雅敏 《计算机应用》2017,37(12):3482-3486
针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点依据邻近关系进行划分,得到最终聚类。人工合成数据集及真实数据集上的实验验证了所提算法的有效性,在Olivetti Face数据集上的聚类结果显示,ECLUB算法的调整兰德系数(ARI)和归一化互信息(NMI)分别为0.8779和0.9622。与经典的基于密度的聚类算法(DBSCAN)、密度中心聚类算法(CFDP)以及密度骨架聚类算法(CLUB)相比,所提ECLUB算法效率更高,且对于高维数据聚类准确率更高。  相似文献   

4.
谱嵌入聚类(SEC)算法要求样本满足流形假设,样本标签总是可以嵌入到一个线性空间中去,这为线性可分数据的谱嵌入聚类问题提供了新的思路,但该算法使用的线性映射函数不适用于处理高维非线性数据。针对这一问题,通过核化线性映射函数,建立了基于核函数的谱嵌入聚类(KSEC)模型,该模型既能解决线性映射函数不能处理非线性数据的问题,又实现了对高维数据的核降维。在真实数据集上的实验分析结果表明,使用所提算法后聚类正确率平均提高了13.11%,最高可提高31.62%,特别在高维数据上平均提高了16.53%,而且在算法关于参数的敏感度实验中发现算法的稳定性更好。所以改进后的算法对高维非线性数据具有很好的聚类效果,获得了比传统谱嵌入聚类算法更高的聚类准确率和更好的聚类性能。所提方法可以用于诸如遥感影像这类复杂图像的处理领域。  相似文献   

5.
传统的低秩表示模型LRR对高维数据聚类精确度低,针对这一情况提出一种基于拉普拉斯正则化双曲正切函数低秩子空间聚类算法(LRHT-LRSC).该算法利用双曲正切函数代替核范数以便更紧凑地逼近秩函数,并利用拉普拉斯正则项刻画数据本身的几何结构,提高了数据聚类的准确率;然后构建数据样本的系数矩阵和相似矩阵;最后利用谱聚类方法得到最终的聚类结果.在合成数据集、真实数据集ExtendedYaleB和Hopkins155上的对比实验结果表明,LRHT-LRSC能够提高聚类的准确率和鲁棒性.  相似文献   

6.
李斌  狄岚  王少华  于晓瞳 《计算机应用》2016,36(7):1981-1987
传统的核聚类仅考虑了类内元素的关系而忽略了类间的关系,对边界模糊或边界存在噪声点的数据集进行聚类分析时,会造成边界点的误分问题。为解决上述问题,在核模糊C均值(KFCM)聚类算法的基础上提出了一种基于改进核模糊C均值类间极大化聚类(MKFCM)算法。该算法考虑了类内元素和类间元素的联系,引入了高维特征空间的类间极大惩罚项和调控因子,拉大类中心间的距离,使得边界处的样本得到了较好的划分。在各模拟数据集的实验中,该算法在类中心的偏移距离相对其他算法均有明显降低。在人造高斯数据集的实验中,该算法的精度(ACC)、归一化互信息(NMI)、芮氏指标(RI)指标分别提升至0.9132,0.7575,0.9138。  相似文献   

7.
传统核可能性C均值(KPCM)算法仅考虑类内的紧密性而忽略了类间的距离关系,在对边界模糊的数据进行聚类分析时,会引起因聚类中心距离小或重合引起的边界点误分问题。为解决上述问题,在核可能性C均值基础上引入高维特征空间中的类间极大惩罚项和调控因子[λ],构造了全新的目标函数,称为极大中心间隔的核可能性C均值(MKPCM)聚类算法。该算法通过类间极大惩罚项使类间距离极大化,并利用调控因子[λ]合理控制类间距,较好地避免了类中心间距离小或重合的现象。通过大量的实验证明,算法对于边界模糊的数据聚类效果优于传统的聚类算法;在图像分割的实际应用中,算法也明显优于传统的聚类算法。  相似文献   

8.
针对高维数据聚类的问题,许多有效的方法已经被提出,级联的子空间聚类算法CSC就是一种有效的解决法案。但是CSC算法定义的聚类损失可能破坏特征空间,从而取得非代表性的无意义特征,进而损害聚类性能。为了解决这一问题,提出了一种结合自编码器保留数据结构的改进算法。具体地说,使用聚类损失作为引导,分散特征空间数据点,同时采用一种欠完备的自动编码器作为重构损失,约束操作和维护数据生成分布的局部结构。将两者结合,共同优化聚类标签的分配,学习适合聚类的局部结构保留特征。使用自适应矩估计(Adam)和小批量随机梯度下降(mini-batch SGD)两种优化方法调整模型参数。在多个数据集上,使用聚类结果准确率(Acc)、标准互信息(NMI)和调整Rand指数(ARI)三个评价指标验证了该算法的有效性和优越性。  相似文献   

9.
特征空间属性加权模糊核聚类算法   总被引:3,自引:0,他引:3  
充分考虑了属性间的不平衡性,通过Mercer核把原始的观察空间映射到高维特征空间,提出了一种新的特征空间中的加权模糊核聚类算法WFKCA。众多实例表明,WFKCA比传统的聚类算法具有更好的性能,且对于高维数据具有很好的聚类效果。  相似文献   

10.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

11.
针对主动学习中构造初始分类器难以选取代表性样本的问题,提出一种模糊核聚类采样算法。该算法首先通过聚类分析技术将样本集划分,然后分别在类簇中心和类簇边界区域选取样本进行标注,最后依此构造初始分类器。在该算法中,通过高斯核函数把原始样本空间中的点非线性变换到高维特征空间,以达到线性可聚的目的,并引入了一种基于局部密度的初始聚类中心选择方法,从而改善聚类效果。为了提高采样质量,结合划分后各类簇的样本个数设计了一种采样比例分配策略。同时,在采样结束阶段设计了一种后补采样策略,以确保采样个数达标。实验结果分析表明,所提算法可以有效地减少构造初始分类器所需的人工标注负担,并取得较高的分类正确率。  相似文献   

12.
王治和  常筱卿  杜辉 《计算机应用》2021,41(5):1337-1342
针对近邻传播(AP)聚类算法对参数偏向参数(Preference)敏感、不适用于稀疏数据、聚类结果中会出现错误聚类的样本点的问题,提出基于万有引力的自适应近邻传播聚类(GA-AP)算法。首先,在传统AP算法的基础上采用引力搜索机制对样本进行全局寻优;其次,在全局寻优的基础上利用信息熵和自适应增强(AdaBoost)算法找到每个簇内正确聚类和错误聚类的样本点,并计算出这些样本点的权值,用计算出的权值更新对应的样本点,从而更新相似度、Preference取值、吸引度和隶属度,并进行重新聚类。不断操作以上步骤直到达到最大的迭代次数。通过在9个数据集上的仿真实验得出,相比于基于自适应属性加权的近邻传播聚类(AFW_AP)算法、AP算法、K均值聚类(K-means)算法和模糊C均值(FCM)算法,所提算法的纯度(Purity)、F值(F-measure)和准确率(ACC)的平均值分别最高提升了0.69、71.74%和98.5%。实验结果表明,所提算法降低了对偏向参数的依赖,提高了聚类效果,特别是对于稀疏数据集的聚类结果的准确率。  相似文献   

13.
基于Seed集的半监督核聚类   总被引:1,自引:1,他引:1       下载免费PDF全文
提出了一种新的半监督核聚类算法——SKK-均值算法。算法利用一定数量的标记样本构成seed集,作为监督信息来初始化K-均值算法的聚类中心,引导聚类过程并约束数据划分;同时还采用了核方法把输入数据映射到高维特征空间,并用核函数来实现样本之间的距离计算。在UCI数据集上进行了数值实验,并与K-均值算法和核-K-均值算法进行了比较。  相似文献   

14.
CFSFDP(Clustering by Fast Search and Find of Density Peaks)是一种新的基于密度的聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点。但是对于类簇间密度相差较大的数据,该算法容易遗漏密度较小的类簇而影响聚类的准确率。针对这一问题,提出了基于密度比例峰值聚类算法即R-CFSFDP。该算法将密度比例引入到CFSFDP中,通过计算样本数据的密度比峰值来提高数据中密度较小类簇的辨识度,进而提升整体聚类的准确率。基于9个常用测试数据集(2个人工合成数据集,7个UCI数据集)的聚类实验结果表明,对于类簇间密度相差较大和类簇形状复杂的数据聚类问题,R-CFSFDP能够使得类簇中心更加清晰、易确定,聚类结果更好。  相似文献   

15.
陈献  胡丽莹  林晓炜  陈黎飞 《计算机应用》2021,41(12):3447-3454
现有的有向图聚类算法大多基于向量空间中节点间的近似线性关系假设,忽略了节点间存在的非线性相关性。针对该问题,提出一种基于核非负矩阵分解(KNMF)的有向图聚类算法。首先,引入核学习方法将有向图的邻接矩阵投影到核空间,并通过特定的正则项约束原空间及核空间中节点间的相似性。其次,提出了图正则化核非对称NMF算法的目标函数,并在非负约束条件下通过梯度下降方法推导出一个聚类算法。该算法在考虑节点连边的方向性的同时利用核学习方法建模节点间的非线性关系,从而准确地揭示有向图中潜在的结构信息。最后,在专利-引文网络(PCN)数据集上的实验结果表明,簇的数目为2时,和对比算法相比,所提算法将DB值和DQF值分别提高了约0.25和8%,取得了更好的聚类质量。  相似文献   

16.
在大数据背景下,以K-Means为代表的聚类分析对于数据分析和挖掘十分重要。海量高维数据的处理给K-Means算法带来了性能方面的强烈需求。最新提出的众核体系结构MIC(many integrated core)能够为算法加速提供众核间线程级和核内指令级并行,使其成为K-Means算法加速的很好选择。在分析K-Means基本算法特点的基础上,分析了K-Means算法的瓶颈,提出了可利用数据并行的K-Means向量化算法,优化了向量化算法的数据布局方案。最后,基于CPU/MIC的异构架构实现了向量化K-Means算法,并且探索了MIC在非传统HPC(high performance computing)应用领域的优化策略。测试结果表明,K-Means向量化算法具有良好的计算性能和扩展性。  相似文献   

17.
王亮 《网友世界》2012,(1):64-69
为解决经典模糊聚类算法对噪声数据敏感、样本分布不平衡和高维数据集聚类效果不理想的问题。针对此不足,可以通过Mercer核把原来的数据空间映射到特征空间,并为特征空间的每个向量分配一个动态权值,从而在经典模糊聚类算法的基础上得到特征空间内的全新的目标函数。在基于核函数的模糊聚类算法中,核参数的选择是至关重要的。因此,提出了一个简单有效地决定核参数的方法。理论分析和实验结果表明,相对于其它经典模糊聚类算法,新算法具有更好的健壮性和聚类效果。  相似文献   

18.
传统的快速聚类算法大多基于模糊C均值算法(Fuzzy C-means,FCM),而FCM对初始聚类中心敏感,对噪音数据敏感并且容易收敛到局部极小值,因而聚类准确率不高。可能性C-均值聚类较好地解决了FCM对噪声敏感的问题,但容易产生一致性聚类。将FCM和可能性C-均值聚类结合的聚类算法较好地解决了一致性聚类问题。为进一步提高算法收敛速度和鲁棒性,提出一种基于核的快速可能性聚类算法。该方法引入核聚类的思想,同时使用样本方差对目标函数中参数η进行优化。标准数据集和人造数据集的实验结果表明这种基于核的快速可能性聚类算法提高了算法的聚类准确率,加快了收敛速度。  相似文献   

19.
针对SOM 神经网络算法复杂度高精度低以及K-Means聚类算法需事先确定聚类(簇)数目和随机选取初始聚类中心的不足,论文提出了一种SOM神经网络与K-M eans相结合的S-K二次聚类算法,进行功能互补。该算法应用在SM T焊接质量上,能提高数据聚类信息的精确度,直观地看到数据的分布情况,改善系统的整体性能。  相似文献   

20.
无监督异常检测的核聚类和序列分析方法   总被引:2,自引:0,他引:2  
利用核函数构造数据的特征空间并在此空间采用核函数结合RA算法选取初始聚类中心,在核k-means聚类基础上,划分出大簇小簇,然后在大簇中进行异类分离以发现实验数据中以小概率事件出现的R2L,U2R和PROBE攻击;并且在大簇中挖掘闭合序列模式,获得描述大簇的序列规则,从中判断是否存在DoS攻击.算法分析和实验结果表明提出的方法可以获得较高的检测率并降低误报率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号