首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于张量的多聚类算法(TMC)在衡量属性重要性时忽略了对象张量内部属性组合的关联性,而且在不同的特征空间选择下,固定权重策略导致所选与未选择特征空间没有完全分离。针对上述问题,提出一种基于动态加权张量距离(DWTD)的多聚类算法(DWTD-MC)。首先,为提升各特征空间属性重要性衡量的准确性,建立了自-关联张量模型;其次,构建多视图权重张量模型,在不同特征空间选择下通过动态加权策略满足多聚类分析的需求;最后,使用DWTD衡量数据点的相似性,生成最终的多聚类结果。在真实数据集上的仿真实验结果表明,DWTD-MC在杰卡德指数(JI)、邓恩指数(DI)、DB指数(DB)和轮廓系数(SC)评价指标上均优于TMC等对比算法,而且可以在获得较高质量的聚类结果的同时,使各聚类结果之间保持较低的冗余度,满足多聚类分析的任务需求。  相似文献   

2.
文本聚类技术的有效性验证   总被引:3,自引:0,他引:3       下载免费PDF全文
讨论了利用分类测试集进行聚类量化评价的标准。在此基础上选择k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。实验表明,STC聚类算法在处理文本时充分考虑了文本的特性,其聚类效果较好;基于Ant的聚类算法在聚类的划分时效果受参数输入的影响较大,其聚类结果与STC相比并不具有优势;在Ant聚类算法中引入文本特性后,可以提高文本聚类的效果。  相似文献   

3.
特征选择可以有效地去除高维数据中的冗余和不相关的特征,保留重要的特征,从而降低模型计算的复杂性,提高模型精度。在特征选择过程中,针对数据中存在的离群点和边界点等可能影响分类效果的噪声数据,提出了基于粗糙集与密度峰值聚类的特征选择方法。首先,通过密度峰值聚类方法去除噪声数据,并挑出簇类中心;然后,结合粗糙集理论的思想,按簇类中心划分数据,并根据同一簇类的点应具有相同标签的假设,定义特征重要性评价指标;最后,设计了一种启发式特征选择算法,用于挑选出使簇类结构纯度更高的特征子集。在6个UCI数据集上,与其他算法进行了分类精度、特征选择个数和运行时间的对比实验,实验结果验证了所提算法的有效性和高效性。  相似文献   

4.
王军  周凯  程勇 《计算机应用》2019,39(2):403-408
密度峰值聚类(DP)算法是一种新的基于密度的聚类算法,当它处理的单个聚类包含多个密度峰值时,会将每个不同密度峰值视为潜在聚类中心,以致难以在数据集中确定正确数量聚类,为此,提出一种混合的密度峰值聚类算法C-DP。首先,以密度峰值点为初始聚类中心将数据集划分为子簇;然后,借鉴代表点层次聚类算法(CURE),从子簇中选取分散的代表点,将拥有最小距离的代表点对的类进行合并,引入参数收缩因子以控制类的形状。仿真实验结果表明,在4个合成数据集上C-DP算法比DP算法聚类效果更好;在真实数据集上的Rand Index指标对比表明,在数据集S1上,C-DP算法比DP算法性能提高了2.32%,在数据集4k2_far上,C-DP算法比DP算法性能提高了1.13%。由此可见,C-DP算法在单个类簇中包含多密度峰值的数据集中能提高聚类的准确性。  相似文献   

5.
针对密度峰值聚类算法(DPC)不能自动确定聚类中心,并且聚类中心点与非聚类中心点在决策图上的显示不够明显的问题,设计了一种自动确定聚类中心的比较密度峰值聚类算法(ACPC)。该算法首先利用距离的比较量来代替原距离参数,使潜在的聚类中心在决策图中更加突出;然后通过二维区间估计方法进行对聚类中心的自动选取,从而实现聚类过程的自动化。仿真实验结果表明,在4个合成数据集上ACPC取得了更好的聚类效果;而在真实数据集上的Accuracy指标对比表明,在Iris数据集上,ACPC聚类结果可达到94%,与传统的DPC算法相比提高了27.3%,ACPC解决了交互式选取聚类中心的问题。  相似文献   

6.
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种经典的基于密度的聚类算法,它通过两个全局参数即半径Eps和最少点数MinPts,能够对任意形状的数据进行聚类,并自动确定类个数。但是,使用全局半径的DBSCAN对于密度不均匀数据集的聚类效果较差,且无法对重叠数据集进行聚类。因此,定义了密度递减原则和局部半径,并根据k-近邻距离自动确定局部半径,从而提出了基于局部半径的DBSCAN算法(LE-DBSCAN);然后,通过考虑近邻的标签,对二支聚类结果的临界点和噪声点进行重新划分,从而提出了基于局部半径的三支DBSCAN算法(LE3W-DBSCAN)。将LE-DBSCAN和LE3W-DBSCAN与该领域的相关算法在UCI数据集和人工数据集上进行对比,实验结果表明,所提算法在常用的硬聚类指标和软聚类指标上都具有较好的表现。  相似文献   

7.
传统聚类算法在目标数据集被噪声或异常数据大量污染的场景下聚类效果不佳。针对此问题,在经典谱聚类算法(spectral clustering,SC)基础上加入迁移学习知识,提出了新的域间F-范数正则化迁移谱聚类算法(transfer spectral clustering based on inter-domain F-norm regularization,TSC-IDFR)。该算法通过第K最近邻原则为目标域数据从源域(历史数据)获取等量的可参照数据样本,然后基于域间F范数正则化机制,迁移这些源域可参照数据样本的谱聚类特征矩阵,以辅助目标域数据集上的谱聚类过程,从而解决实际问题中由于目标域数据污染带来的聚类难题,最终提高谱聚类效果。通过在模拟数据集和真实数据集上的仿真实验,证明了该算法的有效性。  相似文献   

8.
王泽  张宏军  张睿  贺邓超 《计算机应用》2015,35(11):3243-3246
为解决聚类中心选择困难和数据点密度计算泛化能力弱的问题,提出一种基于遗传算法与密度及距离计算的聚类方法.该算法通过指数方法计算数据点密度,降低参数对算法性能的影响;用遗传算法搜索最优密度和距离阈值,同时引入惩罚因子,克服算法搜索域偏移从而提高收敛速度,寻找最优聚类中心,并用归属方法完成聚类.通过4组人工数据集和4组UCI数据集实验证明,该方法在RI指数、聚类精度、聚类纯度、召回率等4个聚类评价指标上都达到与K-means算法、快速搜索聚类算法和Max_Min_SD算法相当或更好的效果,算法是有效的.  相似文献   

9.
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。  相似文献   

10.
近邻传播算法(Affinity Propagation)是一种具有较高准确度的聚类算法,但是其具有较高的时间复杂度,且无法有效聚类结构松散数据,针对这两个问题,提出了一种基于MapReduce的半监督近邻传播算法(MR-SAP)。算法首先利用MapReduce编程框架,在各个数据节点上运行AP算法,得到局部的聚类中心,以及代表每一个局部聚类中心成为全局聚类中心可能性的决策系数,然后综合局部聚类中心进行全局的AP聚类,其中初始参考度的选取依据输入的决策系数,最后通过引入IGP聚类评价指标比较聚类效果,引导算法向结果最优方向运行。实验结果表明该算法在处理不同大小、不同类型数据集时均具有良好的效率和扩展性,且具有较高的聚类精度。  相似文献   

11.
侯勇  郑雪峰 《计算机应用》2013,33(8):2204-2207
当前流行的聚类集成算法无法依据不同数据集的不同特点给出恰当的处理方案,为此提出一种新的基于数据集特点的增强聚类集成算法,该算法由基聚类器的生成、基聚类器的选择与共识函数构成。该算法依据数据集的特点,通过启发式方法,选出合适的基聚类器,构建最终的基聚类器集合,并产生最终聚类结果。实验中,对ecoli,leukaemia与Vehicle三个基准数据集进行了聚类,所提出算法的聚类误差分别是0.014,0.489,0.479,同基于Bagging的结构化集成(BSEA)、异构聚类集成(HCE)和基于聚类的集成分类(COEC)算法相比,所提出算法的聚类误差始终最低;而在增加候基聚类器的情况下,所提出算法的标准化互信息(NMI)值始终高于对比算法。实验结果表明,同对比的聚类集成算法相比,所提出算法的聚类精度最高,可伸缩性最强。  相似文献   

12.
《微型机与应用》2019,(3):44-48
非负矩阵分解(NMF)作为一种新的矩阵分解和特征提取方法,是大数据处理和模式识别中线性分离数据从而聚类的有效方法。提出了一种新的聚类算法FCM-NMF,采用NMF分解提取样本的本质特征,并用模糊C均值(FCM)进行模糊聚类。该算法将NMF目标函数与FCM算法融合,提出了新的目标函数的形式,并生成新的交替迭代公式。最后在两个标准图像数据集GHIM-10k和COREL-10k上与传统的5种聚类方法从三个评价指标进行了对比。实验结果表明,该算法在标准数据集上聚类准确率和标准化互信息值分别达到了84%和77. 21%,达到了预期目标,提高了聚类效果。  相似文献   

13.
现有面向矩阵数据集的算法多数通过随机选取初始类中心得到聚类结果。为克服不同初始类中心对聚类结果的影响,针对分类型矩阵数据,提出一种新的初始聚类中心选择算法。根据属性值的频率定义矩阵对象的密度和矩阵对象间的距离,扩展最大最小距离算法,从而实现初始类中心的选择。在7个真实数据集上的实验结果表明,与初始类中心选择算法CAOICACD和BAIICACD相比,该算法均具有较优的聚类效果。  相似文献   

14.
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency, inverse document frequency, TFIDF)和潜在语义分析算法(latent semantic analysis, LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11 456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient, SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index, CHI)和戴维斯-堡丁指数(Davies-Bouldin index, DBI)的值表明,该方法不仅能保证文本聚类...  相似文献   

15.
蓝欢玉 《信息与电脑》2023,(14):120-122
采用传统不平衡数据集聚类算法直接对数据集编码树进行构建,而未对数据集密度特征进行提取,造成传统算法数据聚类效果差,因此提出了基于最小生成树的不平衡数据集聚类算法。先利用数据区域密度的敏感性,提取数据密度特征,再利用提取的数据集密度特征构建编码树,并计算不平衡聚类状态下的数据集,最后基于最小生成树实现不平衡数据集聚类。设计对比实验,实验结果表明该研究算法聚类效果最好,具有研究价值。  相似文献   

16.
基于投票机制的融合聚类算法   总被引:1,自引:0,他引:1  
以一趟聚类算法作为划分数据的基本算法,讨论聚类融合问题.通过重复使用一趟聚类算法划分数据,并随机选择阈值和数据输入顺序,得到不同的聚类结果,将这些聚类结果映射为模式间的关联矩阵,在关联矩阵上使用投票机制获得最终的数据划分.在真实数据集和人造数据集上检验了提出的聚类融合算法,并与相关聚类算法进行了对比,实验结果表明,文中提出的算法是有效可行的.  相似文献   

17.
模糊C均值( FCM)聚类算法最终形成的聚类质量会受到初始值的设定、簇的个数选定及参数选择等多方面因素的影响。文中对最近发表的5种代表性聚类有效性指数在不同的数据维数、聚类个数和参数等条件下对FCM的聚类有效性评价结果进行对比分析。实验结果表明基于类内紧致度和类间离散度比值的聚类有效性指数对数据维度及噪声较为鲁棒,基于隶属度的聚类有效性指数不适于高维数据等,上述结果可帮助研究人员在不同的应用环境下选择合适的模糊聚类有效性函数。  相似文献   

18.
针对快速搜索和发现密度峰值聚类(CFSFDP)算法需人工在决策图上选择聚类中心的问题,提出一种基于密度峰值和密度聚类的集成算法。首先,借鉴CFSFDP思想,将局部密度最大的数据作为第一个中心;接着,从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类(DBSCAN)算法进行聚类,得到第一个簇;最后,在尚未被划分的数据中找出最大局部密度的数据,将它作为下一个簇的中心后再次采用上述算法进行聚类,直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题,又优化了DBSCAN算法,即每次迭代都是从当前最好的点(局部密度最大的点)出发寻找簇。通过可视化数据集和非可视化数据集与经典算法(CFSFDP、DBSCAN、模糊C均值(FCM)算法和K均值(K-means)算法)的对比实验结果表明,所提算法聚类效果更好,准确率更高,优于对比算法。  相似文献   

19.
为解决均值漂移聚类算法聚类效果依赖于带宽参数的主观选取,以及处理密度变化大的数据集时聚类结果精确度问题,提出一种基于覆盖树的自适应均值漂移聚类算法MSCT(MeanShift based on Cover-Tree)。构建一个覆盖树数据集,在计算漂移向量过程中结合覆盖树数据集获得新的漂移向量结果KnnShift,在不同数据密度分布的数据集上都能自适应产生带宽参数,所有数据点完成漂移过程后获得聚类结果。实验结果表明,MSCT算法的聚类效果整体上优于MS、DBSCAN等算法。  相似文献   

20.
为得到好的聚类效果,需要挑选适合数据集簇结构的聚类算法。文中提出基于网格最小生成树的聚类算法选择方法,为给定数据集自动选择适合的聚类算法。该方法首先在数据集上构建出网格最小生成树,由树的数目确定数据集的潜在簇结构,然后为数据集选择适合所发现簇结构的聚类算法。实验结果表明该方法较有效,能为给定数据集找出适合其潜在簇结构的聚类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号