首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 173 毫秒
1.
郑涛  张帆 《现代计算机》2006,(6):19-21,36
CLARA是k-中心值聚类的一种算法,在处理大型数据集的聚类问题时,比PAM(围绕中心点的划分)更具有良好的伸缩性,但CLARA算法随机抽样中存在采样不准确的缺点.本文针对这一不足,使用了数据场的概念对CLARA聚类算法进行了有益的改进,提高了采样的准确性,使其更适合于对大型多维数据集的处理,提高了挖掘结果的质量.  相似文献   

2.
UK-means算法在处理不确定数据时对孤立点非常敏感,而且事先必须已知不确定数据的分布函数或概率密度,然而这在实际中往往很难获得。因此,针对UK-means在处理不确定测量数据时的不足,首先提出了基于区间数的PAM不确定聚类算法——U-PAM,该算法用区间数和标准差合理地描述了不确定测量数据的不确定性,进而完成有效的聚类;其次,针对海量不确定测量数据难以聚类的问题,基于U-PAM聚类算法,采用抽样技术提出了处理海量不确定测量数据的算法——UM-PAM算法,该算法先抽样,对样本数据聚类,然后再总体聚类;最后,基于U-PAM算法和CH聚类的有效性指标函数对聚类结果进行分析,以确定最佳聚类数。实验理论表明,所提算法聚类效果明显。  相似文献   

3.
提出了一种基于相似度的网格聚类算法(SGCA)。该算法主要利用网格技术去除数据集中的部分孤立点或噪声,使用边界点闽值函数提取类的边界点,最后利用相似度方法进行聚类。SGCA算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好.能处理任意形状和大小的聚类,能够很好地识别出孤立点或噪声,它不仅适用于综合数据集,而且对高维数据集也具有较好的聚类结果。还引进了网格核技术,进一步改善了SGCA算法的时间复杂度。  相似文献   

4.
随着聚类技术的发展.对不同密度的数据集的聚类需求也越来越迫切。为了解决不同密度数据集的聚类问题,提出一种基于距离和密度的多阶段聚类算法MCDD。该算法主要采用多阶段密度处理技术提取不同密度的聚类,同时使用密度因子提高聚类的精度.最后通过使用距离阈值的方法去除孤立点和噪声数据。实验表明,该算法在扩展性方面表现良好.对任意形状和大小的聚类都可以很好地处理,并能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

5.
一种基于PDS、TIE和PMI的快速PAM聚类算法   总被引:2,自引:0,他引:2  
PAM(Partitioning Around Medoids)是一种基于k-中心点的聚类算法,在处理数据集聚类时,具有较强的鲁棒性和准确性.但是,PAM算法的主要缺点是确定聚类中心点集所需的计算代价太高.对于大数据集,PAM聚类过程缓慢.提出一种利用部分距离搜索(PDS),先前中心点标号(PMI),以及三角不等式消除(TIE)准则等搜索策略来降低中心点迭代所需计算复杂性,实现快速PAM聚类的新算法.实验结果表明,相对于基本PAM聚类算法,在保持相同聚类效果的情况下,快速PAM聚类新算法能够减少70%~90%的乘法计算量,并可节省约1/3以上的计算时间.  相似文献   

6.
一种基于数据场的K-均值算法   总被引:1,自引:1,他引:0  
简艳  贾洪勇 《计算机应用研究》2010,27(12):4498-4501
针对K-均值算法在随机选取初始类中心时存在不足、对噪声和孤立点敏感、不适用于发现大小差别很大的类的问题,借鉴分子间的相互作用力模型,将文本模拟成数据场中的数据点,综合考虑文本间的相似度和相异度,提出一个新的数据势值计算公式。根据文本数据的势,剔除孤立点、确定初始类中心。实验结果证明,该算法可以提高收敛速度,消除噪声和孤立点对聚类结果的影响,提高聚类的精度,适用于主题分布不均匀的文本集。  相似文献   

7.
王军  周凯  程勇 《计算机应用》2019,39(2):403-408
密度峰值聚类(DP)算法是一种新的基于密度的聚类算法,当它处理的单个聚类包含多个密度峰值时,会将每个不同密度峰值视为潜在聚类中心,以致难以在数据集中确定正确数量聚类,为此,提出一种混合的密度峰值聚类算法C-DP。首先,以密度峰值点为初始聚类中心将数据集划分为子簇;然后,借鉴代表点层次聚类算法(CURE),从子簇中选取分散的代表点,将拥有最小距离的代表点对的类进行合并,引入参数收缩因子以控制类的形状。仿真实验结果表明,在4个合成数据集上C-DP算法比DP算法聚类效果更好;在真实数据集上的Rand Index指标对比表明,在数据集S1上,C-DP算法比DP算法性能提高了2.32%,在数据集4k2_far上,C-DP算法比DP算法性能提高了1.13%。由此可见,C-DP算法在单个类簇中包含多密度峰值的数据集中能提高聚类的准确性。  相似文献   

8.
改进的k-平均聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孙士保  秦克云 《计算机工程》2007,33(13):200-201
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。  相似文献   

9.
提出了一种多密度网格聚类算法GDD。该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,使用边界点处理技术提高聚类精度,同时对聚类结果进行了人工干预。GDD算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好的识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

10.
基于网格的共享近邻聚类算法   总被引:1,自引:0,他引:1  
刘敏娟  柴玉梅 《计算机应用》2006,26(7):1673-1675
提出了一种基于网格的共享近邻聚类算法(Grid based shared Nearest Neighbor algorithm, GNN)。该算法主要利用网格技术去除数据集中的部分孤立点或噪声,使用密度阈值处理技术来处理网格的密度阈值,使用中心点技术提高聚类效率。GNN算法仅对数据集进行一遍扫描,且能处理任意形状和大小的聚类。实验表明,GNN有较好的可扩展性,其精度和效率明显地好于共享近邻SNN算法。  相似文献   

11.
针对现有物联网大数据特征选择算法计算效率低下、可扩展性不高的问题,提出一种基于改进人工蜂群(ABC)选择特征的系统架构,该架构包含四层体系,可以高效地聚合有效数据,剔除不需要的数据。整个系统是基于Hadoop平台、MapReduce以及改进ABC算法的。改进ABC算法用于选择特征,而MapReduce则由并行算法支持,该算法可高效处理大数据集。该系统使用MapReduce工具实现,并利用粒子滤波来消除噪声。将提出的算法与同类方法进行比较,并通过使用十个不同的数据集对效率、准确性和吞吐量进行评估。结果表明,相比其他几种较新的算法,提出的算法在选择特征时更具可扩展性和高效性。  相似文献   

12.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

13.
基于向量的数据流滑动窗口中最大频繁项集挖掘*   总被引:1,自引:1,他引:0  
针对相关算法在挖掘数据流最大频繁项集时所存在的问题,提出了一种基于向量的数据流滑动窗口中最大频繁项集挖掘算法。该算法首先用向量作为概要数据结构,采用定量更新滑动窗口策略解决时间粒度问题;其次通过位运算产生频繁项集,利用矩阵和数组存储辅助信息,深度优先搜索产生最大频繁项集时利用剪枝策略进一步减少挖掘时间;最后用索引链表存储挖掘结果以提高超集检测效率。理论分析和实验结果验证了该算法的有效性。  相似文献   

14.
为了从大数据集中挖掘关联规则,提出了一种改进的二进制粒子群优化算法(GRBPSO)用于挖掘关联规则。首先,结合关联规则设计BPSO算法的适应度函数,然后对种群进行预处理,保证初始种群的质量,最后设计一种缩减搜索空间的优化策略,以减少搜索空间。基于六个高维数据集,将GRBPSO算法与普通BPSO算法进行比较以证明其有效性;将GRBPSO算法与PSOFIM算法、GA-Apriori算法及PSO-Apriori算法进行比较以证明其可行性。实验结果表明,GRBPSO算法具有一定的可行性且挖掘效率更高。  相似文献   

15.
一种基于K均值预处理回溯的PAM算法   总被引:1,自引:0,他引:1  
针对PAM算法在进行聚类时容易陷入死循环的缺陷,引用了回溯法来解决该问题。但是,加入回溯法的PAM算法具有计算量大迭代次数多的缺点,为了在PAM算法迭代过程中,尽量避免使用回溯法,于是进一步,提出了在进行PAM聚类前,采用K-means算法对数据进行预处理,从而获得粗糙中心点,然后找出一组与粗糙中心点最接近的数据作为初始中心点,再进行PAM聚类。从而得到基于K-means预处理回溯法的PAM算法(K-means Data Preprocessing Backward Search PAM,简称KDPBS-PAM)。实验结果表明,KDPBS-PAM算法极大地改善了PAM算法的性能。  相似文献   

16.
大数据下关联规则算法的改进及应用   总被引:1,自引:0,他引:1  
大数据时代对数据挖掘的技术和应用提出了更高的要求,关联规则算法作为数据挖掘的一个主要方向,能够在大量数据中发现频繁项集和关联知识。 Apriori算法是关联规则的经典算法,本文对其在大数据下应用的缺点提出改进的方法,并结合用户收视行为的海量数据对改进后的算法进行应用,提高了数据挖掘的效率并得到较好的挖掘结果,同时为后续的应用提出了新的课题。  相似文献   

17.
针对密度峰值聚类算法在面对复杂结构数据集时容易出现分配错误的问题,提出一种优化分配策略的密度峰值聚类算法(ODPC)。新算法首先引入参数积γ,扩大了聚类中心的选取范围;然后使用改进的数据点分配策略,对数据集的数据点进行基于相似度指标MS的重新分配,进一步优化了簇类中点集的分配;最后使用dc近邻法优化识别数据集的噪声点。在人工数据集及UCI真实数据集上的实验均可证明,新算法能够在优化噪声识别的同时,提高复杂流形数据集中数据点分配的正确率,并取得比DPC算法、DenPEHC算法、GDPC算法更好的聚类效果。  相似文献   

18.
在数据挖掘中发现关联规则是一个基本问题,而关联规则发现中最昂贵的步骤便是寻找频繁模式。FP_growth(FrequentPatern growth)方法在产生长短频繁项集时不产生候选项集,从而大大提高了挖掘的效率,但是FP_growth在挖掘频繁模式时候产生大量的条件FP树从而占用大量空间,对FP_growth进行研究并提出一种改进算法,该算法不仅利用FP_growth算法所有优点而且避免了FP_growth的缺陷。主要通过建立有限棵条件FP树(数目为事务数据库的属性个数)来挖据长短频繁模式,大大节省了FP_growth算法所需要空间,实验证明该文算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号