首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
郑涛  张帆 《现代计算机》2006,(6):19-21,36
CLARA是k-中心值聚类的一种算法,在处理大型数据集的聚类问题时,比PAM(围绕中心点的划分)更具有良好的伸缩性,但CLARA算法随机抽样中存在采样不准确的缺点.本文针对这一不足,使用了数据场的概念对CLARA聚类算法进行了有益的改进,提高了采样的准确性,使其更适合于对大型多维数据集的处理,提高了挖掘结果的质量.  相似文献   

2.
UK-means算法在处理不确定数据时对孤立点非常敏感,而且事先必须已知不确定数据的分布函数或概率密度,然而这在实际中往往很难获得。因此,针对UK-means在处理不确定测量数据时的不足,首先提出了基于区间数的PAM不确定聚类算法——U-PAM,该算法用区间数和标准差合理地描述了不确定测量数据的不确定性,进而完成有效的聚类;其次,针对海量不确定测量数据难以聚类的问题,基于U-PAM聚类算法,采用抽样技术提出了处理海量不确定测量数据的算法——UM-PAM算法,该算法先抽样,对样本数据聚类,然后再总体聚类;最后,基于U-PAM算法和CH聚类的有效性指标函数对聚类结果进行分析,以确定最佳聚类数。实验理论表明,所提算法聚类效果明显。  相似文献   

3.
随着聚类技术的发展.对不同密度的数据集的聚类需求也越来越迫切。为了解决不同密度数据集的聚类问题,提出一种基于距离和密度的多阶段聚类算法MCDD。该算法主要采用多阶段密度处理技术提取不同密度的聚类,同时使用密度因子提高聚类的精度.最后通过使用距离阈值的方法去除孤立点和噪声数据。实验表明,该算法在扩展性方面表现良好.对任意形状和大小的聚类都可以很好地处理,并能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

4.
一种基于数据场的K-均值算法   总被引:1,自引:1,他引:0  
简艳  贾洪勇 《计算机应用研究》2010,27(12):4498-4501
针对K-均值算法在随机选取初始类中心时存在不足、对噪声和孤立点敏感、不适用于发现大小差别很大的类的问题,借鉴分子间的相互作用力模型,将文本模拟成数据场中的数据点,综合考虑文本间的相似度和相异度,提出一个新的数据势值计算公式。根据文本数据的势,剔除孤立点、确定初始类中心。实验结果证明,该算法可以提高收敛速度,消除噪声和孤立点对聚类结果的影响,提高聚类的精度,适用于主题分布不均匀的文本集。  相似文献   

5.
一种基于PDS、TIE和PMI的快速PAM聚类算法   总被引:2,自引:0,他引:2  
PAM(Partitioning Around Medoids)是一种基于k-中心点的聚类算法,在处理数据集聚类时,具有较强的鲁棒性和准确性.但是,PAM算法的主要缺点是确定聚类中心点集所需的计算代价太高.对于大数据集,PAM聚类过程缓慢.提出一种利用部分距离搜索(PDS),先前中心点标号(PMI),以及三角不等式消除(TIE)准则等搜索策略来降低中心点迭代所需计算复杂性,实现快速PAM聚类的新算法.实验结果表明,相对于基本PAM聚类算法,在保持相同聚类效果的情况下,快速PAM聚类新算法能够减少70%~90%的乘法计算量,并可节省约1/3以上的计算时间.  相似文献   

6.
提出了一种基于相似度的网格聚类算法(SGCA)。该算法主要利用网格技术去除数据集中的部分孤立点或噪声,使用边界点阈值函数提取类的边界点,最后利用相似度方法进行聚类。SGCA算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好的识别出孤立点或噪声,它不仅适用于综合数据集,而且对高维数据集也具有较好的聚类结果。本文中还引进了网格核技术,进一步改善了SGCA算法的时间复杂度。  相似文献   

7.
自动化网格聚类探究   总被引:1,自引:0,他引:1  
提出了一种自动化的网格聚类算法GAC。该算法主要采用密度阈值技术提取不同的类,使用边界点处理技术提高聚类精度。GAC算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

8.
孙秀娟  刘希玉 《计算机应用》2008,28(12):3244-3247
在K-means算法中,聚类数k是影响聚类质量的关键因素之一。目前,已经提出了许多确定最佳k值的聚类有效性方法,但这些方法都不能很好地处理两种数据集:类(簇)密度不同的数据集和类间距比较小的数据集(含有合并簇的数据集)。为此,提出了一种新的聚类有效性函数,该函数定义为数据特征轴总长度的平方与最小类间距的比值,最佳聚类数为这个比值达到最小时对应的k值。同时,为减小K-means算法对噪声和孤立点数据的敏感性,使用了基于加权的改进K-平均的方法计算类中心。实验证明,与其他算法相比,基于新聚类有效性函数的K-wmeans算法不仅降低了噪声和孤立点数据对聚类结果的影响,而且能有效地处理上面提到的两种数据集,明显提高了数据聚类质量。  相似文献   

9.
提出了一种多密度网格聚类算法GDD。该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,使用边界点处理技术提高聚类精度,同时对聚类结果进行了人工干预。GDD算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好的识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

10.
孤立数据的存在使数据挖掘结果不准确,甚至错误。现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此,提出一种有效的全局孤立点检测方法,该方法进行凝聚层次聚类,根据聚类树和距离矩阵来可视化判断数据孤立程度,确定孤立点数目。从聚类树自顶向下,无监督地去除离群数据点。在多个数据集上的仿真实验结果表明,该方法能有效识别孤立程度最大的前n个全局孤立点,适用于不同形状的数据集,算法效率高,用户友好,且适用于大型高维数据集的孤立点检测。  相似文献   

11.
针对现有物联网大数据特征选择算法计算效率低下、可扩展性不高的问题,提出一种基于改进人工蜂群(ABC)选择特征的系统架构,该架构包含四层体系,可以高效地聚合有效数据,剔除不需要的数据。整个系统是基于Hadoop平台、MapReduce以及改进ABC算法的。改进ABC算法用于选择特征,而MapReduce则由并行算法支持,该算法可高效处理大数据集。该系统使用MapReduce工具实现,并利用粒子滤波来消除噪声。将提出的算法与同类方法进行比较,并通过使用十个不同的数据集对效率、准确性和吞吐量进行评估。结果表明,相比其他几种较新的算法,提出的算法在选择特征时更具可扩展性和高效性。  相似文献   

12.
基于向量的数据流滑动窗口中最大频繁项集挖掘*   总被引:1,自引:1,他引:0  
针对相关算法在挖掘数据流最大频繁项集时所存在的问题,提出了一种基于向量的数据流滑动窗口中最大频繁项集挖掘算法。该算法首先用向量作为概要数据结构,采用定量更新滑动窗口策略解决时间粒度问题;其次通过位运算产生频繁项集,利用矩阵和数组存储辅助信息,深度优先搜索产生最大频繁项集时利用剪枝策略进一步减少挖掘时间;最后用索引链表存储挖掘结果以提高超集检测效率。理论分析和实验结果验证了该算法的有效性。  相似文献   

13.
一种基于K均值预处理回溯的PAM算法   总被引:1,自引:0,他引:1  
针对PAM算法在进行聚类时容易陷入死循环的缺陷,引用了回溯法来解决该问题。但是,加入回溯法的PAM算法具有计算量大迭代次数多的缺点,为了在PAM算法迭代过程中,尽量避免使用回溯法,于是进一步,提出了在进行PAM聚类前,采用K-means算法对数据进行预处理,从而获得粗糙中心点,然后找出一组与粗糙中心点最接近的数据作为初始中心点,再进行PAM聚类。从而得到基于K-means预处理回溯法的PAM算法(K-means Data Preprocessing Backward Search PAM,简称KDPBS-PAM)。实验结果表明,KDPBS-PAM算法极大地改善了PAM算法的性能。  相似文献   

14.
大数据下关联规则算法的改进及应用   总被引:1,自引:0,他引:1  
大数据时代对数据挖掘的技术和应用提出了更高的要求,关联规则算法作为数据挖掘的一个主要方向,能够在大量数据中发现频繁项集和关联知识。Apriori算法是关联规则的经典算法,本文对其在大数据下应用的缺点提出改进的方法,并结合用户收视行为的海量数据对改进后的算法进行应用,提高了数据挖掘的效率并得到较好的挖掘结果,同时为后续的应用提出了新的课题。  相似文献   

15.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

16.
为了从大数据集中挖掘关联规则,提出了一种改进的二进制粒子群优化算法(GRBPSO)用于挖掘关联规则.首先,结合关联规则设计BPSO算法的适应度函数,然后对种群进行预处理,保证初始种群的质量,最后设计一种缩减搜索空间的优化策略,以减少搜索空间.基于六个高维数据集,将GRBPSO算法与普通BPSO算法进行比较以证明其有效性...  相似文献   

17.
依据基于熵的模糊聚类算法(EFC),提出一种改进的基于熵的中心聚类算法,即通过EFC算法得到差异性十分明显的原始数据集的簇心,以这些簇心为中心再次进行聚类分析,通过各点到各中心的距离将各点重新分配到以各中心所代表的集合中。改进的算法不仅可以得到具有紧凑且差异明显的聚类结果,还可以使准确率得到有效提高。实验结果表明,该改进的算法能够实现数据集的有效聚类,相比于EFC算法的聚类结果准确率更高。  相似文献   

18.
在数据挖掘中发现关联规则是一个基本问题,而关联规则发现中最昂贵的步骤便是寻找频繁模式。FP_growth(frequent-patern growth)方法在产生长短频繁项集时不产生候选项集,从而大大提高了挖掘的效率,但是FP_growth在挖掘频繁模式时候产生大量的条件FP树从而占用大量空间,对FP_growth进行研究提出一种改进算法不仅利用FP_growth 算法所有优点,而且避免FP_growth的缺陷。主要通过建立有限棵条件FP树(数目为事务数据库的属性个数)来挖据长短频繁模式,大大节省FP_growth算法所需要空间,实验证明本文算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号