首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 186 毫秒
1.
以网格化数据集来减少聚类过程中的计算复杂度,提出一种基于密度和网格的簇心可确定聚类算法.首先网格化数据集空间,以落在单位网格对象里的数据点数表示该网格对象的密度值,以该网格到更高密度网格对象的最近距离作为该网格的距离值;然后根据簇心网格对象同时拥有较高的密度和较大的距离值的特征,确定簇心网格对象,再通过一种基于密度的划分方式完成聚类;最后,在多个数据集上对所提出算法与一些现有聚类算法进行聚类准确性与执行时间的对比实验,验证了所提出算法具有较高的聚类准确性和较快的执行速度.  相似文献   

2.
针对基于网格的聚类算法存在簇边缘网格中包含噪声点、利用网格相对密度差进行网格合并时不能区分密度均匀变化的网格等问题。提出一种利用区域划分的多密度快速聚类算法MFCBR。算法把数据空间划分成密度不同的网格,利用网格索引表和网格中心密度差合并网格形成簇,然后分别计算每个簇的边界网格质心、边界网格和最近簇网格中心位置,利用三者之间的关系来排除簇边界网格数据中包含的噪声点。实验表明,该算法在降低噪声数据对聚类干扰的同时,且对密度均匀变化的多密度数据集也有较优的处理效果。  相似文献   

3.
一种基于网格的增量聚类算法*   总被引:1,自引:0,他引:1  
分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。  相似文献   

4.
一种基于网格索引的数据聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了提高基于密度聚类算法的效率,避免算法在执行过程中的多余搜索,提出了一种基于DBSCAN算法的改进的空间数据聚类算法。该算法采用对象邻域空间进行划分的方法,将网格索引结构应用于该算法。在核心对象的邻域内选择八个方向上未标记且距离核心对象最边缘的对象来扩展种子对象,减少查询次数,降低聚类的时间复杂度。在实验中,利用海量数据集对算法进行测试,测试结果证明新算法在保证聚类精度的情况下时间效率显著高于DBSCAN算法。  相似文献   

5.
为了解决相交网格划分技术中聚类结果对数据输入顺序的依赖性和聚类结果精度不高的问题,提出了一种基于相交划分的动态网格聚类算法(DGBO)。该算法利用相交网格划分技术和移动网格技术来解决上述问题,通过连接相交的高密度网格单元形成聚类,只需一个参数,运行速度快。实验表明,DGBO算法能够快速有效地对任意形状、大小的数据集进行聚类,并能很好地识别出孤立点和噪声。  相似文献   

6.
龙超奇  蒋瑜  谢雨 《计算机应用》2021,41(4):1122-1127
针对小波聚类算法在不同网格划分尺度下表现出的聚类效果差异,提出了一种基于峰值网格的改进方法。算法主要针对小波聚类中连通区域的检测方式进行改进:首先,将小波变换后的空间网格依网格值的大小进行排序;然后利用广度优先搜索的方式遍历每一个空间网格,以检测经小波变换后数据中的峰值连通区域;最后,标记连通区域并将其映射到原数据空间中,以得出聚类结果。在8个人工数据集(4个凸数据集与4个非凸数据集)和UCI数据库中的2个真实数据集上的实验结果表明,改进算法在低网格划分尺度下有着良好的表现,与原小波聚类算法相比,这个算法对网格划分尺度的需求降低了25%~60%,并且在相同的聚类效果下减少了14%的聚类所需时间。  相似文献   

7.
为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。  相似文献   

8.
基于混合网格划分的子空间高维数据聚类算法   总被引:1,自引:0,他引:1  
提出一种基于混合网格划分的子空间高维数据聚类算法.该算法消除了各个属性分量数值范围大小对计算的影响;有效去除冗余属性以提高聚类准确性与降低时间复杂度.根据数据分布情况灵活选择固定网格划分或是自适应网格划分,利用这二种不同的网格划分方法具有的优点,以实现进一步降低算法的时间复杂度和提高聚类结果的准确性,并使算法具有更优的可伸缩性.实验使用仿真数据表明,该算法在处理具有属性值域范围大的高维大规模数据时是实用有效的.  相似文献   

9.
针对CLARANS算法聚类效率低、聚类效果依赖初始节点等问题,提出一种基于网格的二次CLARANS算法(Twi-CLAR-ANS)。首先利用网格聚类算法划分数据空间,提取出密集网格中的所有数据对象,用CLARANS算法进行初次聚类,然后将第一次聚类得到的局部最优解作为第二次聚类的初始参照点,对原始数据样本进行第二次聚类,最大程度上避免孤立点信息的丢失,防止聚类结果陷入局部最优。实验结果表明,与CLARANS算法相比,Twi-CLARANS算法具备更优的准确性和执行效率,并且保证了信息的完整性。  相似文献   

10.
针对数据集中数据分布密度不均匀以及存在噪声点,噪声点容易导致样本聚类时产生较大的偏差问题,提出一种基于网络框架下改进的多密度SNN聚类算法。网格化递归划分数据空间成密度不同的网格,对高密度网格单元作为类簇中心,利用网格相对密度差检测出在簇边界网格中包含噪声点;使用改进的SNN聚类算法计算边界网格内样本数据点的局部密度,通过数据密度特征分布对噪声点进行类簇分配,从而提高聚类算法的鲁棒性。在UCI高维的数据集上的实验结果表明,与传统的算法相比,该算法通过网格划分数据空间和局部密度峰值进行样本类簇分配,有效地平衡聚类效果和时间性能。  相似文献   

11.
基于网格密度方向的聚类簇边缘精度加强算法   总被引:1,自引:0,他引:1  
现有的基于网格聚类算法在获得较高效率的同时,却是以牺牲聚类的质量为代价的,特别是在簇与簇相互邻近的情况下,因为簇边缘聚类的不准确这种现象尤为突出.为解决此类问题,提出了一种基于网格密度方向的聚类预处理方法,该方法的思想来源于牛顿的万有引力普遍规律,即物体之间的距离越小质量越大,则吸引力越大,簇内的密度比簇边缘的密度大,即吸引力大,故如果一个网格单元密度同时出现反方向递增时,即挤压的情况,则需要对该单元进行进一步的细分处理,判断该单元是不是簇的边缘单元,并准确地判断边缘单元中对象的挤压方向.实验显示该算法可以有效地加强聚类簇边缘的精度,具有较高的簇识别率,因此,作为聚类的预处理算法是理想的.  相似文献   

12.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

13.
基于最小聚类单元的聚类算法研究及其在CRM中的应用   总被引:8,自引:0,他引:8  
将聚类分析技术应用于客户关系管理可以改善客户关系,对将来的趋势和行为进行预测,优化营销策略。在综合分析网格聚类算法和K-均值聚类算法的基础上,提出了基于最小聚类单元(Minimum Clustering Cell,简称MCC)的聚类算法,介绍了该算法在CRM中的应用。经证明该算法是一种实用的、速度更快、效率更高的改进聚类算法,它克服了K-均值聚类需要事先给定K值、网格聚类要求数据密集的缺点。  相似文献   

14.
一种基于网格密度的自适应聚类分析算法*   总被引:1,自引:0,他引:1  
在结合基于密度和基于网格的聚类算法优点的基础上,提出一种新的聚类算法.该算法能够在海量、高纬数据下发现任意形状的聚类并对噪声数据不敏感,具有较低的时间和空间复杂性及较高的识别率.通过实验对该算法进行了性能比较和测试,显示了它在各方面的优越性.  相似文献   

15.
针对基于密度的噪声应用空间聚类算法(density based spatial clustering of applications with noise,DBSCAN)计算复杂度较高以及无法聚类多密度数据集等问题,提出了一种网格聚类算法和DBSCAN相结合的融合聚类算法(G_FDBSCAN)。利用网格划分技术将数据集划分为稀疏区域和密集区域,分而治之,降低计算的时间复杂度和采用全局参数引起的聚类误差;改进传统的DBSCAN聚算法得到FDBSCAN,将密集区域中网格聚类的结果作为一个整体参与后续的聚类,在网格划分基础上进行邻域检索,减少邻域检索和类扩展过程中对象的无效查询和重复查询,进一步减少时间开销。理论分析和实验测试表明,改进后的算法与DBSCAN算法、DPC算法、KMEANS算法、BIRCH算法和CBSCAN算法相比,在聚类结果接近或达到最优的情况下,聚类效率分别平均提升了24倍、11倍、2倍、3倍和1倍。  相似文献   

16.
提出一种适用于分布式数据流环境的、基于密度网格的聚类算法。利用局部站点快速更新数据流信息,使网格空间反映当前数据流的变化。中心站点负责在接收及合并局部网格结构后,对全局网格结构进行密度网格聚类以及噪声网格优化,形成全局聚类结果。实验结果表明,该算法能减少网络通信量,提高全局聚类精度。  相似文献   

17.
Clustering is one of the important data mining tasks. Nested clusters or clusters of multi-density are very prevalent in data sets. In this paper, we develop a hierarchical clustering approach—a cluster tree to determine such cluster structure and understand hidden information present in data sets of nested clusters or clusters of multi-density. We embed the agglomerative k-means algorithm in the generation of cluster tree to detect such clusters. Experimental results on both synthetic data sets and real data sets are presented to illustrate the effectiveness of the proposed method. Compared with some existing clustering algorithms (DBSCAN, X-means, BIRCH, CURE, NBC, OPTICS, Neural Gas, Tree-SOM, EnDBSAN and LDBSCAN), our proposed cluster tree approach performs better than these methods.  相似文献   

18.
一种进行K-Means聚类的有效方法   总被引:1,自引:0,他引:1  
现有的K-Means聚类算法均直接作用于多维数据集上,因此,当数据集基数和聚类属性个数较大时,这些聚类算法的效率极其低下。为此,文中提出一种基于正规格结构的有效聚类方法(KMCRG)。KMCRG算法以单元格为处理对象来有效完成K-Means聚类工作。特别,该算法使用格加权迭代的策略来有效返回最终的K个类。实验结果表明,KMCRG算法在不损失聚类精度的基础上能够快速返回聚类结果。  相似文献   

19.
在传统的地图可视化中,面对海量地图标记物展示会采用点聚合的方式,但是各类点聚合算法都是运行时计算,没有分层机制,在海量点的散开展示时,对于地图标记物堆叠没有过滤机制。针对这一问题,提出了分层的网格划分实现海量地图标记物聚散一体化解决方案。该方法对分层网格中心点构建K-D树索引,对海量点构建四叉树索引,通过索引和存储技术,实现了聚合的高效查询。对海量点散开时增加网格过滤,消除堆叠问题。在实验案例数据集上进行对比,结果表明,与传统的点聚合方案相比,在数据量大的情况下,计算性能显著提高,对海量标记物散开展示增加过滤算法,有效提升了用户体验。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号