首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,对噪声不敏感.而现有的该类算法对于空间数据分布不均匀的情况聚类效果不佳.鉴于此,文中提出一种改进的基于密度的聚类算法,保持了基于密度的聚类算法的优点,并且可以有效地处理分布不均的数据集,减少了时间复杂度,适用于对大规模数据库的挖掘与分析.  相似文献   

2.
基于簇特征的增量聚类算法设计与实现   总被引:2,自引:0,他引:2       下载免费PDF全文
对于大型数据库,如空间数据库和多媒体数据库,传统聚类算法的有效性和可扩展性受到限制。通过动态增量的方法,在基于密度和自适应密度可达聚类算法的基础上,根据BIRCH算法中聚类特征的概念,利用簇特征设计与实现了一种新的动态增量聚类算法,解决了大型数据库聚类的有效性以及空间和时间复杂度问题。理论分析和实验结果证明该算法能够有效地处理大型数据库,使聚类算法具有良好的可扩展性。  相似文献   

3.
基于Web-Log Mining的Web文档聚类   总被引:22,自引:0,他引:22  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):99-104
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.  相似文献   

4.
在分析了现有的基于密度的聚类算法的基础上,结合微粒群算法,提出了一种基于密度的微粒群混合聚类算法。相对于DENCLUE聚类算法,该算法能够对使用的资源进行有效的控制,有利于实现对数据库数据的增量处理。实验证明了算法的有效性。  相似文献   

5.
一种改进的基于密度的聚类算法   总被引:10,自引:0,他引:10  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,对噪声不敏感。而现有的该类算法对于空间数据分布不均匀的情况聚类效果不佳。鉴于此,文中提出一种改进的基于密度的聚类算法,保持了基于密度的聚类算法的优点,并且可以有效地处理分布不均的数据集,减少了时间复杂度,适用于对大规模数据库的挖掘与分析。  相似文献   

6.
一种基于密度树的网格快速聚类算法的研究   总被引:3,自引:0,他引:3  
聚类算法是数据挖掘领域中一个非常重要的研究方向。人们已经提出了许多适用于大规模的、高维的数据库的聚类算法。基于密度的聚类算法是其中一个比较典型的研究方向。该文以CABDET算法为基础,提出了一种基于密度树的网格快速聚类算法,该算法将网格的原理运用到基于密度树的聚类算法中,有效地提高了聚类的效率,降低了I/O的开销。  相似文献   

7.
基于网格的多密度聚类算法   总被引:2,自引:1,他引:2  
提出了一种多密度网格聚类算法GDD.该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,使用边界点处理技术提高聚类精度,同时对聚类结果进行了人工干预.GDD算法只要求对数据集进行一遍扫描.实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好的识别出孤立点或噪声,在处理多密度聚类方面有很好的精度.  相似文献   

8.
一种基于密度的快速聚类算法   总被引:52,自引:0,他引:52  
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。  相似文献   

9.
人工鱼群聚类分析算法*   总被引:4,自引:2,他引:2  
针对人工鱼的特点,提出了一种新的聚类分析算法——人工鱼群聚类分析算法。该算法是一种基于网格和密度的聚类分析算法,它能够自动获得簇类数K,能对任意形状的数据库进行聚类,具有较好的并行性,通过网格大小的控制可获得不同层次的聚类结果。它克服了K均值算法要指定簇数K的困难和对球状数据库效果好的缺憾。  相似文献   

10.
大规模交易数据库的一种有效聚类算法   总被引:13,自引:0,他引:13  
陈宁  陈安  周龙骧 《软件学报》2001,12(4):475-484
研究大规模交易数据库的聚类问题,提出了一种二次聚类算法——CATD.该算法首先将数据库划分成若干分区,在每个分区内利用层次聚类算法进行局部聚类,把交易初步划分成若干亚聚类,亚聚类的个数由聚类间的距离参数控制.然后对所有的亚聚类进行全局聚类,同时识别出噪声.由于采用了分区方法和聚类的支持向量表示法,该算法只需扫描一次数据库,聚类过程在内存中进行,因此能处理大规模的数据库.  相似文献   

11.
基于特征向量的分布式聚类算法   总被引:7,自引:0,他引:7  
提出了一种新的表达数据集的方法——特征向量,它通过坐标和密度描述了某一密集空间,以较少的数据量反映站点数据的分布特性。在此基础上提出了一种基于特征向量的分布式聚类算法——DCBFV(Distributed Clustering Based on Feature Vector),该算法可有效降低网络通信量,能够对任意形状分布的数据进行聚类,提高了分布式聚类的时空效率和性能。理论分析和实验结果表明DCBFV是高效可行的。  相似文献   

12.
在大数据量的环境下,传统空间数据的空间关系仅描述两个空间物体,从而出现数据存储冗余,检索速度慢等问题。提出改进的聚类算法对空间物体聚类,再在聚类结果的基础上表示空间物体的方向关系。提出了基于密度的K-均值算法和空间聚类与方向关系融合的新方法。所提方法增强了空间数据库对空间数据对象的空间方向关系的智能处理能力,节省了存储空间,提高了数据的查询速度。  相似文献   

13.
针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。该算法在基于相对密度的聚类方法基础上,根据相对密度越小本文相似性越小这一事实,将相对密度转化为文本相似度,融入了传统DBSCAN密度算法,并对核心对象的选取进行了优化,。实验结果表明,与改进的K-means文本聚类和改进的DBSCAN文本聚类算法相比,本算法在文本聚类中更高效、聚类质量更优。  相似文献   

14.
为了提高新闻话题聚类精度,论文提出一种基于Word2Vec的改进密度峰值聚类算法。首先基于Word2Vec提出一种新闻文本的向量表示方法,然后针对密度峰值聚类算法存在的问题,提出一种基于KNN改进的密度峰值聚类算法。该算法首先基于KNN计算样本的局部密度,然后通过最小二乘法线性拟合选取初始聚类中心并对剩余样本进行指派形成聚类结果。在搜狐新闻数据集上的实验结果验证了该算法的有效性。  相似文献   

15.
为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性,而导致文本向量概念表达不够准确,提出基于概念向量的文本聚类算法TCBCV(Text Clustering Based on Concept Vector),采用HowNet的概念属性,并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念,实现关键词到概念的映射,不仅增加了文本之间的语义关系,而且降低了向量维度,将其应用于文本聚类,能够提高文本聚类效果。实验结果表明,该算法在文本聚类的准确率和召回率上都得到了较大的提高。  相似文献   

16.
提出一种基于模式聚类和混合模型参数自动选择的图库索引方法。因为传统的EM(Expectation Maximization)算法为混合模型聚类问题中的参数估计提供了一个很好的解决方法,但需要事先指定聚类数,影响了高维数据索引的精度和效率。综合利用改进的CEM2(Component-wise EM of Mixture)混合模型自动选择算法、矢量量化和概率近似的索引机制,在保证准确率同时有效提高了检索效率。  相似文献   

17.
叶菲  罗景青 《计算机工程》2008,34(19):206-208
支持向量机在解决小样本、非线性及高维模式识别问题中具有许多特有的优势,但支持向量的选择过程复杂。该文利用聚类技术的特殊性能,提出基于搜索机制的密度聚类算法,该算法通过一种简单的搜索策略可将密度高于一定限度的对象聚为一类。将该算法用于支持向量的预选取,可减少训练样本数目,提高支持向量机的训练速度。从仿真实验可以看出,通过基于搜索机制密度聚类的支持向量预选取,训练样本数目可减少2/3以上,线性可分的数据训练速度可加快12倍左右,非线性可分的数据训练速度可加快5倍左右。  相似文献   

18.
现代智慧医疗需要操作简洁、反应迅速,能够提供智慧诊断的信息化平台,提出基于物联网无线传感器技术的智慧医疗模型。系统利用附着在患者身上的各类传感器采集到的生理信息数据,采用基于密度的带有噪声的空间聚类(DBSCAN)算法的数据分析方法,用非线性映射把患者的生理信息数据转换到高纬度的特征空间,对变换后的矢量数据进行聚类分析,从而提升聚类结果并有效辅助医务人员进行诊断。  相似文献   

19.
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。  相似文献   

20.
为了提高人体动作视频检索的鲁棒性和效率,提出了一种模糊加权的人体动作视频检索方法。该方法采用3D Harris算子检测视频中的时空兴趣点,提取这些兴趣点的梯度信息,构建特征向量;然后采用模糊聚类方法构建聚类特征向量,提高特征向量的抗干扰能力;接着匹配聚类特征向量中的梯度向量对,构建模糊权重矩阵,计算查询视频与数据库中各个视频的相似度;最后在KTH数据库上进行视频检索实验,结合精确度、召回率和检索耗时三个指标进行评价,证明该方法的性能最优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号