首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 59 毫秒
1.
基于Kolmogorov复杂性的聚类算法虽然具有普适性、参数无关性的优点,但是应用到文本内容语义信息聚类时往往准确率较低。针对这一问题,提出了一种基于特征扩展的文本聚类改进算法——DEF-KC算法。该算法通过引用百度百科中特定词条的信息,对预处理过的文本中的关键词进行特征扩展,从而提高特征词的主题贡献度,增强文本的结构辨识度,并通过选取特定压缩算法近似计算Kolmogorov复杂性得到文本相似度,最后使用谱聚类算法进行聚类。实验结果表明,与传统的基于Kolmogorov复杂性的文本聚类算法相比,使用该算法时聚类准确率和召回率均得到了较大提升。  相似文献   

2.
改进支持向量聚类算法的研究   总被引:1,自引:1,他引:0  
支持向量聚类,是在支持向量机理论的基础上发展出来的一种新颖的聚类方法,相比传统的各种聚类算法具有更好的表现。它通过二次规划问题求解,能得到全域最优解;能处理任意形状的聚类,对噪声能有效处理;无须事先指定聚类数目,而且参数少;容易处理高维数据。因此适合于希望提高准确度,而又可以离线实现的场合。  相似文献   

3.
蚁群算法是优化领域中新出现的一种仿生进化算法,广泛应用于求解复杂组合优化问题,并已在通信网络、机器人等许多应用领域得以具体应用。聚类问题作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。基于蚁群算法的聚类算法已经在当前的数据挖掘研究中得到应用。文中针对早期蚁群聚类算法的缺点,提出一种改进的启发式蚁群聚类算法(IHAC),将蚁群在多维空间中移动的启发式知识存储在称之为"记忆银行"的设备当中,来指导蚁群后边的移动行为,降低蚁群移动的随意性,避免产生未分配的数据对象。并用一些数据做了一些实验,结果证明改进的蚁群聚类算法在误分类错误率和运行时间上优于早期的蚁群聚类算法。  相似文献   

4.
基于改进的启发式蚁群算法的聚类问题的研究   总被引:1,自引:0,他引:1  
蚁群算法是优化领域中新出现的一种仿生进化算法,广泛应用于求解复杂组合优化问题,并已在通信网络、机器人等许多应用领域得以具体应用。聚类问题作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。基于蚁群算法的聚类算法已经在当前的数据挖掘研究中得到应用。文中针对早期蚁群聚类算法的缺点,提出一种改进的启发式蚁群聚类算法(IHAC),将蚁群在多维空间中移动的启发式知识存储在称之为“记忆银行”的设备当中,来指导蚁群后边的移动行为,降低蚁群移动的随意性,避免产生未分配的数据对象。并用一些数据做了一些实验,结果证明改进的蚁群聚类算法在误分类错误率和运行时间上优于早期的蚁群聚类算法。  相似文献   

5.
文档聚类中k-means算法的一种改进算法   总被引:14,自引:0,他引:14  
万小军  杨建武  陈晓鸥 《计算机工程》2003,29(2):102-103,157
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感,为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法,实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。  相似文献   

6.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。  相似文献   

7.
李小红  罗敏 《计算机科学》2012,39(9):162-165
提出了一种新的基于图划分的聚类算法——GAGPBCUK算法。该算法解决了谱聚类算法参数敏感和聚类结果不准确等问题。3组仿真实验结果表明,GAGPBCUK算法不仅在识别和学习数据集中的隐含聚类数方面具有很好的性能,而且能够得到比谱聚类算法(NJW算法)更加有效的聚类结果。  相似文献   

8.
用于文本聚类的模糊谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。  相似文献   

9.
谱聚类算法综述   总被引:20,自引:4,他引:20  
谱聚类算法是近年来国际上机器学习领域的一个新的研究热点.谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点.本文首先介绍了图论方法用于聚类的基本理论,然后根据图划分准则对谱聚类算法进行分类,着重阐述了各类中的典型算法,并对算法进行了比较分析,最后进行总结并提出了几个有价值的研究方向.  相似文献   

10.
蛋白质相互作用(PPI)网络是生物信息学的一个新的研究领域。近年来谱聚类算法在未知蛋白质的功能预测方面发挥了重要作用,但是它要求事先确定聚类数目,为此提出了一种基于边的得分搜索的谱聚类算法。该算法采用谱聚类方法对数据进行预处理,并通过构造蛋白质节点之间的边的得分矩阵找到数据样本之间的相关性,同时融入粒子群算法来确定边的得分的最佳选择阈值,最后用广度优先遍历结点的方法得到聚类结果。算法在PPI网络数据集上进行了测试,结果表明该算法不但可以自动确定聚类数目,而且聚类结果的正确率和F-measure值都得到了提高。  相似文献   

11.
HEWN算法的复杂性分析——一点商榷意见   总被引:3,自引:0,他引:3  
韩爱丽  杨志敏 《软件学报》2002,13(12):2337-2342
对最大团问题的HEWN(hierarchical edge-weight network)算法进行复杂性分析.首先通过分析HEWN的结构特点和所需进行的操作,设计了一种实现HEWN算法的数据结构,指出了在HEWN算法中HEWN的存储宜采用邻接多重表和二叉链表相结合的链表表示法,然后从HEWN的存储结构入手,剖析了HEWN的构造过程,在剖析过程中,通过与MCST(maximum complete sub-graphtree)比较,指出了当2j>n时潜在的、指数的生成和修改GM的次  相似文献   

12.
朱婵  许龙飞 《计算机工程与应用》2006,42(15):171-175,178
针对传统聚类算法在基因表达数据处理中的不足之处,讨论了与计算智能技术相关的两种算法:模糊C均值算法(FCM)和遗传K均值算法(GKA),对FCM算法中类别数c和模糊指数m的选取进行了比较深入的研究,最后用实验数据对各算法性能进行了分析和比较。  相似文献   

13.
从多角度分析现有聚类算法   总被引:51,自引:3,他引:51  
钱卫宁  周傲英 《软件学报》2002,13(8):1382-1394
聚类是数据挖掘中研究的重要问题之一.聚类分析就是把数据集分成簇,以使得簇内数据尽量相似,簇间数据尽量不同.不同的聚类方法采用不同的相似测度和技术.从以下3个角度分析现有流行聚类算法: (1)聚类尺度; (2)算法框架; (3)簇的表示.在此基础上,分析了一些综合或概括了一些其他方法的算法.由于分析从3个角度进行,所提出的方法能够涵盖,并区分绝大多数现有聚类算法.所做的工作是自调节聚类方法以及聚类基准测试研究的基础.  相似文献   

14.
基于聚类分析技术的数据清洗研究   总被引:3,自引:0,他引:3       下载免费PDF全文
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数 据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。  相似文献   

15.
蚁群聚类算法综述   总被引:18,自引:0,他引:18  
数据聚类是重要的数据挖掘技术,在工程和技术等领域具有广泛的应用背景。蚁群算法作为一种新型的优化方法,具有很强的鲁棒性和适应性。文章着重介绍蚁群聚类算法的研究情况,阐述当今流行的蚁群聚类算法的基本原理及其特性,旨在为蚁群聚类算法的发展提供引导作用。  相似文献   

16.
基于聚类和关联规则的挖掘算法   总被引:4,自引:0,他引:4       下载免费PDF全文
数据挖掘技术中关联规则可以很好地发现数据项之间存在的相互关系,同时有大量的挖掘算法可供选择。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。本文研究 聚类和关联规则的挖掘算法。  相似文献   

17.
硬聚类算法HCM求解的结果通常都是局部的最优解,当模糊集合间的运算采用传统定义的时候,它的聚类结果中还会存在无意义的聚类集。本文通过研究表明,在HCM聚类算法中应用遗传算法,可以在一定程度上避免硬聚类算法收敛到局部最优解。因此,本文将遗传算法应用于硬聚类算法,并设计了相应的算法。但是,考虑到本算法实现时的开销 销和效率,又对该算法进行了改进,并最终提出一种新的算法--CHCM聚类算法。测试数据表明,采用改进后的聚类算法的结果90%以上能够取得全局的最优解,远远超过了采用硬聚类算法时所取得全局最优解的次数,证明了本算法的可推广性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号