首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于层次聚类的k均值算法研究   总被引:4,自引:3,他引:1  
针对k均值算法需要用户事先确定聚簇数k、阈值t和聚簇中心Q,提出了一种基于层次的k均值聚类算法(HKMA)。该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。最后通过实验验证了算法的准确度和时间效率,通过与其他聚类算法的比较,所提出的算法具有更好的性能。  相似文献   

2.
介绍了自组织特征映射(SOFM)算法及大规模应用聚类(CLARA)算法的基本思想,提出了一种首先利用SOFM算法对数据集进行粗聚类,确定簇的数目k和神经元的连接权向量,然后从数据集中找出与SOFM算法的神经元的连接权向量最相似的k个代表点作为CLARA算法的k个代表点的初始值的改进CLARA算法。实验结果表明,改进算法具有更高的聚类效率和更好的聚类质量。  相似文献   

3.
针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向的方式在多个处理机间划分数据集,根据频繁词集生成粗聚类,然后利用并行k-means算法精化粗聚类从而得到最终结果,并由k个频繁词集对聚簇提供描述.与另外两个并行聚类算法通过实验进行比较,parSHDC具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚类.  相似文献   

4.
在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度.  相似文献   

5.
随着信息的爆炸式增长,现有的搜索引擎在很多方面不能满足人们的需要。Web文档聚类可以减小搜索空间,加快检索速度,提高查询精度。提出了一种融合SOM(Self-Organizing Maps)粗聚类和改进PSO(Particle Swarm Optimization)细聚类的Web文档集成聚类算法。首先根据向量空间模型表示法,用特征词条及其权值表示Web文档信息,其次用SOM算法对文档特征集进行粗聚类,得到一组输出权值,然后用这组权值初始化改进的PSO算法,用改进PSO算法对此聚类结果进行细化,最终实现Web文档聚类。仿真结果表明,该算法能有效提高文档查询的查准率和查全率,具有一定的实用价值。  相似文献   

6.
自组织映射聚类算法在电信客户细分中的应用①   总被引:2,自引:0,他引:2  
将自组织映射SOM(Self Organization Map)聚类算法应用于电信客户细分,并与采用K-means聚类算法得到的结果进行比较。实验表明,SOM可以有效的进行电信客户细分且聚类效果较优,但需付出训练时间的代价。同时对两种算法的复杂度、误差等进行了分析。  相似文献   

7.
基于网格和密度的簇边缘精度增强聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
现有的基于网格聚类算法在付出较小的时间复杂度的同时,牺牲了聚类的质量,得到的往往并不是最理想的聚类结果,尤其是在簇边缘可能出现数据点聚类不准现象。提出了一种将网格化空间中位于簇边缘的网格进行精度进一步细化处理的算法,将这些边缘网格中的这些不确定的点重新恢复它们的固有信息,再利用相似度函数将它们分配到合适的簇中。在空间数据集上实验数据表明,这种簇边缘精度增强聚类算法可在O(n)时间内得到优于CLIQUE算法的聚类结果。  相似文献   

8.
采用蚁群爬山法进行聚类分析的算法   总被引:8,自引:0,他引:8  
介绍了一种基于密度和网格的聚类分析算法——蚁群爬山法(ACH),这种算法能自动获得簇数k的值和任意形状的簇的划分,并具有较好的并行性。通过对网格大小的控制可获得不同层次的聚类结果。  相似文献   

9.
针对SOM 神经网络算法复杂度高精度低以及K-Means聚类算法需事先确定聚类(簇)数目和随机选取初始聚类中心的不足,论文提出了一种SOM神经网络与K-M eans相结合的S-K二次聚类算法,进行功能互补。该算法应用在SM T焊接质量上,能提高数据聚类信息的精确度,直观地看到数据的分布情况,改善系统的整体性能。  相似文献   

10.
基于SOM算法的文本聚类实现   总被引:2,自引:0,他引:2  
以自组织映射(Self-organizing Map,SOM)算法作为理论基础,实现对文本聚类,并采用U矩阵进行可视化表示。通过对聚类结果的分析,表明SOM算法具有较好的聚类效果。  相似文献   

11.
PAM是最早提出的k-medoids算法之一,该算法比较健壮,比k-means算法鲁棒性更强,但是PAM对初始值敏感,易陷入局部收敛。利用PSO算法对PAM进行优化,提出一种基于PSO和PAM的聚类方法,充分利用PAM和PSO两者对于不同问题的优势,来不断地更新PAM的聚类中心。通过建立基于熵的聚类有效性函数,对混合聚类算法的性能进行客观评价。从来自UCI的数据的测试结果表明,这种混合聚类的方法有较高的聚类正确率。  相似文献   

12.
提出了一种把自组织特征映射SOM和Kmeans算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化Kmeans的聚类中心,再用Kmeans算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

13.
一种基于SOM和K-means的文档聚类算法   总被引:9,自引:0,他引:9  
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

14.
覃晓  元昌安 《计算机应用》2008,28(3):757-760
自组织映射(SOM)算法作为一种聚类和高维可视化的无监督学习算法,为进行中文Web文档聚类提供了有力的手段。但是SOM算法天然存在着对网络初始权值敏感的缺陷,从而影响聚类质量。为此,引进遗传算法对SOM网络加以优化。提出了以遗传算法优化SOM网络的文本聚类算法(GSTCA);进行了对比实验,实验表明,改进后的算法GSTCA比SOM算法在Web中文文档聚类中具有更高的准确率,其F-measure值平均提高了14%,同时,实验还表明,GSTCA算法对网络初始权值是不敏感的,从而提高了算法的稳定性。  相似文献   

15.
针对异常检测方法中存在的异常连接信息不足的问题设计了一种基于混合聚类和自组织映射的异常检 测模型.首先提出了一种聚类算法用以进行异常检测,然后再通过自组织映射(SOM)对检测出的异常连接进行分 类以获得其更多的异常连接信息.最后应用实验数据集进行仿真,结果表明本检测模型是有效的,能够将检测到的 异常连接进行分类并由其所属类别给出该异常连接的更多信息,且检测和分类的效率比较高,误报率低.?  相似文献   

16.
自组织映射算法是一种重要的聚类模型,能够有效提高搜索引擎的精确性。为克服自组织映射网络对于初始连接权值敏感的不足,提出一种改进的差分进化和SOM相结合的组合文档聚类算法IDE-SOM,首先引入一种改进的差分进化算法对文档集进行一次粗聚类,旨在对SOM网络的初始连接权值进行优化,然后将这个连接权值初始化SOM网络进行细聚类。仿真实验表明,该算法在F-measure、熵等评价指标上都获得了较好的聚类效果。  相似文献   

17.
秦绪佳  单扬洋  徐菲  郑红波  张美玉 《计算机科学》2018,45(12):262-267, 287
针对全国各省份垃圾处理方式的数据,提出一种混合可视分析方法。为了从多角度分析数据,混合U矩阵、平行坐标以及Small-Multiple 3种可视化技术,设计并实现了3种可视化视图的交互联动。首先,对数据进行聚类处理,将各省份近年的垃圾处理方式划分类别,采用SOM神经网络聚类算法实现聚类。然后,针对SOM聚类结果,采用U矩阵的方式进行可视化,并采用平行坐标描述每个聚类结果的各个属性。为了分析数据的地理属性及时序属性,采用Small-Multiple可视化技术。最后,实现多视图联动、刷新技术等交互方式,帮助用户自行探索数据,实现多视图的交互展示与分析。实验表明,这种混合可视方式可达到较好的多属性交互可视化效果,能够帮助用户了解并分析我国垃圾处理方式的分布及趋势。  相似文献   

18.
当前专利是按照领域划分的,而基于功效特征可以实现跨领域的专利聚类,这在企业创新设计中具有重要意义,而精确提取专利功效特征和快速获得最优聚类结果是其中的关键任务。为此提出一种信息实体语义增强表示(ERNIE)和卷积神经网络(CNN)相结合的功效特征联合提取(FEI-Joint)模型来提取专利文献的功效特征,并且改进自组织神经网络(SOM)算法,从而提出具有早期拒绝策略与类合并思想的自组织神经网络(ERCM-SOM)来实现基于功效特征的专利聚类。对FEI-Joint模型与TF-IDF、狄利克雷分布(LDA)、CNN在特征提取后的聚类效果上进行比较和分析,结果表明其F-measure值比其他模型有明显提高。ERCM-SOM算法与K-Means算法、SOM算法相比,在F-measure值提高的同时,其时间较SOM算法有明显缩短。对比使用专利分类号(IPC)的专利分类,采用基于功效特征的聚类方法可实现跨领域的专利聚类效果,为设计者借鉴其他领域的设计方法奠定了基础。  相似文献   

19.
Data clustering is a key task for various processes including sequence analysis and pattern recognition. This paper studies a clustering algorithm that aimed to increase accuracy and sensitivity when working with biological data such as DNA sequences. The new algorithm is a modified version of fuzzy C‐means (FCM) and is based on the well‐known self‐organizing map (SOM). In order to show the performance of the algorithm, seven different data sets are processed. The experimental results demonstrate that the proposed algorithm has the potential to outperform SOM and FCM in terms of clustering and classification accuracy abilities. Additionally, a brief comparison is made the proposed algorithm with some previously studied ‘FCM‐SOM’ hybrid algorithms from the literature.  相似文献   

20.
并行处理的研究在数据挖掘中是十分必要的。在理论分析的基础上,提出在对经典串行PAM算法进行并行时应如何从局部聚类信息生成完备的全局聚类信息,据此提出了算法DPAM,在提高计算性能的同时,使聚类质量等价于相应串行PAM算法。为提高并行算法的执行效率,还介绍了如何减小计算结点间通信的代价。最后对提出的算法进行性能分析和实验,说明该算法是高效可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号