首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
提出了一种把自组织特征映射SOM和Kmeans算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化Kmeans的聚类中心,再用Kmeans算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

2.
随着信息的爆炸式增长,现有的搜索引擎在很多方面不能满足人们的需要。Web文档聚类可以减小搜索空间,加快检索速度,提高查询精度。提出了一种融合SOM(Self-Organizing Maps)粗聚类和改进PSO(Particle Swarm Optimization)细聚类的Web文档集成聚类算法。首先根据向量空间模型表示法,用特征词条及其权值表示Web文档信息,其次用SOM算法对文档特征集进行粗聚类,得到一组输出权值,然后用这组权值初始化改进的PSO算法,用改进PSO算法对此聚类结果进行细化,最终实现Web文档聚类。仿真结果表明,该算法能有效提高文档查询的查准率和查全率,具有一定的实用价值。  相似文献   

3.
基于SOM网和K-means的聚类算法   总被引:1,自引:1,他引:0  
K-means算法因对初始中心依赖性而导致聚类结果可能陷入局部极小.而恰当的选取初始中心向量就成为改进K-means算法的关键所在.因此可以先通过SOM进行聚类,较快确定聚类范围,再将其结果作为K-means方法的初始中心向量加以使用.实验证明结合这两种算法能够弥补这两种方法的缺陷,较好改善聚类效果.  相似文献   

4.
自组织映射算法是一种重要的聚类模型,能够有效提高搜索引擎的精确性。为克服自组织映射网络对于初始连接权值敏感的不足,提出一种改进的差分进化和SOM相结合的组合文档聚类算法IDE-SOM,首先引入一种改进的差分进化算法对文档集进行一次粗聚类,旨在对SOM网络的初始连接权值进行优化,然后将这个连接权值初始化SOM网络进行细聚类。仿真实验表明,该算法在F-measure、熵等评价指标上都获得了较好的聚类效果。  相似文献   

5.
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。  相似文献   

6.
覃晓  元昌安 《计算机应用》2008,28(3):757-760
自组织映射(SOM)算法作为一种聚类和高维可视化的无监督学习算法,为进行中文Web文档聚类提供了有力的手段。但是SOM算法天然存在着对网络初始权值敏感的缺陷,从而影响聚类质量。为此,引进遗传算法对SOM网络加以优化。提出了以遗传算法优化SOM网络的文本聚类算法(GSTCA);进行了对比实验,实验表明,改进后的算法GSTCA比SOM算法在Web中文文档聚类中具有更高的准确率,其F-measure值平均提高了14%,同时,实验还表明,GSTCA算法对网络初始权值是不敏感的,从而提高了算法的稳定性。  相似文献   

7.
蚁群聚类组合方法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于蚁群算法的聚类算法已经在当前的数据挖掘研究中得到应用。针对蚁群聚类算法早期出现的缺点,提出一种蚁群聚类组合方法使其得以改进。改进思路是引入K-means作为蚁群算法的预处理过程。通过K-means快速、粗略地确定聚类中心,利用K-means方法的结果作为初值,再进行蚁群算法聚类。有效地解决了蚁群算法早期收敛过慢等问题。  相似文献   

8.
自组织映射聚类算法在电信客户细分中的应用①   总被引:2,自引:0,他引:2  
将自组织映射SOM(Self Organization Map)聚类算法应用于电信客户细分,并与采用K-means聚类算法得到的结果进行比较。实验表明,SOM可以有效的进行电信客户细分且聚类效果较优,但需付出训练时间的代价。同时对两种算法的复杂度、误差等进行了分析。  相似文献   

9.
文本聚类算法的设计与实现   总被引:1,自引:1,他引:0  
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.  相似文献   

10.
改进的K-means 算法在网络舆情分析中的应用   总被引:1,自引:0,他引:1  
结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的K-means算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进。基于文档标题能够代表文档内容的思想,改进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心。最后实验证明改进的K-means算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时保证了聚类准确度。  相似文献   

11.
Clustering web document is an important procedure in many web information retrieval systems. As the size of the Internet grows rapidly and the amount of information requests increases exponentially, the use of parallel computing techniques in large scale web document retrieval is unavoidable. We propose a parallel hybrid web document clustering algorithm, which combines the Principal Direction Divisive Partitioning (PDDP) algorithm with the K-means algorithm. Computational experiments were conducted to test the performance of the hybrid algorithm using three real life web document datasets, and the results were compared with that of the parallel PDDP algorithm and the parallel K-means algorithm. The experiments show that the quality of the clustering solutions obtained from the hybrid algorithm is better than that from the parallel PDDP or the parallel K-means. The parallel run time of the hybrid algorithm is similar to and sometimes less than that of the widely used K-means algorithm.  相似文献   

12.
基于SOM神经网和K-均值算法的图像分割   总被引:2,自引:0,他引:2  
提出了一种基于SOM神经网络和K-均值的图像分割算法。SOM网络将多维数据映射到低维规则网格中,可以有效地用于大型数据的挖掘;而K-均值是一种动态聚类算法,适用于中小型数据的聚类。文中算法利用SOM网络将具有相似特征的象素S点映射到一个2-D神经网上,再根据神经元间的相似性,利用K-均值算法将神经元聚类。文中将该算法用于彩色图像的分割,并给出了经SOM神经网初聚类后,不同K值下神经元聚类对图像分割的结果及与单纯K-均值分割图像进行对比。  相似文献   

13.
提出了一种基于极大熵理论的球面K均值文本聚类算法ME-SPKM。该算法利用了传统文本聚类算法SPKmeans中使用的余弦相似度度量,进而引入极大熵理论构造了适合文本聚类的极大熵目标函数。对文本数据的实验证明了极大熵球面K均值文本聚类算法取得了比传统文本聚类算法更好的聚类效果。  相似文献   

14.
基于关联规则的文本聚类算法的研究*   总被引:1,自引:0,他引:1  
K-均值聚类算法是目前一种较好的文本分类算法,算法中的相似度计算通常基于词频统计,小文档或简单句子由于词频过小,使用该算法聚类效果较差。为此,提出了一种基于词语关联度的相似度计算算法,对简单文档集执行关联规则算法,得出基于关键词的关联规则,并根据这些规则求得词语关联度矩阵,然后由权重对文本进行文本特征向量表示,最后借助于关联度矩阵和文本特征向量,并按一定算法计算出句子相似度。实验证明该算法可得到较好的聚类结果,且其不仅利用词频统计的方法而且考虑了词语间的关系。  相似文献   

15.
传统K-means算法对初始聚类中心选择较敏感, 结果有可能收敛于一般次优解, 为些提出一种结合双粒子群和K-means的混合文本聚类算法。设计了自调整惯性权值策略, 根据最优适应度值的变化率动态调整惯性权值。两子群分别采用基于不同惯性权值策略的粒子群算法进化, 子代间及子代与父代信息交流, 共享最优粒子, 替换最劣粒子, 完成进化, 该算法命名为双粒子群算法。将能平衡全局与局部搜索能力的双粒子群算法与高效的K-means算法结合, 每个粒子是一组聚类中心, 类内离散度之和的倒数是适应度函数, 用K-means算法优化新生粒子, 即为结合双粒子群和K-means的混合文本聚类算法。实验结果表明, 该算法相对于K-means、PSO等文本聚类算法具有更强鲁棒性, 聚类效果也有明显的改善。  相似文献   

16.
一种基于SOM和PAM的聚类算法   总被引:4,自引:0,他引:4  
张钊  王锁柱  张雨 《计算机应用》2007,27(6):1400-1402
提出了一种基于自组织映射(SOM)算法和围绕中心点的划分(PAM)算法相结合的SOM-PAM聚类算法。该算法首先利用SOM算法对数据集进行“粗聚类”并得到簇数k;然后,根据簇数k再利用PAM算法对“粗聚类”结果进行聚类并得到最终聚类结果。通过实验表明,SOM-PAM算法具有比SOM算法更高的聚类效率和更好的聚类质量。  相似文献   

17.
吴勇  李仁发  刘钰峰 《软件》2011,32(4):84-86,90
短文本由于词频过低,使用常规的聚类算法如K-means效果不理想,难得到可接受的准确度。而最近结合使用生物启发及聚类内部有效性测量改进的方法,能够有效改善短文本的聚类效果。针对短文本聚类,提出了改进Ant-Tree的算法。该算法引入了轮廓系数作为内部效度测量,对K-means算法获得的初始聚类划分计算轮廓系数值,根据各聚簇样本值大小排序,将排序结果应用于Ant-Tree算法的初始化步骤中,使Ant-Tree算法性能得到提高。实验结果表明,该算法准确度超过了其它的算法。  相似文献   

18.
一种基于人工免疫原理的混合聚类算法   总被引:1,自引:0,他引:1  
通过借鉴生物免疫系统中的克隆选择原理和记忆机制,提出了一种基于人工免疫原理的混合聚类算法.该算法引入了记忆抗体的分化和抑制机制,可有效地摆脱局部最优点;同时还集成了K-均值搜索算子,用于加快收敛速度.与K-均值方法比较,其具有更快的收敛速度和更高的收敛精度.仿真结果表明,所提算法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号