首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
一种基于SOM和K-means的文档聚类算法   总被引:9,自引:0,他引:9  
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

2.
提出了一种把自组织特征映射SOM和Kmeans算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化Kmeans的聚类中心,再用Kmeans算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

3.
郑小慎 《计算机应用》2006,26(4):875-877
提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。  相似文献   

4.
自组织映射算法是一种重要的聚类模型,能够有效提高搜索引擎的精确性。为克服自组织映射网络对于初始连接权值敏感的不足,提出一种改进的差分进化和SOM相结合的组合文档聚类算法IDE-SOM,首先引入一种改进的差分进化算法对文档集进行一次粗聚类,旨在对SOM网络的初始连接权值进行优化,然后将这个连接权值初始化SOM网络进行细聚类。仿真实验表明,该算法在F-measure、熵等评价指标上都获得了较好的聚类效果。  相似文献   

5.
随着信息数字化的快速发展,新兴的归档存储成为研究热点,空间利用率和扩展性是其关键问题.利用基于内容分块存储实现重复数据删除,是提高存储空间利用率的有效途径,但由于归档数据规模巨大,在所有数据中寻找共享分块的做法十分低效.将动态区间映射思想引入信息聚类,提出了基于动态区间映射的文档聚类算法DC-DIM;利用分块和特征提取方法产生文档的分块特征集合,将分块特征集合映射在区间链上,依据文档分块特征集合的映射分布确定文档的存储容器,实现文档聚类;将内容相似度高(共享内容多)的文档聚集在一起,为分块存储和方便数据管理创造有利条件.  相似文献   

6.
李昕  钱旭  王自强 《计算机工程》2010,36(15):40-42,48
为有效解决文档聚类问题,提出一种基于间隔流形学习的文档聚类算法。该算法利用间隔Fisher分析将高维文档空间降维到低维特征空间,利用支持向量聚类算法进行聚类。在基准文档测试集上的实验结果表明,该算法的聚类性能优于其他常用的文档聚类算法。  相似文献   

7.
一种结合主动学习的半监督文档聚类算法   总被引:1,自引:0,他引:1  
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法.  相似文献   

8.
基于XML文档相似性的构件聚类分析   总被引:2,自引:2,他引:0  
构件聚类时,提出了一种计算基于XML描述的构件问相似度的递归算法,能有效度量构件XML描述文档包含的结构和语义信息.构造文档相似矩阵,利用遗传算法将高维样本映射到二维平面上,使用k-means算法聚类,获得全局最优的构件聚类.最后,在构件库测试模型上进行实验,实验结果表明,基于XML相似度的构件聚类算法在构件查询实践中具有可行性和有效性.  相似文献   

9.
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。  相似文献   

10.
基于核方法可在高维特征空间中完成数据聚类,但缺乏对原输入空间聚类中心及结果的直观刻画.提出一种核自组织映射竞争聚类算法.该算法是利用核的特征,导出SOM算法的获胜神经元及权重更新规则,而竞争学习机制依然保持在原输入空间中,这样既解决了当输入样本分布结构呈高度非线性时,其分类能力下降的问题,而且解决了Donald[1]算法导致的特征空间中的获胜神经元在原始输入空间中的原像不存在,而无法对聚类结果利用可视化技术进行解释的问题.实验结果表明,提出的核自组织映射竞争聚类算法在某些数据集中可以获得比SOM算法更好的结果.  相似文献   

11.
传统K-Modes算法的一个主要问题是属性选择问题。K-Modes算法在聚类过程中对每一个属性都同等看待,而在实际应用中,很多数据集仅有几个重要属性对聚类起作用。为了考虑不同属性对聚类的不同影响,将K-Modes聚类算法与属性权重的最优化结合起来,提出一种属性自动赋权的FW-K-Modes算法。该算法不仅可以提高传统K-Modes聚类算法的聚类精度,还能分析各维属性对聚类的贡献程度,实现关键属性的选择。对多个UCI数据集进行了实验,验证了该算法的优良特性。  相似文献   

12.
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为[n]维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。  相似文献   

13.
微学习单元是微学习过程里的基本学习单位,具有高维性.提取微学习单元适合的特征,保留有代表性的特征,有助于降低冗余,是提高微学习聚类精度的重要方法之一.为获得适合的微学习单元特征、降低计算复杂度,并确保聚类准确性,本研究提出一种改进的骨干粒子群无监督特征选择算法用于选择微学习单元的特征.该方法用互信息构造适应度函数,并采用适应性突变概率策略,以提高算法收敛速度和计算精度.实验表明,该方法有助于提取适合的微学习单元特征,且所提取的特征能够提高微学习单元聚类的准确性.  相似文献   

14.
随着信息的爆炸式增长,现有的搜索引擎在很多方面不能满足人们的需要。Web文档聚类可以减小搜索空间,加快检索速度,提高查询精度。提出了一种融合SOM(Self-Organizing Maps)粗聚类和改进PSO(Particle Swarm Optimization)细聚类的Web文档集成聚类算法。首先根据向量空间模型表示法,用特征词条及其权值表示Web文档信息,其次用SOM算法对文档特征集进行粗聚类,得到一组输出权值,然后用这组权值初始化改进的PSO算法,用改进PSO算法对此聚类结果进行细化,最终实现Web文档聚类。仿真结果表明,该算法能有效提高文档查询的查准率和查全率,具有一定的实用价值。  相似文献   

15.
The development of technology generates huge amounts of non-textual information, such as images. An efficient image annotation and retrieval system is highly desired. Clustering algorithms make it possible to represent visual features of images with finite symbols. Based on this, many statistical models, which analyze correspondence between visual features and words and discover hidden semantics, have been published. These models improve the annotation and retrieval of large image databases. However, image data usually have a large number of dimensions. Traditional clustering algorithms assign equal weights to these dimensions, and become confounded in the process of dealing with these dimensions. In this paper, we propose weighted feature selection algorithm as a solution to this problem. For a given cluster, we determine relevant features based on histogram analysis and assign greater weight to relevant features as compared to less relevant features. We have implemented various different models to link visual tokens with keywords based on the clustering results of K-means algorithm with weighted feature selection and without feature selection, and evaluated performance using precision, recall and correspondence accuracy using benchmark dataset. The results show that weighted feature selection is better than traditional ones for automatic image annotation and retrieval.  相似文献   

16.
针对高维复杂的符号数据集在聚类中的聚类效果差和计算耗时过大的问题,首先提出了一种基于邻域距离的无监督特征选择算法,然后在选择到的特征子集上进行重新聚类,从而有效提高了聚类结果的精度,降低了聚类计算的计算耗时。实验结果表明,该算法可以找到有效的特征子集,提高数据集的聚类精度,降低面对高维复杂数据集聚类的计算耗时。  相似文献   

17.
在社会化标记系统中,常采用聚类等数据挖掘技术来解决标签冗余和语意模糊的问题.现有标签聚类算法大多根据不同标签在对象中共同出现的次数来计算它们之间的相似度,但是这种方法聚类的精确度与召回率并不高.针对此问题,提出一种新的标签聚类算法,充分考虑标签的标记信息,采用基于对象的特征向量来精确地表征一个标签,根据余弦相似度公式得到较为准确的标签相似度,然后采用K-Means算法将用户标签进行聚类.实验结果表明该算法能够得到更加精确的聚类结果.  相似文献   

18.
动态加权模糊核聚类算法   总被引:2,自引:0,他引:2  
为了克服噪声特征向量对聚类的影响,充分考虑各特征向量对聚类结果的贡献度的不同,运用mercer核将待聚类的数据映射到高维空间,提出了一种新的动态加权模糊核聚类算法.该算法运用动态加权,自动消弱噪声特征向量在分类中的作用,在对数据没有任何先验信息的情况下,不仅能够准确划分线性数据,而且能够做到非线性划分非团状数据.仿真和实际数据分类结果表明,数据中的噪声对分类结果影响较小,该算法具有很高的实用性.  相似文献   

19.
网络特征数据集中可能包含未知的入侵模式,因此不能预先设定聚类簇的数量,为了在保持聚类分析精度的前提下提高动态聚类算法的效率,提出了可划分聚类数据集的聚类可行解的概念,设计了一种基于人工免疫网络的聚类可行解的获取算法,并对算法获得聚类可行解的条件和概率进行了一定的理论分析。  相似文献   

20.
为了解决推荐算法中无法挖掘用户深层兴趣偏好,从而导致提取准确度低下,以及相似用户聚类准确率低下时间复杂度高等问题,提出评论量化模型优化差分进化的聚类优化推荐算法(MT-QRPD)。首先利用BiGRU网络的特征时序性与CNN的强局部特征有效性联合提取评论深度特征,并利用多头注意力机制的多维语义特征筛选对评论进行深度语义特征挖掘;然后经过多层感知机非线性转换进行多特征融合完成准确量化;最后使用PCA对差分进化变异选择进行优化完成相似用户聚类优化操作,寻找相似用户完成项目推荐。通过多项实验分析表明,所提推荐算法在量化评分准确度、时间复杂度以及推荐性能上都有较好的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号