首页 | 本学科首页   官方微博 | 高级检索  
     

基于模糊相似度的RPCL文本聚类算法
引用本文:郝剑,高茂庭. 基于模糊相似度的RPCL文本聚类算法[J]. 数字社区&智能家居, 2011, 0(18)
作者姓名:郝剑  高茂庭
作者单位:上海海事大学信息工程学院;
摘    要:文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。

关 键 词:模糊相似度  RPCL  文本聚类  

RPCL Text Clustering Based on Fuzzy Similarity Degree
HAO Jian,GAO Mao-ting. RPCL Text Clustering Based on Fuzzy Similarity Degree[J]. Digital Community & Smart Home, 2011, 0(18)
Authors:HAO Jian  GAO Mao-ting
Affiliation:HAO Jian,GAO Mao-ting(College of Information Engineering,Shanghai Maritime University,Shanghai 200135,China)
Abstract:There exist some problems in text clustering,such as huge dimensionality in text feature matrix,unknown cluster number.Some expert put forward the algorithm of Rival Penalized Competitive Learning,RPCL for short.The algorithm solved the problem of determining the clustering number in some degree.However,it is suited to cluster of text in lower dimension,not to higher dimension.This paper introduces a improved RPCL algorithm.Fuzzy similarity instead of Euclid distance is used to compute similarity.The experi...
Keywords:fuzzy similarity  RPCL  text clustering  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号