首页 | 本学科首页   官方微博 | 高级检索  
     

基于主题子空间的文本模糊C均值聚类方法
引用本文:吉翔华,陈超,邵正荣,俞能海.基于主题子空间的文本模糊C均值聚类方法[J].小型微型计算机系统,2007,28(12):2225-2228.
作者姓名:吉翔华  陈超  邵正荣  俞能海
作者单位:1. 中国科学技术大学,电子工程与信息科学系,多媒体计算与通信教育部-微软重点实验室,安徽,合肥,230027
2. 中国科学技术大学,图书馆,安徽,合肥,230027
基金项目:国家自然科学基金;微软亚洲研究院项目
摘    要:模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.

关 键 词:主题子空间  模糊C均值聚类  文本聚类
文章编号:1000-1220(2007)12-2225-04
收稿时间:2006-08-09
修稿时间:2007-01-15

Fuzzy C-means Text Clustering Based on Topic Sub-space
JI Xiang-hua,CHEN Chao,SHAO Zheng-rong,YU Neng-hai.Fuzzy C-means Text Clustering Based on Topic Sub-space[J].Mini-micro Systems,2007,28(12):2225-2228.
Authors:JI Xiang-hua  CHEN Chao  SHAO Zheng-rong  YU Neng-hai
Abstract:As an effective method of clustering,Fuzzy C-Means(FCM) clustering is applied in many areas such as data mining and information retrieval.The key of FCM effect is the establishment of initial centers and subordination degree matrix.This paper proposes a TS2FCM(Topic Sub-Space based Fuzzy C-Means) algorithm which extracts salient phrases to build topic sub-space and then extract initial centers and subordination degree matrix.The experiment indicates that TS2FCM obtains good clustering effect.
Keywords:TS2FCM
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号