首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于空间映射及尺度变换的聚类框架
引用本文:曾依灵,许洪波,吴高巍,程学旗,白硕.一种基于空间映射及尺度变换的聚类框架[J].中文信息学报,2010,24(3):81-89.
作者姓名:曾依灵  许洪波  吴高巍  程学旗  白硕
作者单位:1. 中国科学院 计算技术研究所,北京 100190; 2. 上海证券交易所,上海 200120
基金项目:国家973基础研究计划项目资助(2007CB311100);;国家自然科学基金重点项目资助(60933005)
摘    要:传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。该文将M-R框架应用到K-means算法及谱聚类算法上以验证其性能,在国际标准评测语料上的实验表明,应用了M-R框架的K-means及谱聚类在所有语料集上获得了全面的性能提升。

关 键 词:计算机应用  中文信息处理  文本聚类  空间映射  尺度变换  模型不匹配  

A Mapping and Reseating Framework for Document Clustering
ZENG Yiling,XU Hongbo,WU Gaowei,CHENG Xueqi,BAI Shuo.A Mapping and Reseating Framework for Document Clustering[J].Journal of Chinese Information Processing,2010,24(3):81-89.
Authors:ZENG Yiling  XU Hongbo  WU Gaowei  CHENG Xueqi  BAI Shuo
Affiliation:1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China ;
2. Shanghai Stock Exchange, Shanghai 200120, China
Abstract:Traditional clustering algorithms suffer from model mismatch problem when the distribution of real data does not fit the model assumptions.To address this problem,a mapping and rescaling framework(referred as M-R framework) is proposed for document clustering.Specifically,documents are first mapped into a discriminative coordinate so that the distribution statistics of each cluster could be analyzed on the corresponding dimension.With the statistics obtained,a rescaling operation is then applied to normaliz...
Keywords:computer application  Chinese information processing  document clustering  space mapping  rescaling  model misfit  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号