首页 | 本学科首页   官方微博 | 高级检索  
     

基于Squeezer 算法的文本数据流聚类
引用本文:尤薇佳,刘鲁,刘丹,李明.基于Squeezer 算法的文本数据流聚类[J].控制与决策,2012,27(4):542-546.
作者姓名:尤薇佳  刘鲁  刘丹  李明
作者单位:北京航空航天大学经济管理学院;中国石油大学工商管理学院
基金项目:国家自然科学基金项目(90924020);教育部博士点基金项目(200800060005);阿里巴巴青年学者支持计划项目(活水计划Ali-2010-B-6)
摘    要:为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法.

关 键 词:文本数据流  Squeezer算法  投影聚类
收稿时间:2010/10/27 0:00:00
修稿时间:2011/1/17 0:00:00

Text stream clustering based on Squeezer algorithm
YOU Wei-jia,LIU Lu,LIU Dan,LI Ming.Text stream clustering based on Squeezer algorithm[J].Control and Decision,2012,27(4):542-546.
Authors:YOU Wei-jia  LIU Lu  LIU Dan  LI Ming
Affiliation:1.School of Economics and Management,Beihang University,Beijing 100191,China;2.School of Business Administration,China University of Petroleum,Beijing 102249,China.)
Abstract:To solve the problems of"chain data"and"high-dimension,multi-topic,large-scale text stream"in data stream clustering,a modified Squeezer clustering algorithm is proposed,which combines the idea of projected clustering and redefines the class centroid,radius,and judging distance.The preprocessing stage and the projected clustering stage are introduced to improve the performance significantly and attach the semantic to the clusters for better understanding respectively.The experiment on the Internet corpus shows that the cluster result is significantly improved at a small cost of speed decrease and the performance of the proposed algorithm is better than that of Squeezer algorithm.
Keywords:text stream  Squeezer algorithm  projected clustering
本文献已被 CNKI 等数据库收录!
点击此处可从《控制与决策》浏览原始摘要信息
点击此处可从《控制与决策》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号