首页 | 本学科首页   官方微博 | 高级检索  
     

层次非负矩阵分解及在文本聚类中的应用
引用本文:景丽萍,朱 岩,于 剑. 层次非负矩阵分解及在文本聚类中的应用[J]. 计算机科学与探索, 2011, 5(10): 904-913
作者姓名:景丽萍  朱 岩  于 剑
作者单位:北京交通大学 计算机与信息技术学院, 北京 100044
基金项目:国家自然科学基金No.60905028,90820013,60875031,61033013; 国家重点基础研究发展规划(973)No.2007CB311002; 中央高校基本科研业务费专项资金No.2010RC029,2011JBM030; 国家教育部留学回国人员科研启动基金~~
摘    要:文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法,该方法不但保留了非负矩阵分解的优点,如同步识别文档类别和找出类别本质特征,而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明,层次非负矩阵分解相比已有的方法更有效。

关 键 词:文本聚类  非负矩阵分解  层次聚类
修稿时间: 

Hierarchical Non-Negative Matrix Factorization for Text Clustering
JING Liping,ZHU Yan,YU Jian. Hierarchical Non-Negative Matrix Factorization for Text Clustering[J]. Journal of Frontier of Computer Science and Technology, 2011, 5(10): 904-913
Authors:JING Liping  ZHU Yan  YU Jian
Affiliation:School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China
Abstract:The goal of text clustering is to group the documents with similar content into a same cluster, while separate the documents with different contents. Till now, a lot of clustering algorithms have been proposed according to different requirements, however, text clustering is still an open problem because of the potential characteristics of text data: large volume, high dimension, sparse etc. This paper proposes a clustering method based on hierarchical non-negative matrix factorization. The new method keeps the merits of the original non-negative matrix factoriza-tion, simultaneously clustering documents and identifying key features for each cluster. At the same time, it can mine the hierarchical structure between clusters, and such structure is very useful in many real applications, e.g., news browser. The experimental results on real data, 20Newsgroups and Reuters-RCV1, show that the proposed method performs better than the existing popular methods.
Keywords:text clustering  non-negative matrix factorization  hierarchical clustering
本文献已被 CNKI 等数据库收录!
点击此处可从《计算机科学与探索》浏览原始摘要信息
点击此处可从《计算机科学与探索》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号