首页 | 本学科首页   官方微博 | 高级检索  
     

基于句子级最大频繁单词集的Web文档聚类研究
引用本文:路松峰,陈云开,袁莉.基于句子级最大频繁单词集的Web文档聚类研究[J].计算机科学,2007,34(7):154-157.
作者姓名:路松峰  陈云开  袁莉
作者单位:华中科技大学计算机科学与技术学院,武汉430074
摘    要:Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。

关 键 词:Web文档聚类  粗糙集  关联规则  最大频繁单词集

Research on Web Document Clustering Based on Sentential Maximum Frequent Word Sets
LU Song-Feng,CHEN Yun-Kai,YUAN Li.Research on Web Document Clustering Based on Sentential Maximum Frequent Word Sets[J].Computer Science,2007,34(7):154-157.
Authors:LU Song-Feng  CHEN Yun-Kai  YUAN Li
Affiliation:School of Computer Science and Technology, Huazhong University of Science~Technology, Wuhan 430074
Abstract:
Keywords:Web document cluster  Rough set  Association rules  Maximum frequent words set
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号