首页 | 本学科首页   官方微博 | 高级检索  
     

一种改进的基于广义后缀树的文本聚类算法
引用本文:杜红斌,夏克文,刘南平,吴涛.一种改进的基于广义后缀树的文本聚类算法[J].信息与控制,2009,38(3):1-1.
作者姓名:杜红斌  夏克文  刘南平  吴涛
作者单位:河北工业大学信息工程学院,天津,300401
摘    要:分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法.针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出了基于信息增益的类别标识提取算法.为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点.实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识.

关 键 词:文本聚类  web挖掘  广义后缀树  后缀树聚类(STC)

An Improved Text Clustering Algorithm of Generalized Suffix Tree
DU Hong-bin,XIA Ke-wen,LIU Nan-ping,WU Tao.An Improved Text Clustering Algorithm of Generalized Suffix Tree[J].Information and Control,2009,38(3):1-1.
Authors:DU Hong-bin  XIA Ke-wen  LIU Nan-ping  WU Tao
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《信息与控制》浏览原始摘要信息
点击此处可从《信息与控制》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号