首页 | 本学科首页   官方微博 | 高级检索  
     

基于单词相似度的文本聚类
引用本文:李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009,30(8).
作者姓名:李星毅  曾路平  施化吉
作者单位:1. 江苏大学计算机科学与通信工程学院,江苏镇江212013;北京交通大学电子信息工程学院,北京100044
2. 江苏大学计算机科学与通信工程学院,江苏镇江,212013
3. 江苏大学计算机科学与通信工程学院,江苏镇江212013;南京航空航天大学计算机应用研究所,江苏南京210016
基金项目:国家火炬计划,江苏省高校自然科学指导性计划 
摘    要:研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.

关 键 词:文本聚类  单词相似度  向量空间模型  单词类向量空间  文本表示

Text clustering based on word similarity
LI Xing-yi,ZENG Lu-ping,SHI Hua-ji.Text clustering based on word similarity[J].Computer Engineering and Design,2009,30(8).
Authors:LI Xing-yi  ZENG Lu-ping  SHI Hua-ji
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号