首页 | 本学科首页   官方微博 | 高级检索  
     

基于语义列表的中文文本聚类算法*
引用本文:马素琴,施化吉,李星毅. 基于语义列表的中文文本聚类算法*[J]. 计算机应用研究, 2010, 27(5): 1697-1699. DOI: 10.3969/j.issn.1001-3695.2010.05.024
作者姓名:马素琴  施化吉  李星毅
作者单位:江苏大学,计算机科学与通信工程学院,江苏,镇江,212013
基金项目:国家自然科学基金资助项目(60841003);国家火炬计划资助项目(2004EB33006)
摘    要:针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUSL算法在处理大量文本数据方面具有较好的性能,并能明显提高中文文本聚类的准确性。

关 键 词:文本聚类;文本表示;语义列表;相似度计算;聚簇表示

Chinese text clustering algorithm using semantic list
MA Su-qin,SHI Hua-ji,LI Xing-yi. Chinese text clustering algorithm using semantic list[J]. Application Research of Computers, 2010, 27(5): 1697-1699. DOI: 10.3969/j.issn.1001-3695.2010.05.024
Authors:MA Su-qin  SHI Hua-ji  LI Xing-yi
Affiliation:School of Computer Science & Telecommunication Engineering/a>;Jiangsu University/a>;Zhenjiang Jiangsu 212013/a>;China
Abstract:
Keywords:text clustering   text representation   semantic list   similarity calculation   cluster representation
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号