首页 | 本学科首页   官方微博 | 高级检索  
     

结合语义的特征权重计算方法研究
引用本文:任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10).
作者姓名:任姚鹏  陈立潮  张英俊  袁英
作者单位:太原科技大学,计算机科学与技术学院,山西,太原,030024
摘    要:为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节--文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果.传统的VSM特征权重计算方法-TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法.实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率.

关 键 词:文本聚类  向量空间模型  权重计算方法  词汇语义相似度  知网

Research of term weighting algorithm combining semantics
REN Yao-peng,CHEN Li-chao,ZHANG Ying-jun,YUAN Ying.Research of term weighting algorithm combining semantics[J].Computer Engineering and Design,2010,31(10).
Authors:REN Yao-peng  CHEN Li-chao  ZHANG Ying-jun  YUAN Ying
Affiliation:REN Yao-peng,CHEN Li-chao,ZHANG Ying-jun,YUAN Ying(School of Computer Science , Technology,Taiyuan University of Science , Technology,Taiyuan 030024,China)
Abstract:
Keywords:text clustering  vector space model  term weighting algorithm  semantic similarity of words  Hownet  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号