结合语义的特征权重计算方法研究 Research of term weighting algorithm combining semantics期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

结合语义的特征权重计算方法研究

引用本文：	任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10).

作者姓名：	任姚鹏陈立潮张英俊袁英

作者单位：	太原科技大学,计算机科学与技术学院,山西,太原,030024

摘要：	为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节--文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果.传统的VSM特征权重计算方法-TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法.实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率.
关键词：	文本聚类向量空间模型权重计算方法词汇语义相似度知网
Research of term weighting algorithm combining semantics

REN Yao-peng,CHEN Li-chao,ZHANG Ying-jun,YUAN Ying.Research of term weighting algorithm combining semantics[J].Computer Engineering and Design,2010,31(10).

Authors:	REN Yao-peng CHEN Li-chao ZHANG Ying-jun YUAN Ying

Affiliation:	REN Yao-peng,CHEN Li-chao,ZHANG Ying-jun,YUAN Ying(School of Computer Science , Technology,Taiyuan University of Science , Technology,Taiyuan 030024,China)

Abstract:

Keywords:	text clustering vector space model term weighting algorithm semantic similarity of words Hownet
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏