首页 | 本学科首页   官方微博 | 高级检索  
     

基于特征选择的质心向量构建方法
引用本文:谢华,王健,林鸿飞,杨志豪. 基于特征选择的质心向量构建方法[J]. 计算机工程, 2012, 38(1): 195-196,210
作者姓名:谢华  王健  林鸿飞  杨志豪
作者单位:大连理工大学计算机科学与技术学院,辽宁大连,116024
基金项目:国家自然科学基金资助项目(60673039,60973068); 国家“863”计划基金资助项目(2006AA01Z151); 高等学校博士学科点专项科研基金资助项目(20090041110002)
摘    要:基于质心的文本分类方法对模型较敏感,分类性能较差。为此,提出一种基于特征选择的类别质心向量构建方法FSCC。计算特征与类别之间的特征选择值,利用质心特征权重计算公式得到类别的质心向量,并采用非归一化的余弦相似度计算文档与质心间的距离,实现文本分类。实验结果表明,与基于质心的方法和支持向量机方法相比,FSCC方法的分类效果更好。

关 键 词:特征选择  特征权重  余弦相似度  质心  文本分类
收稿时间:2011-05-30

Centroid Vector Construction Method Based on Feature Selection
XIE Hua , WANG Jian , LIN Hong-fei , YANG Zhi-hao. Centroid Vector Construction Method Based on Feature Selection[J]. Computer Engineering, 2012, 38(1): 195-196,210
Authors:XIE Hua    WANG Jian    LIN Hong-fei    YANG Zhi-hao
Affiliation:(School of Computer Science and Technology,Dalian University of Technology,Dalian 116024,China)
Abstract:Text categorization method based on centroid shows poor performance.This paper proposes a centroid vector construction method based on feature selection named FSCC.By computing feature selection value between features and categories,the centroid vector are calculateed by the formula of centroid feature weight.Finally,a non-normalized cosine similarity measure is employed to calculate the similarity score between a text vector and a centroid.Experimental result show that FSCC significantly outperforms traditional centroid-based methods and state-of-the-art Support Vector Machine(SVM).
Keywords:feature selection  feature weight  cosine similarity  centroid  text classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号