首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于特征重要度的文本分类特征加权方法
引用本文:刘赫,刘大有,裴志利,高滢.一种基于特征重要度的文本分类特征加权方法[J].计算机研究与发展,2009,46(10).
作者姓名:刘赫  刘大有  裴志利  高滢
作者单位:1. 吉林大学计算机科学与技术学院,长春,130012;吉林大学符号计算与知识工程教育部重点实验室,长春,130012
2. 内蒙古民族大学计算机科学与技术学院,内蒙古通辽,028043
基金项目:国家自然科学基金重大项目(60496321);;国家自然科学基金项目(60773099,60573073);;国家“八六三”高技术研究发展计划基金项目(2006AA10Z245,2006AA10A309);;吉林省科技发展计划基金重大项目(20020303);;吉林省科技发展计划基金项目(20030523);;欧盟项目TH/Asia Link/010(111084)~~
摘    要:针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表明,该方法能改善样本空间的分布状态,使同类样本更加紧凑,异类样本更加松散,从而简化从样本到类别的映射关系.最后,使用Nave Bayes,kNN和SVM分类器在上述数据集上对该方法进行了实验.结果表明,该方法能提高分类的准确率、召回率和F1值.

关 键 词:文本分类  特征加权  特征重要度  粗糙集  决策表  

A Feature Weighting Scheme for Text Categorization Based on Feature Importance
Liu He,Liu Dayou,Pei Zhili,Gao Ying.A Feature Weighting Scheme for Text Categorization Based on Feature Importance[J].Journal of Computer Research and Development,2009,46(10).
Authors:Liu He  Liu Dayou  Pei Zhili  Gao Ying
Affiliation:College of Computer Science and Technology;Jilin University;Changchun 130012;Ministry of Education Key Laboratory of Symbolic Computation and Knowledge Engineering;Changchun 130012;College of Computer Science and Technology;Inner Mongolia University for Nationalities;Tongliao;Inner Mongolia 028043
Abstract:Text categorization is one of the key research fields in text mining. Feature weighting is an important problem in text categorization. For computing feature weights, a feature weighting scheme for text categorization is proposed. In this scheme, the feature importance is defined based on the real rough set theory. By this concept, decision-making information of a feature for categorization is introduced into the weight of this feature. Then, the experiments are performed on two international and standard t...
Keywords:text categorization  feature weighting  feature importance  rough set  decision table  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号