首页 | 本学科首页   官方微博 | 高级检索  
     

文本分类中互信息特征选择方法的研究
引用本文:范小丽,刘晓霞. 文本分类中互信息特征选择方法的研究[J]. 计算机工程与应用, 2010, 46(34): 123-125. DOI: 10.3778/j.issn.1002-8331.2010.34.037
作者姓名:范小丽  刘晓霞
作者单位:西北大学 信息科学与技术学院,西安 710127
摘    要:针对互信息特征选择方法由于没有很好结合正相关特征和负相关特征,影响在不平衡语料集上分类效果的问题,用平衡因子调整正相关和负相关特征比例,加强特征选择时负相关特征的作用。同时引入特征分布差异因子,区分类强相关特征,提高分类效果。最后通过实验证明,改进的互信息特征选择方法具有可行性和有效性。

关 键 词:文本分类  特征选择  互信息  平衡因子  特征分布差异
收稿时间:2010-05-18
修稿时间:2010-7-6 

Study on mutual information-based feature selection in text categorization
FAN Xiao-li,LIU Xiao-xia. Study on mutual information-based feature selection in text categorization[J]. Computer Engineering and Applications, 2010, 46(34): 123-125. DOI: 10.3778/j.issn.1002-8331.2010.34.037
Authors:FAN Xiao-li  LIU Xiao-xia
Affiliation:College of Information Science & Technology,Northwest University,Xi’an 710127,China
Abstract:To solve the problem of the poor effect of mutual information-based feature selection on the unbalanced corpus which arise from not well combining positive feature and negative feature.The ratio of positive feature and negative feature is adjusted with balance factor to strengthen the effect of negative feature.And category strong related feature is distincted with feature distributed factor.The experimental results verify the efficiency and probability of the improved mutual information-based feature selection.
Keywords:text categorization  feature selection  mutual information  balance factor  feature distribute difference
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号