首页 | 本学科首页   官方微博 | 高级检索  
     

面向不平衡文本的特征选择方法
引用本文:廖一星,潘雪增.面向不平衡文本的特征选择方法[J].电子科技大学学报(自然科学版),2012,41(4):592-595.
作者姓名:廖一星  潘雪增
作者单位:1.浙江大学计算机科学与技术学院 杭州 310012;
基金项目:浙江省科技计划项目(2010C31003)
摘    要:在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。

关 键 词:特征选择方法    不平衡数据集    强类别相关    文本分类
收稿时间:2010-10-15

Feature Selection Method on Imbalanced Text
Affiliation:1.College of Computer Science and Technology,Zhejiang University Hangzhou 310012;2.Department of Information,Zhejiang University of Finance & Economics Hangzhou 310018
Abstract:After analyzing the four basic information elements of traditional feature selection methods, a new measurement of strong class information is introduced and a new feature selection method is proposed for imbalanced text classification. The strong class information and the frequency of terms are used to improve the classification performance of minority classes and majority classes respectively. The experiments on reuter-21578 dataset show that the proposed method is better than IG and CHI. Both Micro F1 and Macro F1 are improved to some degree.
Keywords:
点击此处可从《电子科技大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《电子科技大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号