首页 | 本学科首页   官方微博 | 高级检索  
     

面向非平衡文本情感分类的TSF特征选择方法
引用本文:王杰,李德玉,王素格.面向非平衡文本情感分类的TSF特征选择方法[J].计算机科学,2016,43(10):206-210, 224.
作者姓名:王杰  李德玉  王素格
作者单位:山西大学计算机与信息技术学院 太原030006,山西大学计算机与信息技术学院 太原030006;山西大学计算智能与中文信息处理教育部重点实验室 太原 030006,山西大学计算机与信息技术学院 太原030006;山西大学计算智能与中文信息处理教育部重点实验室 太原 030006
基金项目:本文受国家自然科学基金项目(61175067,5,61573231,1,U1435212),国家“863”高技术研究发展计划基金项目(2015AA015407),山西省回国留学人员科研项目(2013-014),山西省科技基础条件平台计划项目(2015091001-0102)资助
摘    要:非平衡数据中样本数量的不平衡分布往往伴随着特征分布的不平衡,在多数类文本中经常出现的特征,在少数类中却很少出现。针对非平衡数据特征分布的特点,提出了一种新的双边fisher特征选择算法TSF。该方法通过显式地组合正相关和负相关特征,缓解了特征层面的非平衡性,较好地表示了文本的信息。TSF方法在图书评论和COAE2014微博非平衡数据上进行实验,结果验证了该方法是可行的。

关 键 词:非平衡  文本情感分类  正负相关特征  双边特征选择
收稿时间:2015/9/22 0:00:00
修稿时间:2016/2/10 0:00:00

TSF Feature Selection Method for Imbalanced Text Sentiment Classification
WANG Jie,LI De-yu and WANG Su-ge.TSF Feature Selection Method for Imbalanced Text Sentiment Classification[J].Computer Science,2016,43(10):206-210, 224.
Authors:WANG Jie  LI De-yu and WANG Su-ge
Affiliation:School of Computer & Information Technology,Shanxi University,Taiyuan 030006,China,School of Computer & Information Technology,Shanxi University,Taiyuan 030006,China;Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China and School of Computer & Information Technology,Shanxi University,Taiyuan 030006,China;Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China
Abstract:In the imbalanced datasets,the imbalanced distribution of the samples is often accompanied by the imbalanced distribution of features.The features,which often appear in the majority class,rarely appear in the minority class.According to the characteristics of the imbalanced feature distribution,we proposed a new two-side fisher (TSF) feature selection method.TSF can control combination of positive features and negative features explicitly and tackle the imba-lanced problem in the level of feature.Experiments are conducted on the book reviews and COAE2014 imbalanced dataset.Experimental results indicate that TSF is an effective feature selection method for the imbalanced problem.
Keywords:Imbalanced  Text sentiment classification  Positive and negative feature  Two-side feature selection
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号