首页 | 本学科首页   官方微博 | 高级检索  
     

一种面向非平衡数据的邻居词特征选择方法
引用本文:孙霞,郑庆华.一种面向非平衡数据的邻居词特征选择方法[J].小型微型计算机系统,2008,29(12).
作者姓名:孙霞  郑庆华
作者单位:1. 西北大学,计算机科学与技术系,陕西,西安,710127
2. 西安交通大学,计算机科学与技术系,陕西,西安,710049
基金项目:国家自然科学基金 , 高等学校博士学科点专项科研基金  
摘    要:在非平衡数据情况下,由于传统特征选择方法,如信息增益(Information Gain,IG)和相关系数(Correlation Coefficient,CC),或者不考虑负特征对分类的作用,或者不能显式地均衡正负特征比例,导致特征选择的结果下降.本文提出一种新的特征选择方法(Positive-Negative feature selection,PN),用于邻居词的选择,实现了文本中术语的自动抽取.本文提出的PN特征选择方法和CC特征选择方法相比,考虑了负特征;和IG特征选择方法相比,从特征t出现在正(负)训练文本的文本数占所有出现特征t的训练文本数比例的角度,分别显式地均衡了正特征和负特征的比例.通过计算特征t后面所跟的不同(非)领域概念个数占总(非)领域概念个数比值分别考察正、负特征t的重要性,解决了IG特征选择方法正特征偏置问题.实验结果表明,本文提出的PN特征选择方法优越于IG特征选择方法和CC特征选择.

关 键 词:特征选择  非平衡数据  术语抽取  邻居词

Neighbor Words Selection Algorithm on Imbalanced Data
SUN Xia,ZHENG Qing-hua.Neighbor Words Selection Algorithm on Imbalanced Data[J].Mini-micro Systems,2008,29(12).
Authors:SUN Xia  ZHENG Qing-hua
Affiliation:SUN Xia1,ZHENG Qing-hua21 (Department of Computer Science , Technology,Northwest University,Xi'an 710127,China)2 (Department of Computer Science , Technology,Xi'an Jiaotong University,Xi'an 710049,China)
Abstract:The performance of traditional feature selection algorithms, e.g. IG and CC, will be decreased because of either without considering the negative features, or without combining the positive features and negative features explicitly on imbalanced data.In this paper,a novel feature selection algorithm,named PN (Positive-Negative feature selection),is proposed for term extraction.Comparing with CC,PN considers the negative features,which are quite valuable in imbalanced data.Comparing with IG, PN considers the...
Keywords:feature selection  imbalanced data  term extraction  neighbor word  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号