首页 | 本学科首页   官方微博 | 高级检索  
     

面向维吾尔文不平衡数据分类的特征选择方法
引用本文:董瑞,周喜. 面向维吾尔文不平衡数据分类的特征选择方法[J]. 计算机工程与设计, 2013, 34(1): 349-352
作者姓名:董瑞  周喜
作者单位:1. 中国科学院研究生院,北京100080;中科院新疆理化技术研究所,新疆乌鲁木齐830011
2. 中科院新疆理化技术研究所,新疆乌鲁木齐,830011
基金项目:新疆维吾尔族自治区高技术研究发展基金项目(201012112);新疆维吾尔族自治区电子发展专项基金项目(XJDZZXZJ20109)
摘    要:为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法.结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分类器进行分类.在维吾尔文不平衡语料库上进行的实验表明,提出的特征选择方法在不平衡数据集中要优于卡方和信息增益特征选择方法.

关 键 词:不平衡数据  文本分类  维吾尔文  特征选择  逆文档频数  卡方  信息增益

Feature selection method for Uyghur imbalanced classification
DONG Rui , ZHOU Xi. Feature selection method for Uyghur imbalanced classification[J]. Computer Engineering and Design, 2013, 34(1): 349-352
Authors:DONG Rui    ZHOU Xi
Affiliation:1.Graduate University,Chinese Academy of Sciences,Beijing 100080,China; 2.Xinjiang Technical Institute of Physics and Chemistry,Urumqi 830011,China)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号