首页 | 本学科首页   官方微博 | 高级检索  
     

基于KL距离的非平衡数据半监督学习算法
引用本文:许震,沙朝锋,王晓玲,周傲英.基于KL距离的非平衡数据半监督学习算法[J].计算机研究与发展,2010,47(1).
作者姓名:许震  沙朝锋  王晓玲  周傲英
作者单位:1. 复旦大学计算机科学技术学院,上海,200433
2. 华东师范大学海量计算研究所,上海,200062
3. 华东师范大学海量计算研究所,上海,200062;上海市智能信息处理重点实验室,上海,200433
基金项目:国家自然科学基金项目(60673137,60773075);;国家“八六三”高技术研究发展计划基金项目(2009AA01Z149);;上海市教委科技创新项目(10ZZ33)
摘    要:在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性.

关 键 词:半监督学习  非平衡  KL距离  朴素贝叶斯  logistic回归  

A Semi-Supervised Learning Algorithm from Imbalanced Data Based on KL Divergence
Xu Zhen,Sha Chaofeng,Wang Xiaoling,Zhou Aoying.A Semi-Supervised Learning Algorithm from Imbalanced Data Based on KL Divergence[J].Journal of Computer Research and Development,2010,47(1).
Authors:Xu Zhen  Sha Chaofeng  Wang Xiaoling  Zhou Aoying
Affiliation:School of Computer Science;Fudan University;Shanghai 200433;Institute of Massive Computing;East China Normal University;Shanghai 200062;Shanghai Key Laboratory of Intelligent Information Processing;Shanghai 200433
Abstract:In many real applications,it's often difficult or quite expensive to get labeled negative examples for learning,such as Web search,medical diagnosis,earthquake identification and so on. This situation makes the traditional classification techniques work ineffectively,because the precondition that every class has to own its labeled instances is not met. Therefore,the semi-supervised learning method from positive and unlabeled data becomes a hot topic in the literature. In the past years,researchers have prop...
Keywords:semi-supervised learning  imbalance  KL divergence  na(i)ve Bayesian  logistic regression
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号