首页 | 本学科首页   官方微博 | 高级检索  
     

结合聚类边界采样的主动学习
作者姓名:胡峰  李路正  代劲  刘群
作者单位:重庆邮电大学计算机科学与技术学院
基金项目:国家重点研发计划项目(2018YFC0832102);;重庆市自然科学基金项目(cstc2021jcyj-msxmX0849);
摘    要:主动学习是一种机器学习方法,需要选择最有价值的样本进行标注。目前,主动学习在应用时面临着一些挑战,其依赖分类器的先验假设,这容易导致分类器性能意外下降,同时需要一定规模的样本作为启动条件。聚类可以降低问题规模,是主动学习的一种有效手段。为此,结合密度聚类边界采样,开展主动学习方法的研究。针对容易产生分类错误的聚类边界区域,通过计算样本密度,提出一种密度峰值聚类边界点采样方法;在此基础上,给出密度熵的定义,并利用密度熵对聚类边界区域进行启发式搜索,提出一种基于聚类边界采样的主动学习方法。试验结果表明,与文献中的5种主动学习算法相比,该算法能够以更少标记量获得同等甚至更高的分类性能,是一种有效的主动学习算法;在标记不足,无标签样本总量20%的情况下,算法在Accuracy、F-score等指标上取得较好的结果。

关 键 词:主动学习  机器学习  聚类边界  密度峰值聚类  几何采样  信息熵  版本空间  主动聚类
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号