基于自适应稀疏邻域重构的无监督主动学习算法 |
| |
作者姓名: | 吕巨建 赵慧民 陈荣军 李键红 |
| |
作者单位: | 广东技术师范学院 广州510665;广州数字内容处理及其安全性技术重点实验室 广州510665,广东技术师范学院 广州510665;广州数字内容处理及其安全性技术重点实验室 广州510665,广东技术师范学院 广州510665,广东外语外贸大学语言工程与计算实验室 广州510006 |
| |
基金项目: | 本文受国家自然科学基金(61672008),广东省自然科学基金重点项目(2016A030311013),广东省普通高校国际合作重大项目(2015KGJHZ021),广东省自然科学基金(2016A030310335)资助 |
| |
摘 要: | 在很多信息处理任务中,人们容易获得大量的无标签样本,但对样本进行标注是非常费时和费力的。作为机器学习领域中一种重要的学习方法,主动学习通过选择最有信息量的样本进行标注,减少了人工标注的代价。然而,现有的大多数主动学习算法都是基于分类器的监督学习方法,这类算法并不适用于无任何标签信息的样本选择。针对这个问题,借鉴最优实验设计的算法思想,结合自适应稀疏邻域重构理论,提出基于自适应稀疏邻域重构的主动学习算法。该算法可以根据数据集各区域的不同分布自适应地选择邻域规模,同步完成邻域点的搜寻和重构系数的计算,能在无任何标签信息的情况下较好地选择最能代表样本集分布结构的样本。基于人工合成数据集和真实数据集的实验表明,在同等标注代价下,基于自适应稀疏邻域重构的主动学习算法在分类精度和鲁棒性上具有较高的性能。
|
关 键 词: | 主动学习 稀疏重构 优化实验设计 直推式实验设计 局部线性重构 |
收稿时间: | 2017-01-11 |
修稿时间: | 2017-03-18 |
|
|