首页 | 本学科首页   官方微博 | 高级检索  
     

稳健的重尾线性赌博机算法
引用本文:马兰霁弘,赵鹏,周志华.稳健的重尾线性赌博机算法[J].计算机研究与发展,2023(6):1385-1395.
作者姓名:马兰霁弘  赵鹏  周志华
作者单位:计算机软件新技术国家重点实验室(南京大学)
基金项目:国家自然科学基金项目(61921006,62206125)~~;
摘    要:线性赌博机模型是在线学习的基本模型之一,其每个摇臂的平均奖赏可以由线性函数进行参数化.该模型具有坚实的理论保证和良好的实际建模能力,被广泛应用于各个场景.然而在一些现实场景中,数据通常是从开放动态环境中收集得到,因而会存在数据不规范的问题,已有算法缺乏对此的稳健性.特别关注2类数据的不规范性:奖励函数的回归参数可能随时间变化,环境噪声可能无界,甚至不服从亚高斯分布.这2类问题分别被称为分布变化和重尾噪声.为了应对这2类不利因素,提出一种基于置信上界的在线算法,该算法使用均值中位数估计器以处理潜在的重尾噪声,同时采用重启机制来解决分布变化问题.在理论上,首先建立了问题的遗憾理论下界,进一步给出了算法的理论保障,所取得的结果可以回退到已有研究中没有分布变化或没有重尾噪声场景线性赌博机的理论结果.此外,针对未知环境设计了实用的在线集成适应技术,并在合成和真实世界的数据集上进行了广泛的实验来验证其有效性.

关 键 词:机器学习  开放环境学习  线性赌博机或没有重尾  分布变化  重尾噪声
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号