首页 | 本学科首页   官方微博 | 高级检索  
     

回报函数学习的学徒学习综述
引用本文:金卓军,钱徽,陈沈轶,朱淼良.回报函数学习的学徒学习综述[J].智能系统学报,2009,4(3):208-212.
作者姓名:金卓军  钱徽  陈沈轶  朱淼良
作者单位:浙江大学,计算机学院,浙江,杭州,310027
基金项目:国家自然科学基金,浙江省科技厅重大项目 
摘    要:通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.

关 键 词:学徒学习  回报函数  逆向增强学习  最大化边际规划

Survey of apprenticeship learning based on reward function learning
JIN Zhuo-jun,QIAN Hui,CHEN Shen-yi,ZHU Miao-liang.Survey of apprenticeship learning based on reward function learning[J].CAAL Transactions on Intelligent Systems,2009,4(3):208-212.
Authors:JIN Zhuo-jun  QIAN Hui  CHEN Shen-yi  ZHU Miao-liang
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号