回报函数学习的学徒学习综述 Survey of apprenticeship learning based on reward function learning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

回报函数学习的学徒学习综述

引用本文：	金卓军,钱徽,陈沈轶,朱淼良.回报函数学习的学徒学习综述[J].智能系统学报,2009,4(3):208-212.

作者姓名：	金卓军钱徽陈沈轶朱淼良

作者单位：	浙江大学,计算机学院,浙江,杭州,310027

基金项目：	国家自然科学基金，浙江省科技厅重大项目

摘要：	通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作，概述了基于回报函数学习的学徒学习方法．分别在回报函数为线性和非线性条件下讨论，并且在线性条件下比较了2类方法——基于逆向增强学习（IRL）和最大化边际规划（MMP）的学徒学习．前者有较为快速的近似算法，但对于演示的最优性作了较强的假设；后者形式上更易于扩展，但计算量大．最后，提出了该领域现在还存在的问题和未来的研究方向，如把学徒学习应用于POMDP环境下，用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取，从而减少高维度带来的大计算量问题．
关键词：	学徒学习回报函数逆向增强学习最大化边际规划
Survey of apprenticeship learning based on reward function learning

JIN Zhuo-jun,QIAN Hui,CHEN Shen-yi,ZHU Miao-liang.Survey of apprenticeship learning based on reward function learning[J].CAAL Transactions on Intelligent Systems,2009,4(3):208-212.

Authors:	JIN Zhuo-jun QIAN Hui CHEN Shen-yi ZHU Miao-liang

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏