基于内部结构MPOMDP模型的策略梯度学习算法 Policy gradient algorithm based on internal structural MPOMDP model期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于内部结构MPOMDP模型的策略梯度学习算法

引用本文：	张润梅,王浩,张佑生,姚宏亮,方长胜.基于内部结构MPOMDP模型的策略梯度学习算法[J].计算机工程与应用,2009,45(7):20-23.

作者姓名：	张润梅王浩张佑生姚宏亮方长胜

作者单位：	1. 合肥工业大学计算机与科学技术系,合肥,230009;安徽建筑工业学院电子与信息工程学院,合肥,230022 2. 合肥工业大学计算机与科学技术系,合肥,230009

基金项目：	国家自然科学基金，安徽省自然科学基金，安徽省教育厅自然科学基金重点项目

摘要：	为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。
关键词：	马尔可夫决策过程强化学习 MPOMDP模型策略梯度算法
收稿时间：	2008-10-22
修稿时间：	2008-12-4
Policy gradient algorithm based on internal structural MPOMDP model

ZHANG Run-mei,WANG Hao,ZHANG You-sheng,YAO Hong-liang,FANG Chang-sheng.Policy gradient algorithm based on internal structural MPOMDP model[J].Computer Engineering and Applications,2009,45(7):20-23.

Authors:	ZHANG Run-mei WANG Hao ZHANG You-sheng YAO Hong-liang FANG Chang-sheng

Affiliation:	ZHANG Run-mei,WANG Hao,ZHANG You-sheng,YAO Hong-liang,FANG Chang-sheng 1.Department of Computer Science , Technology,Hefei University of Technology,Hefei 230009,China 2.School of Electronics , Information Engineering,Anhui University of Architecture,Hefei 230022,China

Abstract:	For the improvement of knowledge representation ability and reasoning efficiency of MPOMDP model,a new kind of MPOMDP model is proposed based on internal structure of Agent.The internal structure and its evolvement of Agent are presented to improve the reasoning efficiency of the model by means the joint probability distribution of system as the local factorization forms of internal variables set.A MIS-GPOMDP algorithm is given by expanding GPI-POMDP to internal structural MPOMDP model to solve the internal...

Keywords:	arkov Decision Processes（MDP） reinforcement learning MPOMDP model policy gradient algorithm
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《计算机工程与应用》浏览原始摘要信息
	点击此处可从《计算机工程与应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏