首页 | 官方网站   微博 | 高级检索  
     

基于内部结构MPOMDP模型的策略梯度学习算法
引用本文:张润梅,王浩,张佑生,姚宏亮,方长胜.基于内部结构MPOMDP模型的策略梯度学习算法[J].计算机工程与应用,2009,45(7):20-23.
作者姓名:张润梅  王浩  张佑生  姚宏亮  方长胜
作者单位:1. 合肥工业大学计算机与科学技术系,合肥,230009;安徽建筑工业学院电子与信息工程学院,合肥,230022
2. 合肥工业大学计算机与科学技术系,合肥,230009
基金项目:国家自然科学基金,安徽省自然科学基金,安徽省教育厅自然科学基金重点项目 
摘    要:为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。

关 键 词:马尔可夫决策过程  强化学习  MPOMDP模型  策略梯度算法
收稿时间:2008-10-22
修稿时间:2008-12-4  

Policy gradient algorithm based on internal structural MPOMDP model
ZHANG Run-mei,WANG Hao,ZHANG You-sheng,YAO Hong-liang,FANG Chang-sheng.Policy gradient algorithm based on internal structural MPOMDP model[J].Computer Engineering and Applications,2009,45(7):20-23.
Authors:ZHANG Run-mei  WANG Hao  ZHANG You-sheng  YAO Hong-liang  FANG Chang-sheng
Affiliation:ZHANG Run-mei,WANG Hao,ZHANG You-sheng,YAO Hong-liang,FANG Chang-sheng 1.Department of Computer Science , Technology,Hefei University of Technology,Hefei 230009,China 2.School of Electronics , Information Engineering,Anhui University of Architecture,Hefei 230022,China
Abstract:For the improvement of knowledge representation ability and reasoning efficiency of MPOMDP model,a new kind of MPOMDP model is proposed based on internal structure of Agent.The internal structure and its evolvement of Agent are presented to improve the reasoning efficiency of the model by means the joint probability distribution of system as the local factorization forms of internal variables set.A MIS-GPOMDP algorithm is given by expanding GPI-POMDP to internal structural MPOMDP model to solve the internal...
Keywords:arkov Decision Processes(MDP)  reinforcement learning  MPOMDP model  policy gradient algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号