首页 | 本学科首页   官方微博 | 高级检索  
     


The method of value oriented successive approximations for the average reward Markov decision process
Authors:J. van der Wal
Affiliation:(1) Department of Mathematics, University of Technology, P.O. Box 513, NL-5600 MB Eindhoven, The Netherlands
Abstract:Summary We consider the Markov decision process with finite state and action spaces at the criterion of average reward per unit time. We study the method of value oriented successive approximations, extensively treated by Van Nunen for the total reward case. Under a strong aperiodicity assumption and various conditions which guarantee that the gain of the process is independent of the starting state we show that the method converges and produces nearly optimal policies.
Zusammenfassung Wir betrachten Markoffsche Entscheidungsprozesse mit endlichem Zustands- und Aktionenräumen für das Kriterium des Durchschnittsertrags. Wir untersuchen die Methode der wertorientierten sukzessiven Approximation, die für das Kriterium des Gesamtertrags von Van Nunen ausführlich untersucht wurde. Unter einer starken Aperiodizitätsbedingung und verschiedenen Voraussetzungen, die eine Unabhängigkeit des optimalen Durchschnittsertrages vom Anfangszustand garantieren, beweisen wir die Konvergenz der Methode.
Keywords:
本文献已被 SpringerLink 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号