The method of value oriented successive approximations for the average reward Markov decision process |
| |
Authors: | J. van der Wal |
| |
Affiliation: | (1) Department of Mathematics, University of Technology, P.O. Box 513, NL-5600 MB Eindhoven, The Netherlands |
| |
Abstract: | Summary We consider the Markov decision process with finite state and action spaces at the criterion of average reward per unit time. We study the method of value oriented successive approximations, extensively treated by Van Nunen for the total reward case. Under a strong aperiodicity assumption and various conditions which guarantee that the gain of the process is independent of the starting state we show that the method converges and produces nearly optimal policies.
Zusammenfassung Wir betrachten Markoffsche Entscheidungsprozesse mit endlichem Zustands- und Aktionenräumen für das Kriterium des Durchschnittsertrags. Wir untersuchen die Methode der wertorientierten sukzessiven Approximation, die für das Kriterium des Gesamtertrags von Van Nunen ausführlich untersucht wurde. Unter einer starken Aperiodizitätsbedingung und verschiedenen Voraussetzungen, die eine Unabhängigkeit des optimalen Durchschnittsertrages vom Anfangszustand garantieren, beweisen wir die Konvergenz der Methode. |
| |
Keywords: | |
本文献已被 SpringerLink 等数据库收录! |
|