{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2022,3,30]],"date-time":"2022-03-30T01:41:53Z","timestamp":1648604513852},"reference-count":22,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2012,2,8]],"date-time":"2012-02-08T00:00:00Z","timestamp":1328659200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Ann Oper Res"],"published-print":{"date-parts":[[2013,9]]},"DOI":"10.1007\/s10479-012-1073-x","type":"journal-article","created":{"date-parts":[[2012,2,7]],"date-time":"2012-02-07T14:06:38Z","timestamp":1328623598000},"page":"309-320","source":"Crossref","is-referenced-by-count":1,"title":["(Approximate) iterated successive approximations algorithm for sequential decision processes"],"prefix":"10.1007","volume":"208","author":[{"given":"Pelin G.","family":"Canbolat","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Uriel G.","family":"Rothblum","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2012,2,8]]},"reference":[{"key":"1073_CR1","doi-asserted-by":"crossref","first-page":"1368","DOI":"10.1109\/ALLERTON.2010.5707073","volume-title":"Communication, control, and computing, 2010 annual allerton conference","author":"D. P. Bertsekas","year":"2010","unstructured":"Bertsekas, D. P., & Yu, H. (2010). Distributed asynchronous policy iteration in dynamic programming. In Communication, control, and computing, 2010 annual allerton conference (pp. 1368\u20131375)."},{"issue":"1","key":"1073_CR2","doi-asserted-by":"crossref","first-page":"66","DOI":"10.1287\/moor.1110.0532","volume":"37","author":"D. P. Bertsekas","year":"2012","unstructured":"Bertsekas, D. P., & Yu, H. (2012). Q-learning and enhanced policy iteration in discounted dynamic programming. Mathematics of Operations Research, 37(1), 66\u201394.","journal-title":"Mathematics of Operations Research"},{"issue":"5","key":"1073_CR3","doi-asserted-by":"crossref","first-page":"243","DOI":"10.1016\/0167-6377(84)90054-3","volume":"3","author":"R. S. Dembo","year":"1984","unstructured":"Dembo, R. S., & Haviv, M. (1984). Truncated policy iteration methods. Operations Research Letters, 3(5), 243\u2013246.","journal-title":"Operations Research Letters"},{"issue":"2","key":"1073_CR4","doi-asserted-by":"crossref","first-page":"165","DOI":"10.1137\/1009030","volume":"9","author":"E. V. Denardo","year":"1967","unstructured":"Denardo, E. V. (1967). Contraction mappings in the theory underlying dynamic programming. SIAM Review, 9(2), 165\u2013177.","journal-title":"SIAM Review"},{"issue":"3","key":"1073_CR5","doi-asserted-by":"crossref","first-page":"342","DOI":"10.1287\/moor.8.3.342","volume":"8","author":"E. V. Denardo","year":"1983","unstructured":"Denardo, E. V., & Rothblum, U. G. (1983). Affine structure and invariant policies for dynamic programming. Mathematics of Operations Research, 8(3), 342\u2013365.","journal-title":"Mathematics of Operations Research"},{"issue":"1","key":"1073_CR6","doi-asserted-by":"crossref","first-page":"151","DOI":"10.1016\/0304-4149(85)90046-8","volume":"19","author":"M. Haviv","year":"1985","unstructured":"Haviv, M. (1985). Block-successive approximation for a discounted Markov decision model. Stochastic Processes and Their Applications, 19(1), 151\u2013160.","journal-title":"Stochastic Processes and Their Applications"},{"key":"1073_CR7","series-title":"Stochastic optimization","volume-title":"Stochastic models in operations research","author":"D. P. Heyman","year":"1984","unstructured":"Heyman, D. P., & Sobel, M. J. (1984). Stochastic optimization: Vol. II. Stochastic models in operations research. New York: McGraw-Hill."},{"key":"1073_CR8","volume-title":"Dynamic programming and Markov processes","author":"R. A. Howard","year":"1960","unstructured":"Howard, R. A. (1960). Dynamic programming and Markov processes. Cambridge: MIT Press."},{"key":"1073_CR9","volume-title":"Handbook of Markov decision processes: Methods and applications","author":"L. Kallenberg","year":"2002","unstructured":"Kallenberg, L. (2002). Finite state and action MDPs. In E. A. Feinberg & A. Shwartz (Eds.), Handbook of Markov decision processes: Methods and applications. Norwell: Kluwer Academic."},{"issue":"1","key":"1073_CR10","doi-asserted-by":"crossref","first-page":"7","DOI":"10.1287\/mnsc.18.1.7","volume":"18","author":"E. L. Porteus","year":"1971","unstructured":"Porteus, E. L. (1971). Some bounds for discounted sequential decision processes. Management Science, 18(1), 7\u201311.","journal-title":"Management Science"},{"key":"1073_CR11","first-page":"155","volume":"24","author":"E. L. Porteus","year":"1980","unstructured":"Porteus, E. L. (1980). Improved iterative computation of the expected discounted return in Markov and semi-Markov chains. Zeitschrift F\u00fcr Operations-Research, 24, 155\u2013170.","journal-title":"Zeitschrift F\u00fcr Operations-Research"},{"key":"1073_CR12","doi-asserted-by":"crossref","DOI":"10.1002\/9780470316887","volume-title":"Markov decision processes: Discrete stochastic dynamic programming","author":"M. L. Puterman","year":"1994","unstructured":"Puterman, M. L. (1994). Markov decision processes: Discrete stochastic dynamic programming. New York: Wiley."},{"issue":"1","key":"1073_CR13","doi-asserted-by":"crossref","first-page":"60","DOI":"10.1287\/moor.4.1.60","volume":"4","author":"M. L. Puterman","year":"1979","unstructured":"Puterman, M. L., & Brumelle, S. L. (1979). On the convergence of policy iteration in stationary dynamic programming. Mathematics of Operations Research, 4(1), 60\u201369.","journal-title":"Mathematics of Operations Research"},{"issue":"11","key":"1073_CR14","doi-asserted-by":"crossref","first-page":"1127","DOI":"10.1287\/mnsc.24.11.1127","volume":"24","author":"M. L. Puterman","year":"1978","unstructured":"Puterman, M. L., & Shin, M. C. (1978). Modified policy iteration algorithms for discounted Markov decision problems. Management Science, 24(11), 1127\u20131137.","journal-title":"Management Science"},{"issue":"2","key":"1073_CR15","doi-asserted-by":"crossref","first-page":"301","DOI":"10.1287\/opre.30.2.301","volume":"30","author":"M. L. Puterman","year":"1982","unstructured":"Puterman, M. L., & Shin, M. C. (1982). Action elimination procedures for modified policy iteration algorithms. Operations Research, 30(2), 301\u2013318.","journal-title":"Operations Research"},{"key":"1073_CR16","first-page":"30","volume-title":"Stochastic control and optimization","author":"U. G. Rothblum","year":"1979","unstructured":"Rothblum, U. G. (1979). Iterated successive approximation for sequential decision processes. In J. W. B. van Overhagen & H. C. Tijms (Eds.), Stochastic control and optimization, Amsterdam (pp. 30\u201332)."},{"issue":"1","key":"1073_CR17","first-page":"9","volume":"3","author":"R. S. Sutton","year":"1988","unstructured":"Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning, 3(1), 9\u201344.","journal-title":"Machine Learning"},{"issue":"1","key":"1073_CR18","doi-asserted-by":"crossref","first-page":"125","DOI":"10.1007\/BF00933260","volume":"25","author":"J. Wal Van\u00a0der","year":"1978","unstructured":"Van\u00a0der Wal, J. (1978). Discounted Markov games: generalized policy iteration method. Journal of Optimization Theory and Applications, 25(1), 125\u2013138.","journal-title":"Journal of Optimization Theory and Applications"},{"key":"1073_CR19","first-page":"203","volume":"20","author":"J. A. E. E. Nunen Van","year":"1976","unstructured":"Van Nunen, J. A. E. E. (1976a). A set of successive approximation methods for discounted Markovian decision problems. Zeitschrift F\u00fcr Operations-Research, 20, 203\u2013208.","journal-title":"Zeitschrift F\u00fcr Operations-Research"},{"key":"1073_CR20","unstructured":"Van Nunen, J. A. E. E. (1976b). Contracting Markov decision processes. Mathematical Centre Tract No. 71, Amsterdam, Holland."},{"key":"1073_CR21","unstructured":"Watkins, C. J. C. H. (1989). Learning from delayed rewards. Ph.D. Thesis, University of Cambridge, England."},{"issue":"3","key":"1073_CR22","doi-asserted-by":"crossref","first-page":"231","DOI":"10.1287\/moor.3.3.231","volume":"3","author":"W. Whitt","year":"1978","unstructured":"Whitt, W. (1978). Approximations of dynamic programs, I. Mathematics of Operations Research, 3(3), 231\u2013243.","journal-title":"Mathematics of Operations Research"}],"container-title":["Annals of Operations Research"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10479-012-1073-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10479-012-1073-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10479-012-1073-x","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,5,29]],"date-time":"2019-05-29T18:09:33Z","timestamp":1559153373000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10479-012-1073-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2012,2,8]]},"references-count":22,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2013,9]]}},"alternative-id":["1073"],"URL":"https:\/\/doi.org\/10.1007\/s10479-012-1073-x","relation":{},"ISSN":["0254-5330","1572-9338"],"issn-type":[{"value":"0254-5330","type":"print"},{"value":"1572-9338","type":"electronic"}],"subject":[],"published":{"date-parts":[[2012,2,8]]}}}