{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,11]],"date-time":"2025-09-11T19:31:49Z","timestamp":1757619109134,"version":"3.44.0"},"reference-count":30,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2025,7,18]],"date-time":"2025-07-18T00:00:00Z","timestamp":1752796800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,7,18]],"date-time":"2025-07-18T00:00:00Z","timestamp":1752796800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"the Original Exploratory Program Project of National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62450004"],"award-info":[{"award-number":["62450004"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Joint Funds of the National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U23A20325"],"award-info":[{"award-number":["U23A20325"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100007129","name":"Natural Science Foundation of Shandong Province","doi-asserted-by":"publisher","award":["ZR2024MF045"],"award-info":[{"award-number":["ZR2024MF045"]}],"id":[{"id":"10.13039\/501100007129","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Optim Theory Appl"],"published-print":{"date-parts":[[2025,11]]},"DOI":"10.1007\/s10957-025-02777-3","type":"journal-article","created":{"date-parts":[[2025,7,18]],"date-time":"2025-07-18T09:08:34Z","timestamp":1752829714000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["A Value Iteration Algorithm for Stochastic Linear Quadratic Regulator"],"prefix":"10.1007","volume":"207","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-2286-6839","authenticated-orcid":false,"given":"Hongxia","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yihang","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiangqian","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,7,18]]},"reference":[{"key":"2777_CR1","doi-asserted-by":"crossref","unstructured":"Baird, L.C.: Reinforcement learning in continuous time: Advantage updating. In: Proceedings of 1994 IEEE International Conference on Neural Networks (ICNN\u201994), pp. 2448\u20132453. IEEE (1994)","DOI":"10.1109\/ICNN.1994.374604"},{"key":"2777_CR2","unstructured":"Bertsekas, D.: Dynamic Programming and Optimal Control:Volume I. Athena Scientific (2012)"},{"key":"2777_CR3","doi-asserted-by":"publisher","first-page":"48","DOI":"10.1016\/j.sysconle.2018.03.001","volume":"115","author":"T Bian","year":"2018","unstructured":"Bian, T., Jiang, Z.P.: Stochastic and adaptive optimal control of uncertain interconnected systems: A data-driven approach. Systems & Control Letters 115, 48\u201354 (2018)","journal-title":"Systems & Control Letters"},{"key":"2777_CR4","unstructured":"Feller, W.: An Introduction to Probability Theory and Its Applications:Volume 2. John Wiley & Sons (1991)"},{"issue":"12","key":"2777_CR5","doi-asserted-by":"publisher","first-page":"13262","DOI":"10.1109\/TCYB.2021.3107801","volume":"52","author":"M Ha","year":"2021","unstructured":"Ha, M., Wang, D., Liu, D.: Offline and online adaptive critic control designs with stability guarantee through value iteration. IEEE Transactions on Cybernetics 52(12), 13262\u201313274 (2021)","journal-title":"IEEE Transactions on Cybernetics"},{"issue":"10","key":"2777_CR6","doi-asserted-by":"publisher","first-page":"7430","DOI":"10.1109\/TNNLS.2022.3143527","volume":"34","author":"M Ha","year":"2022","unstructured":"Ha, M., Wang, D., Liu, D.: A novel value iteration scheme with adjustable convergence rate. IEEE Transactions on Neural Networks and Learning Systems 34(10), 7430\u20137442 (2022)","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"2777_CR7","doi-asserted-by":"crossref","unstructured":"Huang, Y., Zhang, W., Zhang, H.: Infinite horizon LQ optimal control for discrete-time stochastic systems. In: 2006 6th World Congress on Intelligent Control and Automation, pp. 252\u2013256. IEEE (2006)","DOI":"10.1109\/WCICA.2006.1712311"},{"issue":"5","key":"2777_CR8","doi-asserted-by":"publisher","first-page":"608","DOI":"10.1002\/asjc.61","volume":"10","author":"Y Huang","year":"2008","unstructured":"Huang, Y., Zhang, W., Zhang, H.: Infinite horizon linear quadratic optimal control for discrete-time stochastic systems. Asian Journal of Control 10(5), 608\u2013615 (2008)","journal-title":"Asian Journal of Control"},{"issue":"10","key":"2777_CR9","doi-asserted-by":"publisher","first-page":"4607","DOI":"10.1109\/TNNLS.2017.2771459","volume":"29","author":"Y Jiang","year":"2017","unstructured":"Jiang, Y., Fan, J., Chai, T., Lewis, F.L., Li, J.: Tracking control for linear discrete-time networked control systems with unknown dynamics and dropout. IEEE Transactions on Neural Networks and Learning Systems 29(10), 4607\u20134620 (2017)","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"issue":"10","key":"2777_CR10","doi-asserted-by":"publisher","first-page":"2699","DOI":"10.1016\/j.automatica.2012.06.096","volume":"48","author":"Y Jiang","year":"2012","unstructured":"Jiang, Y., Jiang, Z.P.: Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics. Automatica 48(10), 2699\u20132704 (2012)","journal-title":"Automatica"},{"issue":"4","key":"2777_CR11","doi-asserted-by":"publisher","first-page":"1167","DOI":"10.1016\/j.automatica.2014.02.015","volume":"50","author":"B Kiumarsi","year":"2014","unstructured":"Kiumarsi, B., Lewis, F.L., Modares, H., Karimpour, A., Naghibi-Sistani, M.B.: Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics. Automatica 50(4), 1167\u20131175 (2014)","journal-title":"Automatica"},{"issue":"12","key":"2777_CR12","doi-asserted-by":"publisher","first-page":"2770","DOI":"10.1109\/TCYB.2014.2384016","volume":"45","author":"B Kiumarsi","year":"2015","unstructured":"Kiumarsi, B., Lewis, F.L., Naghibi-Sistani, M.B., Karimpour, A.: Optimal tracking control of unknown discrete-time linear systems using input-output measured data. IEEE Transactions on Cybernetics 45(12), 2770\u20132779 (2015)","journal-title":"IEEE Transactions on Cybernetics"},{"key":"2777_CR13","doi-asserted-by":"crossref","unstructured":"Kleinman, D.: On an iterative technique for Riccati equation computations. IEEE Transactions on Automatic Control 13(1), 114\u2013115 (1968)","DOI":"10.1109\/TAC.1968.1098829"},{"key":"2777_CR14","doi-asserted-by":"publisher","first-page":"110,685","DOI":"10.1016\/j.automatica.2022.110685","volume":"147","author":"J Lai","year":"2023","unstructured":"Lai, J., Xiong, J., Shu, Z.: Model-free optimal control of discrete-time systems with additive and multiplicative noises. Automatica 147, 110,685 (2023)","journal-title":"Automatica"},{"key":"2777_CR15","doi-asserted-by":"crossref","unstructured":"Lewis, F.L., Vamvoudakis, K.G.: Reinforcement learning for partially observable dynamic processes: Adaptive dynamic programming using measured output data. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) 41(1), 14\u201325 (2010)","DOI":"10.1109\/TSMCB.2010.2043839"},{"key":"2777_CR16","doi-asserted-by":"crossref","unstructured":"Lewis, F.L., Vrabie, D., Vamvoudakis, K.G.: Reinforcement learning and feedback control: Using natural decision methods to design optimal adaptive controllers. IEEE Transactions on Automatic Control 32(6), 76\u2013105 (2012)","DOI":"10.1109\/MCS.2012.2214134"},{"key":"2777_CR17","doi-asserted-by":"crossref","unstructured":"Li, M., Qin, J., Zheng, W.X., Wang, Y., Kang, Y.: Model-free design of stochastic lqr controller from reinforcement learning and primal-dual optimization perspective. arXiv preprint arXiv:2103.09407 (2021)","DOI":"10.1016\/j.automatica.2022.110253"},{"key":"2777_CR18","doi-asserted-by":"crossref","unstructured":"Liu, Y., Luo, Y., Zhang, H.: Adaptive dynamic programming for discrete-time lqr optimal tracking control problems with unknown dynamics. In: 2014 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL), pp. 1\u20136. IEEE (2014)","DOI":"10.1109\/ADPRL.2014.7010636"},{"issue":"11","key":"2777_CR19","doi-asserted-by":"publisher","first-page":"2401","DOI":"10.1109\/TCYB.2015.2477810","volume":"46","author":"H Modares","year":"2016","unstructured":"Modares, H., Lewis, F.L., Jiang, Z.P.: Optimal output-feedback control of unknown continuous-time linear systems using off-policy reinforcement learning. IEEE Transactions on Cybernetics 46(11), 2401\u20132410 (2016)","journal-title":"IEEE Transactions on Cybernetics"},{"key":"2777_CR20","doi-asserted-by":"crossref","unstructured":"Pang, B., Jiang, Z.P.: Robust reinforcement learning for stochastic linear quadratic control with multiplicative noise. Trends in Nonlinear and Adaptive Control: A Tribute to Laurent Praly for his 65th Birthday pp. 249\u2013277 (2022)","DOI":"10.1007\/978-3-030-74628-5_9"},{"key":"2777_CR21","doi-asserted-by":"crossref","unstructured":"Rizvi, S.A.A., Lin, Z.: Output feedback reinforcement Q-learning control for the discrete-time linear quadratic regulator problem. In: 2017 IEEE 56th Annual Conference on Decision and Control (CDC), pp. 1311\u20131316. IEEE (2017)","DOI":"10.1109\/CDC.2017.8263836"},{"key":"2777_CR22","unstructured":"Sutton, R.S., Barto, A.G.: Reinforcement Learning: An introduction. MIT Press (2018)"},{"issue":"2","key":"2777_CR23","doi-asserted-by":"publisher","first-page":"477","DOI":"10.1016\/j.automatica.2008.08.017","volume":"45","author":"D Vrabie","year":"2009","unstructured":"Vrabie, D., Pastravanu, O., Abu-Khalaf, M., Lewis, F.L.: Adaptive optimal control for continuous-time linear systems based on policy iteration. Automatica 45(2), 477\u2013484 (2009)","journal-title":"Automatica"},{"key":"2777_CR24","doi-asserted-by":"publisher","first-page":"379","DOI":"10.1016\/j.neucom.2015.06.053","volume":"171","author":"T Wang","year":"2016","unstructured":"Wang, T., Zhang, H., Luo, Y.: Infinite-time stochastic linear quadratic optimal control for unknown discrete-time systems using adaptive dynamic programming approach. Neurocomputing 171, 379\u2013386 (2016)","journal-title":"Neurocomputing"},{"issue":"3","key":"2777_CR25","doi-asserted-by":"publisher","first-page":"840","DOI":"10.1109\/TCYB.2015.2492242","volume":"46","author":"Q Wei","year":"2015","unstructured":"Wei, Q., Liu, D., Lin, H.: Value iteration adaptive dynamic programming for optimal control of discrete-time nonlinear systems. IEEE Transactions on Cybernetics 46(3), 840\u2013853 (2015)","journal-title":"IEEE Transactions on Cybernetics"},{"key":"2777_CR26","unstructured":"Werbos, P.: Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Committee on Applied Mathematics, Harvard University, Cambridge, MA (1974)"},{"key":"2777_CR27","doi-asserted-by":"crossref","unstructured":"Werbos, P.J.: Neural networks for control and system identification. In: Proceedings of the 28th IEEE Conference on Decision and Control, pp. 260\u2013265. IEEE (1989)","DOI":"10.1109\/CDC.1989.70114"},{"key":"2777_CR28","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.neucom.2019.12.001","volume":"397","author":"M Zhang","year":"2020","unstructured":"Zhang, M., Gan, M.G., Chen, J.: Data-driven adaptive optimal control for stochastic systems with unmeasurable state. Neurocomputing 397, 1\u201310 (2020)","journal-title":"Neurocomputing"},{"issue":"11","key":"2777_CR29","doi-asserted-by":"publisher","first-page":"5208","DOI":"10.1109\/TNNLS.2020.3027301","volume":"32","author":"F Zhao","year":"2020","unstructured":"Zhao, F., Gao, W., Jiang, Z.P., Liu, T.: Event-triggered adaptive optimal control with output feedback: An adaptive dynamic programming approach. IEEE Transactions on Neural Networks and Learning Systems 32(11), 5208\u20135221 (2020)","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"2777_CR30","doi-asserted-by":"publisher","first-page":"110,103","DOI":"10.1016\/j.automatica.2021.110103","volume":"137","author":"F Zhao","year":"2022","unstructured":"Zhao, F., Gao, W., Liu, T., Jiang, Z.P.: Adaptive optimal output regulation of linear discrete-time systems based on event-triggered output-feedback. Automatica 137, 110,103 (2022)","journal-title":"Automatica"}],"container-title":["Journal of Optimization Theory and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10957-025-02777-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10957-025-02777-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10957-025-02777-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,7]],"date-time":"2025-09-07T14:06:14Z","timestamp":1757253974000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10957-025-02777-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7,18]]},"references-count":30,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2025,11]]}},"alternative-id":["2777"],"URL":"https:\/\/doi.org\/10.1007\/s10957-025-02777-3","relation":{},"ISSN":["0022-3239","1573-2878"],"issn-type":[{"type":"print","value":"0022-3239"},{"type":"electronic","value":"1573-2878"}],"subject":[],"published":{"date-parts":[[2025,7,18]]},"assertion":[{"value":"9 September 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"4 July 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 July 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"20"}}