{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T23:04:05Z","timestamp":1778627045389,"version":"3.51.4"},"reference-count":34,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2023,7,19]],"date-time":"2023-07-19T00:00:00Z","timestamp":1689724800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,7,19]],"date-time":"2023-07-19T00:00:00Z","timestamp":1689724800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Quantum Mach. Intell."],"published-print":{"date-parts":[[2023,12]]},"DOI":"10.1007\/s42484-023-00116-1","type":"journal-article","created":{"date-parts":[[2023,7,19]],"date-time":"2023-07-19T08:06:43Z","timestamp":1689754003000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":27,"title":["Quantum reinforcement learning via policy iteration"],"prefix":"10.1007","volume":"5","author":[{"given":"El Amine","family":"Cherrat","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Iordanis","family":"Kerenidis","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anupam","family":"Prakash","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,7,19]]},"reference":[{"key":"116_CR1","doi-asserted-by":"publisher","first-page":"505","DOI":"10.1038\/s41586-019-1666-5","volume":"574","author":"F Arute","year":"2019","unstructured":"Arute F, Arya K, Babbush R, Bacon D, Bardin JC, Barends R, Biswas R, Boixo S, Brand\u00e3o FGSL, Buell DA, Burkett B, Chen Y, Chen Z, Chiaro B, Collins R, Courtney W, Dunsworth A, Farhi E, Foxen B, Fowler AG, Gidney C, Giustina M, Graff R, Guerin K, Habegger S, Harrigan MP, Hartmann MJ, Ho AK, Hoffmann M, Huang T, Humble T, Isakov SV, Jeffrey E, Jiang Z, Kafri D, Kechedzhi K, Kelly J, Klimov P, Knysh S, Korotkov AN, Kostritsa F, Landhuis D, Lindmark M, Lucero E, Lyakh DI, Mandr\u00e0 S, McClean JR, McEwen MJ, Megrant A, Mi X, Michielsen K, Mohseni M, Mutus J, Naaman O, Neeley M, Neill CJ, Niu MY, Ostby EP, Petukhov A, Platt JC, Quintana C, Rieffel EG, Roushan P, Rubin NC, Sank DT, Satzinger KJ, Smelyanskiy VN, Sung KJ, Trevithick MD, Vainsencher A, Villalonga B, White T, Yao ZJ, Yeh P, Zalcman A, Neven H, Martinis JM (2019) Quantum supremacy using a programmable superconducting processor. Nature 574:505\u2013510","journal-title":"Nature"},{"key":"116_CR2","doi-asserted-by":"publisher","first-page":"310","DOI":"10.1007\/s11768-011-1005-3","volume":"9","author":"DP Bertsekas","year":"2011","unstructured":"Bertsekas DP (2011) Approximate policy iteration: a survey and some new methods. Journal of Control Theory and Applications 9:310\u2013335","journal-title":"Journal of Control Theory and Applications"},{"key":"116_CR3","volume-title":"Reinforcement Learning and Optimal Control, 2nd printing (includes editorial revisions) edn","author":"DP Bertsekas","year":"2019","unstructured":"Bertsekas DP (2019) Reinforcement Learning and Optimal Control, 2nd printing (includes editorial revisions) edn. Athena Scientific, Belmont, Massachusetts"},{"key":"116_CR4","doi-asserted-by":"publisher","first-page":"195","DOI":"10.1038\/nature23474","volume":"549","author":"JD Biamonte","year":"2017","unstructured":"Biamonte JD, Wittek P, Pancotti N, Rebentrost P, Wiebe N, Lloyd S (2017) Quantum machine learning. Nature 549:195\u2013202","journal-title":"Nature"},{"key":"116_CR5","unstructured":"Brockman G, Cheung V, Pettersson L, Schneider J, Schulman J, Tang J, Zaremba W (2016) Openai gym. ArXiv abs\/1606.01540"},{"key":"116_CR6","unstructured":"Chakraborty S, Gily\u00e9n A, Jeffery S (2018) The power of block-encoded matrix powers: improved regression techniques via faster hamiltonian simulation. ArXiv abs\/1804.01973"},{"key":"116_CR7","doi-asserted-by":"publisher","first-page":"141007","DOI":"10.1109\/ACCESS.2020.3010470","volume":"8","author":"SY-C Chen","year":"2020","unstructured":"Chen SY-C, Yang C-HH, Qi J, Chen P-Y, Ma X, Goan H-S (2020) Variational quantum circuits for deep reinforcement learning. IEEE Access 8:141007\u2013141024","journal-title":"IEEE Access"},{"key":"116_CR8","unstructured":"Cornelissen A (2018) Quantum gradient estimation and its application to quantum reinforcement learning. Master\u2019s thesis, Delft University of Technology"},{"key":"116_CR9","doi-asserted-by":"crossref","unstructured":"Dong D, Chen C, Li H, Tarn T-J (2008) Quantum reinforcement learning. IEEE Trans Syst Man Cybern B Cybern 38(5):1207\u2013break1220","DOI":"10.1109\/TSMCB.2008.925743"},{"key":"116_CR10","unstructured":"D\u00fcrr C, H\u00f8yer P (1996) A quantum algorithm for finding the minimum. arXiv preprint quant-ph\/9607014"},{"key":"116_CR11","doi-asserted-by":"crossref","unstructured":"Gily\u00e9n A, Arunachalam S, Wiebe N (2019) Optimizing quantum optimization algorithms via faster quantum gradient computation. In: Proceedings of the Thirtieth Annual ACM-SIAM Symposium on Discrete Algorithms. SIAM, pp 1425\u20131444","DOI":"10.1137\/1.9781611975482.87"},{"key":"116_CR12","doi-asserted-by":"crossref","unstructured":"Gily\u00e9n A, Su Y, Low GH, Wiebe N (2019) Quantum singular value transformation and beyond: exponential improvements for quantum matrix arithmetics. Proceedings of the 51st Annual ACM SIGACT Symposium on Theory of Computing","DOI":"10.1145\/3313276.3316366"},{"key":"116_CR13","doi-asserted-by":"crossref","unstructured":"Grover LK (1996) A fast quantum mechanical algorithm for database search. In: Proceedings of the Twenty-eighth Annual ACM Symposium on Theory of Computing. pp 212\u2013219","DOI":"10.1145\/237814.237866"},{"key":"116_CR14","unstructured":"Jerbi S, Gyurik C, Marshall S, Briegel HJ, Dunjko V (2021) Variational quantum policies for reinforcement learning. ArXiv abs\/2103.05577"},{"key":"116_CR15","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevA.101.022316","volume":"101","author":"I Kerenidis","year":"2020","unstructured":"Kerenidis I, Prakash A (2020) Quantum gradient descent for linear systems and least squares. Phys Rev A 101:022316","journal-title":"Phys Rev A"},{"key":"116_CR16","unstructured":"Kerenidis I, Landman J, Mathur N (2021) Classical and quantum algorithms for orthogonal neural networks. ArXiv abs\/2106.07198"},{"key":"116_CR17","unstructured":"Kerenidis I, Landman J, Prakash A (2019) Quantum algorithms for deep convolutional neural networks. In: International Conference on Learning Representations"},{"key":"116_CR18","unstructured":"Kerenidis I, Prakash A (2017) Quantum recommendation systems. ArXiv abs\/1603.08675"},{"key":"116_CR19","doi-asserted-by":"crossref","unstructured":"Konidaris G, Osentoski S, Thomas P (2011) Value function approximation in reinforcement learning using the fourier basis. In: Twenty-fifth AAAI Conference on Artificial Intelligence","DOI":"10.1609\/aaai.v25i1.7903"},{"key":"116_CR20","first-page":"1107","volume":"4","author":"MG Lagoudakis","year":"2003","unstructured":"Lagoudakis MG, Parr RE (2003) Least-squares policy iteration. J Mach Learn Res 4:1107\u20131149","journal-title":"J Mach Learn Res"},{"issue":"4","key":"116_CR21","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevLett.121.040502","volume":"121","author":"S Lloyd","year":"2018","unstructured":"Lloyd S, Weedbrook C (2018) Quantum generative adversarial learning. Phys Rev Lett 121(4):040502","journal-title":"Phys Rev Lett"},{"key":"116_CR22","doi-asserted-by":"publisher","first-page":"631","DOI":"10.1038\/nphys3029","volume":"10","author":"S Lloyd","year":"2014","unstructured":"Lloyd S, Mohseni M, Rebentrost P (2014) Quantum principal component analysis. Nat Phys 10:631\u2013633","journal-title":"Nat Phys"},{"key":"116_CR23","doi-asserted-by":"crossref","unstructured":"Lockwood O, Si M (2020) Reinforcement learning with quantum variational circuits. ArXiv abs\/2008.07524","DOI":"10.1609\/aiide.v16i1.7437"},{"key":"116_CR24","doi-asserted-by":"publisher","first-page":"529","DOI":"10.1038\/nature14236","volume":"518","author":"V Mnih","year":"2015","unstructured":"Mnih V, Kavukcuoglu K, Silver D, Rusu AA, Veness J, Bellemare MG, Graves A, Riedmiller MA, Fidjeland A, Ostrovski G, Petersen S, Beattie C, Sadik A, Antonoglou I, King H, Kumaran D, Wierstra D, Legg S, Hassabis D (2015) Human-level control through deep reinforcement learning. Nature 518:529\u2013533","journal-title":"Nature"},{"key":"116_CR25","first-page":"560","volume":"3","author":"R Munos","year":"2003","unstructured":"Munos R (2003) Error bounds for approximate policy iteration. ICML 3:560\u2013567","journal-title":"ICML"},{"key":"116_CR26","doi-asserted-by":"crossref","unstructured":"Nielsen MA, Chuang I (2002) Quantum computation and quantum information. American Association of Physics Teachers","DOI":"10.1119\/1.1463744"},{"key":"116_CR27","unstructured":"Ronagh P (2019) Quantum algorithms for solving dynamic programming problems. ArXiv abs\/1906.02229"},{"key":"116_CR28","unstructured":"Scherrer B, Gabillon V, Ghavamzadeh M, Geist M (2012) Approximate modified policy iteration. ArXiv abs\/1205.3054"},{"key":"116_CR29","doi-asserted-by":"publisher","first-page":"354","DOI":"10.1038\/nature24270","volume":"550","author":"D Silver","year":"2017","unstructured":"Silver D, Schrittwieser J, Simonyan K, Antonoglou I, Huang A, Guez A, Hubert T, Baker L, Lai M, Bolton A, Chen Y, Lillicrap TP, Hui F, Sifre L, van den Driessche G, Graepel T, Hassabis D (2017) Mastering the game of go without human knowledge. Nature 550:354\u2013359","journal-title":"Nature"},{"key":"116_CR30","doi-asserted-by":"crossref","unstructured":"Skolik A, Jerbi S, Dunjko V (2021) Quantum agents in the gym: a variational quantum algorithm for deep q-learning. ArXiv abs\/2103.15084","DOI":"10.22331\/q-2022-05-24-720"},{"key":"116_CR31","doi-asserted-by":"publisher","first-page":"285","DOI":"10.1109\/TNN.2004.842673","volume":"16","author":"RS Sutton","year":"2005","unstructured":"Sutton RS, Barto AG (2005) Reinforcement learning: an introduction. IEEE Trans Neural Networks 16:285\u2013286","journal-title":"IEEE Trans Neural Networks"},{"key":"116_CR32","unstructured":"Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow IJ, Fergus R (2014) Intriguing properties of neural networks. CoRR abs\/1312.6199"},{"key":"116_CR33","doi-asserted-by":"crossref","unstructured":"Wang HO, Tanaka K, Griffin MF (1996) An approach to fuzzy control of nonlinear systems: stability and design issues. IEEE Trans Fuzzy Syst 4:14\u201323","DOI":"10.1109\/91.481841"},{"key":"116_CR34","unstructured":"Wang D, Sundaram A, Kothari R, Kapoor A, R\u00f6tteler M (2021) Quantum algorithms for reinforcement learning with a generative model. In: ICML"}],"container-title":["Quantum Machine Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s42484-023-00116-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s42484-023-00116-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s42484-023-00116-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,12,18]],"date-time":"2023-12-18T10:27:33Z","timestamp":1702895253000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s42484-023-00116-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,7,19]]},"references-count":34,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2023,12]]}},"alternative-id":["116"],"URL":"https:\/\/doi.org\/10.1007\/s42484-023-00116-1","relation":{},"ISSN":["2524-4906","2524-4914"],"issn-type":[{"value":"2524-4906","type":"print"},{"value":"2524-4914","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,7,19]]},"assertion":[{"value":"12 February 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 May 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"19 July 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"30"}}