{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,15]],"date-time":"2025-08-15T01:06:24Z","timestamp":1755219984554,"version":"3.43.0"},"reference-count":42,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"9","license":[{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["72495121"],"award-info":[{"award-number":["72495121"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["12422111","12371273"],"award-info":[{"award-number":["12422111","12371273"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100013105","name":"Shanghai Rising-Star Program","doi-asserted-by":"publisher","award":["23QA1404600"],"award-info":[{"award-number":["23QA1404600"]}],"id":[{"id":"10.13039\/501100013105","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Young Elite Scientists Sponsorship Program by CAST","award":["2023QNRC001"],"award-info":[{"award-number":["2023QNRC001"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2025,9]]},"DOI":"10.1109\/tpami.2025.3572807","type":"journal-article","created":{"date-parts":[[2025,5,23]],"date-time":"2025-05-23T13:04:30Z","timestamp":1748005470000},"page":"8088-8101","source":"Crossref","is-referenced-by-count":0,"title":["A New Accelerated Off-Policy Stochastic Preconditioned TD(0) Algorithm"],"prefix":"10.1109","volume":"47","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5449-9180","authenticated-orcid":false,"given":"Weidong","family":"Liu","sequence":"first","affiliation":[{"name":"School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-5932-8720","authenticated-orcid":false,"given":"Jiahua","family":"Ma","sequence":"additional","affiliation":[{"name":"School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9362-508X","authenticated-orcid":false,"given":"Xiaojun","family":"Mao","sequence":"additional","affiliation":[{"name":"School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai, China"}]},{"given":"Kejie","family":"Tang","sequence":"additional","affiliation":[{"name":"School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/9.580874"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1287\/opre.2020.2024"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12079"},{"key":"ref4","first-page":"1347","article-title":"Linear stochastic approximation: How far does constant step-size iterate averaging GO?","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Lakshminarayanan"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-020-05912-5"},{"key":"ref6","first-page":"5438","article-title":"Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Patil"},{"issue":"1","key":"ref7","first-page":"2603","article-title":"An emphatic approach to the problem of off-policy temporal-difference learning","volume":"17","author":"Sutton","year":"2016","journal-title":"J. Mach. Learn. Res."},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553442"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-377-6.50013-X"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1995.7.2.270"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/BF00114724"},{"key":"ref12","first-page":"1609","article-title":"A convergent o(n) temporal-difference algorithm for off-policy learning with linear function approximation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Sutton"},{"article-title":"Gradient temporal-difference learning algorithms","year":"2011","author":"Maei","key":"ref13"},{"key":"ref14","first-page":"12578","article-title":"Average-reward off-policy policy evaluation with function approximation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhang"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390308"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553501"},{"key":"ref17","first-page":"504","article-title":"Finite-sample analysis of proximal gradient TD algorithms","volume-title":"Proc. 31st Conf. Uncertainty Artif. Intell.","author":"Liu"},{"key":"ref18","first-page":"1199","article-title":"Finite sample analysis of two-timescale stochastic approximation with applications to reinforcement learning","volume-title":"Proc. Conf. Learn. Theory","author":"Dalal"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.5779"},{"volume-title":"Reinforcement Learning: An Introduction","year":"2018","author":"Sutton","key":"ref20"},{"key":"ref21","first-page":"1724","article-title":"On convergence of emphatic temporal-difference learning","volume-title":"Proc. Conf. Learn. Theory","author":"Yu"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1137\/1.9780898718003"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1137\/0330046"},{"article-title":"A new gradient TD algorithm with only one step-size: Convergence rate analysis using $l-\\lambda$l-\u03bb smoothness","year":"2023","author":"Yao","key":"ref24"},{"article-title":"Direct gradient temporal difference learning","year":"2023","author":"Qian","key":"ref25"},{"key":"ref26","first-page":"10634","article-title":"Two time-scale off-policy TD learning: Non-asymptotic analysis over markovian samples","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Xu"},{"issue":"1","key":"ref27","first-page":"6859","article-title":"Truncated emphatic temporal difference methods for prediction and control","volume":"23","author":"Zhang","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"ref28","first-page":"3014","article-title":"Weighted importance sampling for off-policy learning with linear function approximation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Mahmood"},{"key":"ref29","first-page":"1407","article-title":"Impala: Scalable distributed deep-RL with importance weighted actor-learner architectures","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Espeholt"},{"key":"ref30","first-page":"45","article-title":"Conditional importance sampling for off-policy learning","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Rowland"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/BF00115009"},{"volume-title":"Neuro-Dynamic Programming","year":"1996","author":"Bertsekas","key":"ref32"},{"key":"ref33","volume-title":"Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues","volume":"31","author":"Br\u00e9maud","year":"2001"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1090\/mbk\/107"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1137\/16M1080173"},{"article-title":"Acceleration of stochastic gradient descent with momentum by averaging: Finite-sample rates and asymptotic normality","year":"2023","author":"Tang","key":"ref36"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.spl.2014.07.024"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1080\/01621459.2022.2096620"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1023\/A:1017936530646"},{"article-title":"Openai gym","year":"2016","author":"Brockman","key":"ref40"},{"key":"ref41","first-page":"1038","article-title":"Generalization in reinforcement learning: Successful examples using sparse coarse coding","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Sutton"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/34\/11118328\/11011923.pdf?arnumber=11011923","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T17:44:25Z","timestamp":1754588665000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11011923\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9]]},"references-count":42,"journal-issue":{"issue":"9"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2025.3572807","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"type":"print","value":"0162-8828"},{"type":"electronic","value":"2160-9292"},{"type":"electronic","value":"1939-3539"}],"subject":[],"published":{"date-parts":[[2025,9]]}}}