{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,16]],"date-time":"2026-05-16T16:07:09Z","timestamp":1778947629591,"version":"3.51.4"},"reference-count":53,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"5","license":[{"start":{"date-parts":[[2015,5,1]],"date-time":"2015-05-01T00:00:00Z","timestamp":1430438400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"name":"Spanish Ministry of Science and Innovation in the program CONSOLIDER-INGENIO 2010","award":["CSD2008-00010"],"award-info":[{"award-number":["CSD2008-00010"]}]},{"name":"NSF","award":["CCF-1011918"],"award-info":[{"award-number":["CCF-1011918"]}]},{"name":"NSF","award":["ECCS-1407712"],"award-info":[{"award-number":["ECCS-1407712"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Automat. Contr."],"published-print":{"date-parts":[[2015,5]]},"DOI":"10.1109\/tac.2014.2368731","type":"journal-article","created":{"date-parts":[[2014,11,7]],"date-time":"2014-11-07T19:48:08Z","timestamp":1415389688000},"page":"1260-1274","source":"Crossref","is-referenced-by-count":54,"title":["Distributed Policy Evaluation Under Multiple Behavior Strategies"],"prefix":"10.1109","volume":"60","author":[{"given":"Sergio","family":"Valcarcel Macua","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianshu","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Santiago","family":"Zazo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ali H.","family":"Sayed","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1002\/9780470374122"},{"key":"ref38","first-page":"2222","article-title":"Sketch-based linear value function approximation","author":"bellemare","year":"0","journal-title":"Proc Advances Neural Inf Process Sys (NIPS) 25"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/s10479-005-5732-z"},{"key":"ref32","first-page":"9","article-title":"Parametric value function approximation: A unified view","author":"geist","year":"0","journal-title":"Proc IEEE Symp Adaptive Dynamic Programming Reinforcement Learning (ADPRL)"},{"key":"ref31","first-page":"959","article-title":"Should one compute the temporal difference fix point or minimize the Bellman residual? The unified oblique projection view","author":"scherrer","year":"0","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref30","author":"levin","year":"2006","journal-title":"Markov Chains and Mixing Times"},{"key":"ref37","first-page":"271","article-title":"Predictive state temporal difference learning","author":"boots","year":"0","journal-title":"Proc Advances Neural Inf Process Sys (NIPS) 23"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1561\/2200000003"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ADPRL.2009.4927528"},{"key":"ref34","first-page":"752","article-title":"An analysis of linear models, linear value-function approximation, feature selection for reinforcement learning","author":"parr","year":"0","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref28","first-page":"371","article-title":"Distributed value functions","author":"schneider","year":"0","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.sysconle.2011.04.002"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-00644-9_33"},{"key":"ref2","author":"sutton","year":"1998","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref1","first-page":"4539","article-title":"Cooperative off-policy prediction of Markov decision processes in adaptive networks","author":"macua","year":"0","journal-title":"Proc IEEE Int Conf Acoustics Speech Signal Process (ICASSP)"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2012.2231991"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2012.2217338"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2014.2306253"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2013.2241057"},{"key":"ref23","first-page":"91","article-title":"${\\rm GQ}(\\lambda)$: A general gradient algorithm for temporal-difference prediction learning with eligibility traces","volume":"1","author":"maei","year":"0","journal-title":"Proc Conf Artif General Intell"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/9.580874"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-377-6.50013-X"},{"key":"ref50","first-page":"2996","article-title":"Convergence in multiagent coordination, consensus, flocking","author":"blondel","year":"0","journal-title":"Proc IEEE Conf Decision and Control European Control Conf (CDCECC)"},{"key":"ref51","author":"zhao","year":"2013","journal-title":"Asynchronous Adaptation and Learning Over Networks&#x2014;Part II Performance Analysis"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2012.2204985"},{"key":"ref52","author":"chen","year":"2013","journal-title":"The Learning Behavior of Adaptive Networks&#x2014;Part I Transient Analysis"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.1986.1104412"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2008.2009515"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511804441"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2011.2127446"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2010.2076530"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2004.834113"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2008.917383"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2009.2033729"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2012.2198470"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2013.2246763"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1016\/B978-0-12-411597-2.00009-6"},{"key":"ref4","article-title":"Scaling-up knowledge for a cognizant robot","author":"degris","year":"0","journal-title":"AAAI Spring Symp Series"},{"key":"ref3","first-page":"761","article-title":"Horde: A scalable real-time architecture for learning knowledge from unsupervised sensorimotor interaction","volume":"2","author":"sutton","year":"0","journal-title":"Proc 3rd Int Joint Conf Autonomous Agents and Multiagent Systems (AAMAS)"},{"key":"ref6","doi-asserted-by":"crossref","DOI":"10.1002\/9780470316887","author":"puterman","year":"1994","journal-title":"Markov Decision Processes Discrete Stochastic Dynamic Programming"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1177\/1059712313511648"},{"key":"ref8","first-page":"1609","article-title":"A convergent O(n) temporal-difference algorithm for off-policy learning with linear function approximation","author":"sutton","year":"0","journal-title":"Proc Advances Neural Information Processing Systems (NIPS) 21"},{"key":"ref7","volume":"2","author":"bertsekas","year":"2012","journal-title":"Dynamic Programming and Optimal Control"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2002.808106"},{"key":"ref9","first-page":"993","article-title":"Fast gradient-descent methods for temporaldifference learning with linear function approximation","author":"sutton","year":"0","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref46","author":"seneta","year":"2006","journal-title":"Non-Negative Matrices and Markov Chains"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/Allerton.2012.6483402"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1137\/S0363012997331639"},{"key":"ref47","author":"horn","year":"1990","journal-title":"Matrix Analysis"},{"key":"ref42","author":"polyak","year":"1987","journal-title":"Introduction to Optimization"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1017\/S0962492904000212"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1002\/9781118014967"},{"key":"ref43","author":"arrow","year":"1958","journal-title":"Studies in Linear and Nonlinear Programming"}],"container-title":["IEEE Transactions on Automatic Control"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9\/7087408\/06949624.pdf?arnumber=6949624","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,4,21]],"date-time":"2022-04-21T19:12:44Z","timestamp":1650568364000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/6949624\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,5]]},"references-count":53,"journal-issue":{"issue":"5"},"URL":"https:\/\/doi.org\/10.1109\/tac.2014.2368731","relation":{},"ISSN":["0018-9286","1558-2523"],"issn-type":[{"value":"0018-9286","type":"print"},{"value":"1558-2523","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,5]]}}}