{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T21:17:49Z","timestamp":1768339069312,"version":"3.49.0"},"reference-count":27,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,12,16]],"date-time":"2024-12-16T00:00:00Z","timestamp":1734307200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,12,16]],"date-time":"2024-12-16T00:00:00Z","timestamp":1734307200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100016047","name":"Science Fund of the Republic of Serbia","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100016047","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001871","name":"Funda\u00e7\u00e3o para a Ci\u00eancia e a Tecnologia","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001871","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,12,16]]},"DOI":"10.1109\/cdc56724.2024.10886386","type":"proceedings-article","created":{"date-parts":[[2025,2,26]],"date-time":"2025-02-26T18:43:32Z","timestamp":1740595412000},"page":"7680-7685","source":"Crossref","is-referenced-by-count":1,"title":["Decentralized Multi-Agent Multi-Task Q-Learning with Function Approximation for POMDPs"],"prefix":"10.1109","author":[{"given":"Milo\u0161 S.","family":"Stankovi\u0107","sequence":"first","affiliation":[{"name":"Singidunum University,Belgrade,Serbia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Marko","family":"Beko","sequence":"additional","affiliation":[{"name":"Instituto de Telecomunica&#x00E7;&#x00F5;es, Instituto Superior T&#x00E9;cnico, Universidade de Lisboa,Lisbon,Portugal"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Srdjan S.","family":"Stankovi\u0107","sequence":"additional","affiliation":[{"name":"University of Belgrade,School of Electrical Engineering,Serbia"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/tnn.1998.712192"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TCNS.2021.3061909"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2023.110922"},{"key":"ref4","article-title":"Diff-DAC: Distributed actor-critic for average multitask deep reinforcement learning","author":"Valcarcel Macua","year":"2019","journal-title":"arXiv 1710.10363"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref6","first-page":"619","article-title":"Learning policies for partially observable environments: scaling up","volume-title":"Proc. Conf. on Uncertainty in AI","author":"Yu"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/OJCSYS.2023.3277760"},{"key":"ref8","first-page":"1967","article-title":"Hidden markov model estimation-based q-larning for partially observable decision process","volume-title":"IEEE Conf. Decision and Control","author":"Yoon"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-377-6.50052-9"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390240"},{"key":"ref11","first-page":"719","article-title":"Toward off policy learning control with function approximation","volume-title":"Proc. Intern. Conf. Machine Learning","author":"Maei"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.23919\/ECC64448.2024.10590764"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2015.07.018"},{"key":"ref14","article-title":"Multi task learning as multi objective optimization","volume-title":"Proc. 32nd Conf. Neural Inf. Proc. Sys.","author":"Sener"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.1997.652384"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/5.18626"},{"key":"ref17","article-title":"Stochastic Approximation and Recursive Algorithms and Applications","author":"Kushner","year":"2003"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1137\/0325070"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1137\/S0363012997331639"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1016\/j.ejcon.2023.100853"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2016.2545098"},{"key":"ref22","first-page":"1633","article-title":"Transfer learning for reinforcement learning domains: a survey","volume":"10","author":"Taylor","year":"2009","journal-title":"J. of Machine Learning Research"},{"key":"ref23","article-title":"Distral: Robust multitask reinforcement learning","author":"Teh","year":"2017","journal-title":"arXiv:1707.04175"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.10942"},{"key":"ref25","article-title":"An overview of multitask learning in deep neural networks","author":"Ruder","year":"2017","journal-title":"arXiv:1706.05098"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/18.979322"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1023\/A:1017936530646"}],"event":{"name":"2024 IEEE 63rd Conference on Decision and Control (CDC)","location":"Milan, Italy","start":{"date-parts":[[2024,12,16]]},"end":{"date-parts":[[2024,12,19]]}},"container-title":["2024 IEEE 63rd Conference on Decision and Control (CDC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10885784\/10885785\/10886386.pdf?arnumber=10886386","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,2,27]],"date-time":"2025-02-27T08:45:26Z","timestamp":1740645926000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10886386\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,16]]},"references-count":27,"URL":"https:\/\/doi.org\/10.1109\/cdc56724.2024.10886386","relation":{},"subject":[],"published":{"date-parts":[[2024,12,16]]}}}