{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T19:55:02Z","timestamp":1772654102672,"version":"3.50.1"},"reference-count":57,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2021,8,1]],"date-time":"2021-08-01T00:00:00Z","timestamp":1627776000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"},{"start":{"date-parts":[[2021,8,1]],"date-time":"2021-08-01T00:00:00Z","timestamp":1627776000000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"German Federal Ministry of Defence"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Aerosp. Electron. Syst."],"published-print":{"date-parts":[[2021,8]]},"DOI":"10.1109\/taes.2021.3057649","type":"journal-article","created":{"date-parts":[[2021,2,18]],"date-time":"2021-02-18T21:44:22Z","timestamp":1613684662000},"page":"2247-2264","source":"Crossref","is-referenced-by-count":14,"title":["Policy Rollout Action Selection in Continuous Domains for Sensor Path Planning"],"prefix":"10.1109","volume":"57","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3306-9368","authenticated-orcid":false,"given":"Folker","family":"Hoffmann","sequence":"first","affiliation":[{"name":"Fraunhofer FKIE, Wachtberg, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0511-2426","authenticated-orcid":false,"given":"Alexander","family":"Charlish","sequence":"additional","affiliation":[{"name":"Fraunhofer FKIE, Wachtberg, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8423-8064","authenticated-orcid":false,"given":"Matthew","family":"Ritchie","sequence":"additional","affiliation":[{"name":"University College London, London, U.K."}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9947-5553","authenticated-orcid":false,"given":"Hugh","family":"Griffiths","sequence":"additional","affiliation":[{"name":"University College London, London, U.K."}]}],"member":"263","reference":[{"key":"ref39","first-page":"1655","article-title":"X-armed bandits","volume":"12","author":"bubeck","year":"2011","journal-title":"J Mach Learn Res"},{"key":"ref38","first-page":"1","article-title":"Rollout allocation strategies for classification-based policy iteration","author":"gabillon","year":"0","journal-title":"Proc ICML Workshop Reinforcement Learn Search Very Large Spaces"},{"key":"ref33","first-page":"1","article-title":"Differential training of rollout policies","author":"bertsekas","year":"0","journal-title":"Proc 35th Allerton Conf Commun Control Comput"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1002\/9781118631980"},{"key":"ref31","first-page":"903","article-title":"Scheduling straight-line code using reinforcement learning and rollouts","author":"mcgovern","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1287\/trsc.37.3.257.16047"},{"key":"ref37","author":"chen","year":"2011","journal-title":"Stochastic Simulation Optimization&#x2014;An Optimal Computing Budget Allocation"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2008.917173"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/MFI.2008.4648009"},{"key":"ref34","first-page":"1","article-title":"A rollout based path planner for emitter localization","author":"hoffmann","year":"0","journal-title":"Proc 22nd Int Conf Inf Fusion"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1287\/opre.1120.1127"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.ejor.2008.03.023"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.trc.2011.06.003"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2015.XI.042"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1023\/A:1009634810396"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2014.2343019"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/GlobalSIP.2013.6736845"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2015.2393893"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1287\/trsc.2017.0767"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/RADAR.2015.7131271"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1287\/opre.49.5.796.10608"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1023\/A:1025605803490"},{"key":"ref50","author":"kushner","year":"2003","journal-title":"Stochastic Approximation and Recursive Algorithms and Applications"},{"key":"ref51","author":"goodfellow","year":"2016","journal-title":"Deep Learning"},{"key":"ref57","first-page":"1","article-title":"Adaptive subgradient methods for online learning and stochastic optimization","volume":"12","author":"duchi","year":"2011","journal-title":"J Mach Learn Res"},{"key":"ref56","first-page":"1","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"0","journal-title":"Proc 3rd Int Conf Learn Represent"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1023\/A:1012771025575"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1137\/0916069"},{"key":"ref53","first-page":"792","article-title":"JSAT: Java statistical analysis tool, a library for machine learning","volume":"18","author":"raff","year":"2017","journal-title":"J Mach Learn Res"},{"key":"ref52","author":"nocedal","year":"2006","journal-title":"Numerical Optimization"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/WODES.2008.4605941"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/s10626-009-0071-x"},{"key":"ref40","first-page":"335","article-title":"Sample-based planning for continuous action Markov decision processes","author":"mansley","year":"0","journal-title":"Proc 21st Int Conf Autom Plan Scheduling"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2008.4739329"},{"key":"ref13","first-page":"743","article-title":"Sensor scheduling for target tracking in sensor networks","author":"he","year":"0","journal-title":"Proc 43rd IEEE Conf Decis Control"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1016\/j.dsp.2005.02.005"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.dsp.2007.05.004"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CCST.2006.313460"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1049\/iet-spr.2013.0187"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1117\/12.666303"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2013.2272664"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICUAS.2014.6842262"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/EIT.2016.7535285"},{"key":"ref6","author":"bertsekas","year":"2012","journal-title":"Dynamic Programming and Optimal Control Approximate Dynamic Programming"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2015.2432612"},{"key":"ref8","first-page":"1068","article-title":"On-line policy improvement using Monte Carlo search","author":"tesauro","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1002\/9781118029176"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1214\/aoms\/1177729392"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1023\/A:1009635226865"},{"key":"ref46","first-page":"1","article-title":"Optimal best arm identification with fixed confidence","author":"garivier","year":"0","journal-title":"Proc 29th Conf Learn Theory"},{"key":"ref45","first-page":"3212","article-title":"Best arm identification: A unified approach to fixed budget and fixed confidence","author":"gabillon","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref48","first-page":"1","article-title":"Optimal sensor trajectories in bearings-only tracking","author":"hernandez","year":"0","journal-title":"Proc 7th Int Conf Inf Fusion"},{"key":"ref47","first-page":"1238","article-title":"Almost optimal exploration in multi-armed bandits","volume":"28","author":"karnin","year":"0","journal-title":"Proc 30th Int Conf Mach Learn"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1023\/A:1013689704352"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460734"},{"key":"ref44","first-page":"1","article-title":"Best arm identification in multi-armed bandits","author":"audibert","year":"0","journal-title":"Proc 23th Conf Learn Theory"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-04414-4_7"}],"container-title":["IEEE Transactions on Aerospace and Electronic Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7\/9509738\/09356824.pdf?arnumber=9356824","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,14]],"date-time":"2022-01-14T20:43:14Z","timestamp":1642192994000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9356824\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,8]]},"references-count":57,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/taes.2021.3057649","relation":{},"ISSN":["0018-9251","1557-9603","2371-9877"],"issn-type":[{"value":"0018-9251","type":"print"},{"value":"1557-9603","type":"electronic"},{"value":"2371-9877","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,8]]}}}