{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,10]],"date-time":"2026-01-10T20:34:18Z","timestamp":1768077258787,"version":"3.49.0"},"reference-count":62,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100020963","name":"JST Moonshot Research and Development","doi-asserted-by":"publisher","award":["JPMJMS2032"],"award-info":[{"award-number":["JPMJMS2032"]}],"id":[{"id":"10.13039\/501100020963","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Automat. Sci. Eng."],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/tase.2025.3590068","type":"journal-article","created":{"date-parts":[[2025,7,17]],"date-time":"2025-07-17T18:01:56Z","timestamp":1752775316000},"page":"18682-18693","source":"Crossref","is-referenced-by-count":1,"title":["Progressive-Resolution Policy Distillation: Leveraging Coarse-Resolution Simulations for Time-Efficient Fine-Resolution Policy Learning"],"prefix":"10.1109","volume":"22","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3358-9520","authenticated-orcid":false,"given":"Yuki","family":"Kadokawa","sequence":"first","affiliation":[{"name":"Nara Institute of Science and Technology, Nara, Japan"}]},{"given":"Hirotaka","family":"Tahara","sequence":"additional","affiliation":[{"name":"Nara Institute of Science and Technology, Nara, Japan"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3545-4814","authenticated-orcid":false,"given":"Takamitsu","family":"Matsubara","sequence":"additional","affiliation":[{"name":"Nara Institute of Science and Technology, Nara, Japan"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9635965"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1177\/16878140211034611"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2017.2700407"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.abc3164"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1002\/rob.21654"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.autcon.2016.05.009"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1023\/A:1007932011161"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.3390\/app11188718"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/j.autcon.2022.104428"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2972891"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1017\/S0263574722000339"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-19-7784-8_10"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989385"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2023.3236805"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2019.2925758"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3150511"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.22260\/ISARC2020\/0064"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.compeleceng.2013.06.010"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812376"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342463"},{"key":"ref21","article-title":"Isaac gym: High performance GPU-based physics simulation for robot learning","author":"Makoviychuk","year":"2021","journal-title":"arXiv:2108.10470"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1016\/j.cma.2022.114904"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9341036"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.034"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3639477.3639740"},{"key":"ref26","article-title":"Model based reinforcement learning for Atari","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Kaiser"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2022.3185159"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2024.3352580"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i12.17276"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.2307\/j.ctt4cgngj.10"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-86486-6_8"},{"key":"ref32","article-title":"Image augmentation is all you need: Regularizing deep reinforcement learning from pixels","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Kostrikov"},{"key":"ref33","first-page":"5402","article-title":"Automatic data augmentation for generalization in reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Raileanu"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2024.3454418"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3267120"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2024.3403833"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/3054912"},{"key":"ref38","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Haarnoja"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3082568"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1016\/j.asoc.2023.110975"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2023.3270764"},{"key":"ref42","first-page":"1","article-title":"Curriculum learning for reinforcement learning domains: A framework and survey","volume":"21","author":"Narvekar","year":"2020","journal-title":"J. Mach. Learn. Res."},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2021.3114327"},{"key":"ref44","first-page":"1515","article-title":"Automatic goal generation for reinforcement learning agents","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Florensa"},{"key":"ref45","first-page":"7783","article-title":"Skew-fit: State-covering self-supervised reinforcement learning","volume-title":"Proc. 37th Int. Conf. Mach. Learn.","volume":"119","author":"Pong"},{"key":"ref46","first-page":"2817","article-title":"Robust adversarial reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Pinto"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8206245"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2019.2934906"},{"key":"ref49","first-page":"566","article-title":"Source task creation for curriculum learning","volume-title":"Proc. Int. Conf. Auton. Agents Multiagent Syst.","author":"Narvekar"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1177\/0278364913495721"},{"key":"ref51","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv:1707.06347"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.6070"},{"key":"ref53","first-page":"220","article-title":"Cautious actor-critic","volume-title":"Proc. Asian Conf. Mach. Learn.","author":"Zhu"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/435"},{"key":"ref55","first-page":"1331","article-title":"Distilling policy distillation","volume-title":"Proc. 22nd Int. Conf. Artif. Intell. Statist.","author":"Czarnecki"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2023.104425"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460528"},{"key":"ref58","article-title":"High-dimensional continuous control using generalized advantage estimation","author":"Schulman","year":"2015","journal-title":"arXiv:1506.02438"},{"key":"ref59","article-title":"Offline reinforcement learning with implicit Q-learning","author":"Kostrikov","year":"2021","journal-title":"arXiv:2110.06169"},{"key":"ref60","article-title":"Randomized ensembled double Q-learning: Learning fast without a model","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Chen"},{"key":"ref61","first-page":"5556","article-title":"Controlling overestimation bias with truncated mixture of continuous distributional quantile critics","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kuznetsov"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.22260\/isarc2024\/0169"}],"container-title":["IEEE Transactions on Automation Science and Engineering"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8856\/10839176\/11083583.pdf?arnumber=11083583","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,28]],"date-time":"2025-07-28T19:52:25Z","timestamp":1753732345000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11083583\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":62,"URL":"https:\/\/doi.org\/10.1109\/tase.2025.3590068","relation":{},"ISSN":["1545-5955","1558-3783"],"issn-type":[{"value":"1545-5955","type":"print"},{"value":"1558-3783","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}