{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,25]],"date-time":"2025-11-25T06:16:15Z","timestamp":1764051375131,"version":"3.45.0"},"reference-count":21,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,13]],"date-time":"2025-10-13T00:00:00Z","timestamp":1760313600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,13]],"date-time":"2025-10-13T00:00:00Z","timestamp":1760313600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100018907","name":"EMBRAPII","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100018907","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100023753","name":"EDGE","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100023753","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100014600","name":"Mathworks","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100014600","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004347","name":"STMicroelectronics","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004347","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,13]]},"DOI":"10.1109\/sbr\/wre66973.2025.11249656","type":"proceedings-article","created":{"date-parts":[[2025,11,24]],"date-time":"2025-11-24T18:56:39Z","timestamp":1764010599000},"page":"147-151","source":"Crossref","is-referenced-by-count":0,"title":["Residual Reinforcement Learning to Generate a Closed-Loop Policy from a Keyframe Kick Motion"],"prefix":"10.1109","author":[{"given":"Marcos Vin\u00edcius S.","family":"Passamani","sequence":"first","affiliation":[{"name":"Aeronautics Institute of Technology,S&#x00E3;o Jos&#x00E9; dos Campos,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Marcos R. O. A.","family":"Maximo","sequence":"additional","affiliation":[{"name":"Institute of Technology,Computer Science Division Aeronautics,S&#x00E3;o Jos&#x00E9; dos Campos,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Luckeciano C.","family":"Melo","sequence":"additional","affiliation":[{"name":"University of Oxford and AKCIT,Oxford,UK"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"article-title":"3D soccer simulation","volume-title":"ssim.robocup.org","year":"2025","key":"ref1"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-18615-3_47"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-025-11151-3"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICARSC52212.2021.9429811"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/s10846-021-01355-9"},{"key":"ref6","article-title":"Residual policy learning","author":"Silver","year":"2018","journal-title":"arXiv preprint"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/LARS-SBR.2016.20"},{"key":"ref8","article-title":"Using dynamic rewards to learn a fully holonomic bipedal walk","volume-title":"AAMAS Adaptive Learning Agents Workshop (ALA)","author":"MacAlpine","year":"2012"},{"key":"ref9","article-title":"FC Portugal 3D simulation team: team description paper","author":"Lau","year":"2013","journal-title":"RoboCup 2013"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/s10846-022-01619-y"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/s12369-020-00712-2"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/s10458-024-09642-z"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2019.xv.004"},{"key":"ref14","article-title":"Learning humanoid robot motions through deep neural networks","author":"Melo","year":"2019","journal-title":"arXiv preprint"},{"volume-title":"The CMA Evolution Strategy: a tutorial","year":"2016","author":"Hansen","key":"ref15"},{"key":"ref16","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv preprint"},{"article-title":"RoboCup standard platform league","volume-title":"spl.robocup.org","year":"2025","key":"ref17"},{"key":"ref18","article-title":"FCPCodebase","volume-title":"GitHub","author":"Abreu","year":"2023"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/s10846-021-01385-3"},{"issue":"268","key":"ref20","first-page":"1","article-title":"Stable Baselines3: reliable reinforcement learning implementations","volume":"22","author":"Raffin","year":"2021","journal-title":"Journal of Machine Learning Research"},{"key":"ref21","first-page":"281","article-title":"Random search for hyper-parameter optimization","volume":"13","author":"Bergstra","year":"2012","journal-title":"Journal of Machine Learning Research"}],"event":{"name":"2025 Brazilian Symposium on Robotics (SBR) and 2025 Workshop on Robotics in Education (WRE)","start":{"date-parts":[[2025,10,13]]},"location":"Vitoria, Brazil","end":{"date-parts":[[2025,10,15]]}},"container-title":["2025 Brazilian Symposium on Robotics (SBR) and 2025 Workshop on Robotics in Education (WRE)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11247952\/11247959\/11249656.pdf?arnumber=11249656","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,25]],"date-time":"2025-11-25T06:12:59Z","timestamp":1764051179000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11249656\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,13]]},"references-count":21,"URL":"https:\/\/doi.org\/10.1109\/sbr\/wre66973.2025.11249656","relation":{},"subject":[],"published":{"date-parts":[[2025,10,13]]}}}