{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,26]],"date-time":"2026-02-26T15:33:44Z","timestamp":1772120024797,"version":"3.50.1"},"reference-count":79,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,19]]},"DOI":"10.1109\/icra55743.2025.11127442","type":"proceedings-article","created":{"date-parts":[[2025,9,2]],"date-time":"2025-09-02T17:28:56Z","timestamp":1756834136000},"page":"01-08","source":"Crossref","is-referenced-by-count":7,"title":["From Imitation to Refinement - Residual Rl for Precise Assembly"],"prefix":"10.1109","author":[{"given":"Lars","family":"Ankile","sequence":"first","affiliation":[{"name":"Improbable AI Lab"}]},{"given":"Anthony","family":"Simeonov","sequence":"additional","affiliation":[{"name":"Improbable AI Lab"}]},{"given":"Idan","family":"Shenfeld","sequence":"additional","affiliation":[{"name":"Improbable AI Lab"}]},{"given":"Marcel","family":"Torne","sequence":"additional","affiliation":[{"name":"Improbable AI Lab"}]},{"given":"Pulkit","family":"Agrawal","sequence":"additional","affiliation":[{"name":"Improbable AI Lab"}]}],"member":"263","reference":[{"key":"ref1","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","volume-title":"Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings","author":"Ross","year":"2011"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2965869"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487162"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9560986"},{"key":"ref5","article-title":"FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation","author":"Heo","year":"2023","journal-title":"RSS 2023"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.016"},{"key":"ref7","article-title":"Alvinn: An autonomous land vehicle in a neural network","volume":"1","author":"Pomerleau","year":"1988","journal-title":"Advances in neural information processing systems"},{"key":"ref8","article-title":"Learning from Demonstration","volume-title":"Advances in Neural Information Processing Systems","volume":"9","author":"Schaal","year":"1996"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/S1364-6613(99)01327-3"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICHR.2007.4813899"},{"key":"ref11","volume-title":"Computational sensorimotor learning","author":"Agrawal","year":"2018"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8461249"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref14","first-page":"991","article-title":"Bc-z: Zero-shot task generalization with robotic imitation learning","volume-title":"Conference on Robot Learning. PMLR","author":"Jang","year":"2022"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3445630"},{"key":"ref16","article-title":"Reconciling reality through simulation: A real-to-sim-to-real approach for robust manipulation","author":"Torne","year":"2024","journal-title":"arXiv preprint"},{"key":"ref17","volume-title":"Planning with Diffusion for Flexible Behavior Synthesis","author":"Janner","year":"2022"},{"key":"ref18","volume-title":"Is Conditional Generative Modeling all you need for Decision-Making?","author":"Ajay","year":"2023"},{"key":"ref19","volume-title":"Diffusion Policy: Visuomotor Policy Learning via Action Diffusion","author":"Chi","year":"2023"},{"key":"ref20","volume-title":"Imitating Human Behaviour with Diffusion Models","author":"Pearce","year":"2023"},{"key":"ref21","article-title":"Action chunking as policy compression","author":"Lai","year":"2022","journal-title":"PsyArXiv"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/iros58592.2024.10802498"},{"key":"ref23","first-page":"661","article-title":"Efficient reductions for imitation learning","volume-title":"Proceedings of the thirteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings","author":"Ross","year":"2010"},{"key":"ref24","article-title":"Lucidsim: Learning agile visual locomotion from generated images","volume-title":"8th Annual Conference on Robot Learning","author":"Yu","year":"2024"},{"key":"ref25","article-title":"ALOHA unleashed: A simple recipe for robot dexterity","volume-title":"8th Annual Conference on Robot Learning","author":"Zhao","year":"2024"},{"key":"ref26","article-title":"Bidirectional decoding: Improving action chunking via closed-loop resampling","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2018.XIV.049"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3140817"},{"key":"ref29","first-page":"1078","article-title":"Aw-opt: Learning robotic skills with imitation andreinforcement at scale","volume-title":"Conference on Robot Learning. PMLR","author":"Lu","year":"2022"},{"key":"ref30","first-page":"1577","article-title":"Efficient online reinforcement learning with offline data","volume-title":"International Conference on Machine Learning. PMLR","author":"Ball","year":"2023"},{"key":"ref31","article-title":"Learning from demonstration","volume":"9","author":"Schaal","year":"1996","journal-title":"Advances in neural information processing systems"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463162"},{"key":"ref33","article-title":"Cal-ql: Calibrated offline rl pre-training for efficient online fine-tuning","volume":"36","author":"Nakamoto","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref34","first-page":"34556","article-title":"Jump-start reinforcement learning","volume-title":"International Conference on Machine Learning. PMLR","author":"Uchendu","year":"2023"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2024.xx.056"},{"key":"ref36","first-page":"27042","article-title":"Online decision transformer","volume-title":"international conference on machine learning. PMLR","author":"Zheng","year":"2022"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/MRA.2010.936952"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01716"},{"key":"ref39","article-title":"Parrot: Data-driven behavioral priors for reinforcement learning","author":"Singh","year":"2020","journal-title":"arXiv preprint"},{"key":"ref40","article-title":"Training diffusion models with reinforcement learning","author":"Black","year":"2023","journal-title":"arXiv preprint"},{"key":"ref41","article-title":"Diffusion policy policy optimization","author":"Ren","year":"2024","journal-title":"arXiv preprint"},{"key":"ref42","article-title":"Residual policy learning","author":"Silver","year":"2018","journal-title":"arXiv preprint"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794127"},{"key":"ref44","article-title":"Residual reinforcement learning from demonstrations","author":"Alakuijala","year":"2021","journal-title":"arXiv preprint"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3150024"},{"key":"ref46","article-title":"Residual robot learning for object-centric probabilistic movement primitives","author":"Carvalho","year":"2022","journal-title":"arXiv preprint"},{"key":"ref47","first-page":"22955","article-title":"Behavior transformers: Cloning k modes with one stone","volume":"35","author":"Shafiullah","year":"2022","journal-title":"Advances in neural information processing systems"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.009"},{"key":"ref49","article-title":"Behavior generation with latent actions","author":"Lee","year":"2024","journal-title":"arXiv preprint"},{"key":"ref50","article-title":"Scaling robot-learning by crowdsourcing simulation environments","volume-title":"RSS 2024 Workshop: Data Generation for Robotics","author":"Villasevil","year":"2024"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1038\/323533a0"},{"key":"ref52","volume-title":"Proximal Policy Optimization Algorithms","author":"Schulman","year":"2017"},{"key":"ref53","article-title":"Exact solutions to the nonlinear dynamics of learning in deep linear neural networks","author":"Saxe","year":"2013","journal-title":"arXiv preprint"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.abc5986"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2021.XVII.011"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.adc9244"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref58","volume-title":"R3M: A Universal Visual Representation for Robot Manipulation","author":"Nair","year":"2022"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.035"},{"key":"ref60","article-title":"Isaac gym: High performance gpu-based physics simulation for robot learning","author":"Makoviychuk","year":"2021","journal-title":"arXiv preprint"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"key":"ref62","article-title":"Dexhub and dart: Towards internet scale robot data collection","author":"Park","year":"2024","journal-title":"arXiv preprint"},{"key":"ref63","article-title":"Robotic Manipulation","author":"Tedrake","year":"2024","journal-title":"Course Notes for MIT 6.421"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3270034"},{"key":"ref65","volume-title":"IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies","author":"Hansen-Estruch","year":"2023"},{"key":"ref66","volume-title":"Value augmented sampling for language model alignment and personalization","author":"Han","year":"2024"},{"key":"ref67","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"International conference on machine learning. PMLR","author":"Schulman","year":"2015"},{"key":"ref68","first-page":"1179","article-title":"Conservative qlearning for offline reinforcement learning","volume":"33","author":"Kumar","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref69","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","volume-title":"Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings","author":"Ross","year":"2011"},{"key":"ref70","article-title":"Optimizing ddpm sampling with shortcut finetuning","author":"Fan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref71","first-page":"15084","article-title":"Decision transformer: Reinforcement learning via sequence modeling","volume":"34","author":"Chen","year":"2021","journal-title":"Advances in neural information processing systems"},{"key":"ref72","volume-title":"Imitation Bootstrapped Reinforcement Learning","author":"Hu","year":"2023"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8593995"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2020.2988642"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-06419-4"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9341714"},{"key":"ref77","article-title":"Transic: Sim-toreal policy transfer by learning from online correction","author":"Jiang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812146"},{"key":"ref79","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/HPEC.2018.8547629","article-title":"Interactive Supercomputing on 40,000 Cores for Machine Learning and Data Analysis","volume-title":"2018 IEEE High Performance extreme Computing Conference (HPEC)","author":"Reuther","year":"2018"}],"event":{"name":"2025 IEEE International Conference on Robotics and Automation (ICRA)","location":"Atlanta, GA, USA","start":{"date-parts":[[2025,5,19]]},"end":{"date-parts":[[2025,5,23]]}},"container-title":["2025 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11127273\/11127223\/11127442.pdf?arnumber=11127442","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,3]],"date-time":"2025-09-03T06:17:03Z","timestamp":1756880223000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11127442\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,19]]},"references-count":79,"URL":"https:\/\/doi.org\/10.1109\/icra55743.2025.11127442","relation":{},"subject":[],"published":{"date-parts":[[2025,5,19]]}}}