{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,27]],"date-time":"2026-03-27T22:42:11Z","timestamp":1774651331051,"version":"3.50.1"},"reference-count":101,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100016443","name":"Amazon AICE Award","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100016443","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100004359","name":"Sony Group Corporation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100004359","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000185","name":"DARPA TIAMAT program","doi-asserted-by":"publisher","award":["HR0011-24-9-0430"],"award-info":[{"award-number":["HR0011-24-9-0430"]}],"id":[{"id":"10.13039\/100000185","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,19]]},"DOI":"10.1109\/icra55743.2025.11127585","type":"proceedings-article","created":{"date-parts":[[2025,9,2]],"date-time":"2025-09-02T17:28:56Z","timestamp":1756834136000},"page":"8258-8266","source":"Crossref","is-referenced-by-count":7,"title":["A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards"],"prefix":"10.1109","author":[{"given":"Shivansh","family":"Patel","sequence":"first","affiliation":[{"name":"University of Illinois at Urbana-Champaign"}]},{"given":"Xinchen","family":"Yin","sequence":"additional","affiliation":[{"name":"University of Illinois at Urbana-Champaign"}]},{"given":"Wenlong","family":"Huang","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Shubham","family":"Garg","sequence":"additional","affiliation":[{"name":"Amazon"}]},{"given":"Hooshang","family":"Nayyeri","sequence":"additional","affiliation":[{"name":"Amazon"}]},{"given":"Li","family":"Fei-Fei","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Svetlana","family":"Lazebnik","sequence":"additional","affiliation":[{"name":"University of Illinois at Urbana-Champaign"}]},{"given":"Yunzhu","family":"Li","sequence":"additional","affiliation":[{"name":"Columbia University"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Gpt-4 technical report","year":"2023","journal-title":"arXiv"},{"key":"ref2","article-title":"Socratic models: Composing zero-shot multimodal reasoning with language","author":"Zeng","year":"2022","journal-title":"arXiv preprint"},{"key":"ref3","volume-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"ref4","volume-title":"Scaling up visual and vision-language representation learning with noisy text supervision","author":"Jia","year":"2021"},{"key":"ref5","first-page":"12888","article-title":"Blip: Bootstrapping languageimage pre-training for unified vision-language understanding and generation","volume-title":"International conference on machine learning. PMLR","author":"Li","year":"2022"},{"key":"ref6","author":"Li","year":"2023","journal-title":"Blip-2: Bootstrapping languageimage pre-training with frozen image encoders and large language models"},{"key":"ref7","volume-title":"Flamingo: a visual language model for few-shot learning","author":"Alayrac","year":"2022"},{"key":"ref8","volume-title":"Coca: Contrastive captioners are image-text foundation models","author":"Yu","year":"2022"},{"key":"ref9","article-title":"Rekep: Spatiotemporal reasoning of relational keypoint constraints for robotic manipulation","author":"Huang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref10","article-title":"Do as i can, not as i say: Grounding language in robotic affordances","author":"Ahn","year":"2022","journal-title":"arXiv preprint"},{"key":"ref11","article-title":"Code as policies: Language model programs for embodied control","author":"Liang","year":"2022","journal-title":"arXiv preprint"},{"key":"ref12","article-title":"Voxposer: Composable 3d value maps for robotic manipulation with language models","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref14","article-title":"Rt-2: Vision-language-action models transfer web knowledge to robotic control","author":"Brohan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref15","article-title":"Moka: Open-vocabulary robotic manipulation through mark-based visual prompting","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/IROS58592.2024.10801352"},{"key":"ref17","article-title":"Octo: An open-source generalist robot policy","author":"Team","year":"2024","journal-title":"arXiv preprint"},{"key":"ref18","article-title":"Instruct2act: Mapping multi-modality instructions to robotic actions with large language model","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref19","article-title":"Creative robot tool use with large language models","author":"Xu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref20","article-title":"Generalizable long-horizon manipulations with large language models","author":"Zhou","year":"2023","journal-title":"arXiv preprint"},{"key":"ref21","article-title":"Pivot: Iterative visual prompting elicits actionable knowledge for vlms","author":"Nasiriany","year":"2024","journal-title":"arXiv preprint"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2024.xx.096"},{"key":"ref23","article-title":"Large language models for robotics: A survey","author":"Zeng","year":"2023","journal-title":"arXiv preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610455"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610784"},{"key":"ref26","doi-asserted-by":"crossref","first-page":"482","DOI":"10.1145\/3610977.3634999","article-title":"Generative expressive robot behaviors using large language models","volume-title":"Proceedings of the 2024 ACM\/IEEE International Conference on Human-Robot Interaction","author":"Mahadevan","year":"2024"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.125"},{"key":"ref28","article-title":"Grounded decoding: Guiding text generation with grounded models for embodied agents","volume":"36","author":"Huang","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref29","article-title":"Robots that ask for help: Uncertainty alignment for large language model planners","author":"Ren","year":"2023","journal-title":"arXiv preprint"},{"issue":"3","key":"ref30","first-page":"6","article-title":"Vima: General robot manipulation with multimodal prompts","volume":"2","author":"Jiang","year":"2022","journal-title":"arXiv preprint"},{"key":"ref31","article-title":"Guiding long-horizon task and motion planning with vision language models","author":"Yang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref32","article-title":"Aha: A vision-language-model for detecting and reasoning over failures in robotic manipulation","author":"Duan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref33","article-title":"Manipulate-anything: Automating real-world robots using vision-language models","author":"Duan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref34","article-title":"Robopoint: A vision-language model for spatial affordance prediction for robotics","author":"Yuan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-023-10135-3"},{"key":"ref36","article-title":"Kalie: Fine-tuning vision-language models for open-world manipulation without robot data","author":"Tang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref37","article-title":"Eurekaverse: Environment curriculum generation via large language models","author":"Liang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref38","article-title":"Robotic control via embodied chain-of-thought reasoning","author":"Zawalski","year":"2024","journal-title":"arXiv preprint"},{"key":"ref39","article-title":"Open x-embodiment: Robotic learning datasets and rt-x models","author":"O\u2019Neill","year":"2023","journal-title":"arXiv preprint"},{"key":"ref40","article-title":"Language models as zero-shot planners: Extracting actionable knowledge for embodied agents","volume-title":"International Conference on Machine Learning. PMLR","author":"Huang","year":"2022"},{"key":"ref41","volume-title":"Rt-h: Action hierarchies using language","author":"Belkhale","year":"2024"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.106"},{"key":"ref43","article-title":"Language to rewards for robotic skill synthesis","volume-title":"arXiv preprint","author":"Yu","year":"2023"},{"key":"ref44","article-title":"Eureka: Human-level reward design via coding large language models","author":"Ma","year":"2023","journal-title":"arXiv preprint"},{"key":"ref45","volume-title":"Dreureka: Language model guided sim-to-real transfer","author":"Ma","year":"2024"},{"key":"ref46","article-title":"Text2reward: Automated dense reward function generation for reinforcement learning","author":"Xie","year":"2023","journal-title":"arXiv preprint"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2018.2795645"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.044"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00960"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73039-9_9"},{"key":"ref51","article-title":"Zero123++: a single image to consistent multi-view diffusion base model","author":"Shi","year":"2023","journal-title":"arXiv preprint"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00853"},{"key":"ref53","first-page":"31 841","article-title":"Get3d: A generative model of high quality 3d textured shapes learned from images","volume":"35","author":"Gao","year":"2022","journal-title":"Advances In Neural Information Processing Systems"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01276"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00553"},{"key":"ref56","article-title":"Structure from action: Learning interactions for articulated object 3d structure discovery","author":"Nie","year":"2022","journal-title":"arXiv preprint"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.124"},{"key":"ref58","article-title":"Real2code: Reconstruct articulated objects via code generation","author":"Mandi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00039"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01693"},{"key":"ref61","article-title":"Singapo: Single image controlled generation of articulated parts in object","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2012.6224911"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00066"},{"key":"ref64","article-title":"Cliport: What and where pathways for robotic manipulation","author":"Shridhar","year":"2021","journal-title":"arXiv preprint"},{"key":"ref65","volume-title":"Transic: Sim-to-real policy transfer by learning from online correction","author":"Jiang","year":"2024"},{"key":"ref66","article-title":"Multi-skill mobile manipulation for object rearrangement","author":"Gu","year":"2022","journal-title":"arXiv preprint"},{"key":"ref67","article-title":"Homerobot: Open-vocabulary mobile manipulation","author":"Yenamandra","year":"2023","journal-title":"arXiv preprint"},{"key":"ref68","article-title":"Dynamic handover: Throw and catch with bimanual hands","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref69","article-title":"Sequential dexterity: Chaining dexterous policies for long-horizon manipulation","author":"Chen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref70","volume-title":"Dexpoint: Generalizable point cloud reinforcement learning for sim-toreal dexterous manipulation","author":"Qin","year":"2022"},{"key":"ref71","first-page":"1722","article-title":"In-hand object rotation via rapid motor adaptation","volume-title":"Conference on Robot Learning. PMLR","author":"Qi","year":"2023"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.036"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2021.xvii.011"},{"key":"ref74","volume-title":"Agile but safe: Learning collision-free high-speed legged locomotion","author":"He","year":"2024"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2018.XIV.010"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/IRC.2020.00015"},{"key":"ref77","article-title":"Planar robot casting with real2sim2real self-supervised learning","author":"Lim","year":"2021","journal-title":"arXiv preprint"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460875"},{"key":"ref79","volume-title":"Meta reinforcement learning for sim-to-real domain adaptation","author":"Arndt","year":"2019"},{"key":"ref80","volume-title":"R1-cyclegan: Reinforcement learning aware simulation-to-real","author":"Rao","year":"2020"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01291"},{"key":"ref82","first-page":"5531","article-title":"Bayesian imitation learning for end-to-end mobile manipulation","volume-title":"International Conference on Machine Learning. PMLR","author":"Du","year":"2022"},{"key":"ref83","article-title":"Solving rubik\u2019s cube with a robot hand","author":"Akkaya","year":"2019","journal-title":"arXiv preprint"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8202133"},{"key":"ref85","article-title":"Bayessimig: Scalable parameter inference for adaptive domain randomization with isaacgym","author":"Antonova","year":"2021","journal-title":"arXiv preprint"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.abc5986"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460528"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8793789"},{"key":"ref89","article-title":"Reconciling reality through simulation: A real-to-sim-to-real approach for robust manipulation","author":"Torne","year":"2024","journal-title":"arXiv preprint"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.01692"},{"key":"ref91","author":"Makoviychuk","year":"2021","journal-title":"Isaac gym: High performance gpu-based physics simulation for robot learning"},{"key":"ref92","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv preprint"},{"key":"ref93","article-title":"Actor-critic algorithms","volume":"12","author":"Konda","year":"1999","journal-title":"Advances in neural information processing systems"},{"key":"ref94","article-title":"Fast and accurate deep network learning by exponential linear units (elus)","author":"Clevert","year":"2015","journal-title":"arXiv preprint"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2023.3281153"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989385"},{"key":"ref97","article-title":"Dataefficient deep reinforcement learning for dexterous manipulation","author":"Popov","year":"2017","journal-title":"arXiv preprint"},{"key":"ref98","article-title":"Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards","author":"Vecerik","year":"2017","journal-title":"arXiv preprint"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2018.xiv.049"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01370"},{"key":"ref101","article-title":"Simple open-vocabulary object detection with vision transformers","author":"Minderer","year":"2022","journal-title":"arXiv preprint"}],"event":{"name":"2025 IEEE International Conference on Robotics and Automation (ICRA)","location":"Atlanta, GA, USA","start":{"date-parts":[[2025,5,19]]},"end":{"date-parts":[[2025,5,23]]}},"container-title":["2025 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11127273\/11127223\/11127585.pdf?arnumber=11127585","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,3]],"date-time":"2025-09-03T06:45:25Z","timestamp":1756881925000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11127585\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,19]]},"references-count":101,"URL":"https:\/\/doi.org\/10.1109\/icra55743.2025.11127585","relation":{},"subject":[],"published":{"date-parts":[[2025,5,19]]}}}