{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T19:59:06Z","timestamp":1780775946821,"version":"3.54.1"},"reference-count":232,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Robot."],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/tro.2025.3631816","type":"journal-article","created":{"date-parts":[[2025,11,13]],"date-time":"2025-11-13T18:46:53Z","timestamp":1763059613000},"page":"60-79","source":"Crossref","is-referenced-by-count":3,"title":["A Survey on Deep Generative Models for Robot Learning From Multimodal Demonstrations"],"prefix":"10.1109","volume":"42","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1135-6654","authenticated-orcid":false,"given":"Julen","family":"Urain","sequence":"first","affiliation":[{"name":"META Fundamental AI Research (FAIR), Menlo Park, CA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-5448-5011","authenticated-orcid":false,"given":"Ajay","family":"Mandlekar","sequence":"additional","affiliation":[{"name":"NVIDIA AI, Santa Clara, CA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yilun","family":"Du","sequence":"additional","affiliation":[{"name":"Harvard University, Cambridge, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nur","family":"Muhammad \u201cMahi\u201d Shafiullah","sequence":"additional","affiliation":[{"name":"Berkeley AI Research (BAIR), Berkeley, CA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8744-3861","authenticated-orcid":false,"given":"Danfei","family":"Xu","sequence":"additional","affiliation":[{"name":"School of Interactive Computing, Georgia Tech, Atlanta, GA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Katerina","family":"Fragkiadaki","sequence":"additional","affiliation":[{"name":"Machine Learning Department in Carnegie Mellon University, Pittsburgh, PA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5055-199X","authenticated-orcid":false,"given":"Georgia","family":"Chalvatzaki","sequence":"additional","affiliation":[{"name":"Computer Science Department of the Technical University of Darmstadt, Darmstadt, Germany"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5266-8091","authenticated-orcid":false,"given":"Jan","family":"Peters","sequence":"additional","affiliation":[{"name":"Computer Science Department, Technical University of Darmstadt, Darmstadt, Germany"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","first-page":"305","article-title":"ALVINN: An autonomous land vehicle in a neural network","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Pomerleau","year":"1988"},{"key":"ref2","first-page":"1040","article-title":"Learning from demonstration","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Schaal","year":"1997"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1561\/2300000053"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/S1364-6613(99)01327-3"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00299"},{"key":"ref6","first-page":"785","article-title":"Perceiver-actor: A multi-task transformer for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Shridhar","year":"2023"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.026"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.028"},{"key":"ref9","article-title":"StructDiffusion: Object-centric diffusion for semantic rearrangement of novel objects","volume-title":"Proc. Robot.: Sci. Syst.","author":"Liu","year":"2023"},{"key":"ref10","first-page":"2030","article-title":"Shelving, stacking, hanging: Relational pose diffusion for multi-modal rearrangement","volume-title":"Proc. Conf. Robot Learn.","author":"Simeonov","year":"2023"},{"key":"ref11","first-page":"1433","article-title":"Maximum entropy inverse reinforcement learning","volume-title":"Proc. AAAI Conf. Artif. Intell.","author":"Ziebart","year":"2008"},{"key":"ref12","article-title":"Learning robust rewards with adverserial inverse reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Fu","year":"2018"},{"key":"ref13","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","volume-title":"Proc. 14th Int. Conf. Artif. Intell. Statist. JMLR Workshop Conf. Proc.","author":"Ross","year":"2011"},{"key":"ref14","first-page":"8469","article-title":"PaLM-E: An embodied multimodal language model","volume-title":"Proc. 40th Int. Conf. Mach. Learn.","author":"Driess","year":"2023"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.016"},{"key":"ref16","first-page":"879","article-title":"ROBOTURK: A crowdsourcing platform for robotic skill learning through imitation","volume-title":"Proc. Conf. Robot Learn.","author":"Mandlekar","year":"2018"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8968114"},{"key":"ref18","first-page":"6892","article-title":"Open X-embodiment: Robotic learning datasets and RT-X models","author":"Padalkar","journal-title":"Proc. IEEE Int. Conf. Robot. Automat."},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/1186562.1015755"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICHR.2005.1573557"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICIT.1996.601593"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/3468.553220"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2006.886952"},{"issue":"1","key":"ref24","first-page":"1334","article-title":"End-to-end training of deep visuomotor policies","volume":"17","author":"Levine","year":"2016","journal-title":"J. Mach. Learn. Res."},{"key":"ref25","first-page":"783","article-title":"Task-embedded control networks for few-shot imitation learning","volume-title":"Proc. Conf. Robot Learn.","author":"James","year":"2018"},{"key":"ref26","article-title":"Grounding language in play","volume":"3","author":"Lynch","year":"2020"},{"key":"ref27","first-page":"991","article-title":"Bc-z: Zero-shot task generalization with robotic imitation learning","volume-title":"Proc. Conf. Robot Learn.","author":"Jang","year":"2022"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2011.2159412"},{"key":"ref29","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Ho","year":"2020"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/n19-1423"},{"key":"ref31","article-title":"Score-based generative modeling through stochastic differential equations","author":"Song","year":"2020","journal-title":"Proc. Int. Conf. Learn. Representations"},{"key":"ref32","first-page":"9902","article-title":"Planning with diffusion for flexible behavior synthesis","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Janner","year":"2022"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref34","article-title":"Auto-encoding variational Bayes","volume-title":"Proc. Conf. Learn. Representations","author":"Kingma","year":"2014"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2020.XVI.035"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1177\/0278364919868017"},{"issue":"PMLR","key":"ref37","first-page":"24","article-title":"Flingbot: The unreasonable effectiveness of dynamic manipulation for cloth unfolding","volume-title":"Proc. Conf. Robot Learn.","author":"Ha","year":"2022"},{"key":"ref38","first-page":"2024","article-title":"Towards diverse behaviors: A benchmark for imitation learning with human demonstrations","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Jia"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-27645-3_12"},{"key":"ref40","first-page":"1678","article-title":"What matters in learning from offline human demonstrations for robot manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Mandlekar","year":"2022"},{"key":"ref41","first-page":"143","article-title":"DART: Noise injection for robust imitation learning","volume-title":"Proc. Conf. Robot Learn.","author":"Laskey","year":"2017"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-05181-4_10"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460730"},{"key":"ref44","article-title":"Parrot: Data-driven behavioral priors for reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Singh","year":"2021"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-30301-5_60"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2008.10.024"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-01570-0"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-32552-1_74"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/3054912"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-control-100819-063206"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1177\/02783649241281508"},{"key":"ref52","article-title":"Toward general-purpose robots via foundation models: A survey and meta-analysis","author":"Hu","year":"2023"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9560844"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161569"},{"key":"ref55","first-page":"22955","article-title":"Behavior transformers: Cloning $ k$ modes with one stone","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Shafiullah","year":"2022"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9811931"},{"key":"ref57","article-title":"Generative adversarial network to learn valid distributions of robot configurations for inverse kinematics and constrained motion planning","author":"Lembono","year":"2020"},{"key":"ref58","first-page":"726","article-title":"Transporter networks: Rearranging the visual world for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Zeng","year":"2021"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00674"},{"key":"ref60","first-page":"3766","article-title":"Scaling up and distilling down: Language-guided robot skill acquisition","volume-title":"Proc. Conf. Robot Learn.","author":"Ha","year":"2023"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3181374"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2020.xvi.061"},{"key":"ref63","article-title":"A tutorial on energy-based learning","volume":"1","author":"LeCun","year":"2006","journal-title":"Predicting Structured Data"},{"key":"ref64","article-title":"How to train your energy-based models","author":"Song","year":"2021"},{"key":"ref65","first-page":"11918","article-title":"Generative modeling by estimating gradients of the data distribution","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Song","year":"2019"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812146"},{"key":"ref67","first-page":"1530","article-title":"Variational inference with normalizing flows","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Rezende","year":"2015"},{"key":"ref68","first-page":"2165","article-title":"Rt-2: Vision-language-action models transfer web knowledge to robotic control","volume-title":"Proc. Conf. Robot Learn.","author":"Brohan","year":"2023"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8593986"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2020.2988642"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.5555\/2969033.2969125"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/Cybermatics_2018.2018.00168"},{"key":"ref73","first-page":"213","article-title":"Structured deep generative models for sampling on constraint manifolds in sequential manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Ortiz-Haro","year":"2022"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636190"},{"key":"ref75","first-page":"81","article-title":"Parallelised diffeomorphic sampling-based motion planning","volume-title":"Proc. Conf. Robot Learn.","author":"Lai","year":"2022"},{"key":"ref76","article-title":"Rapidly-exploring random trees: A new tool for path planning","author":"LaValle","year":"1998"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/70.508439"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2016.7759578"},{"key":"ref79","first-page":"188","article-title":"Accelerating reinforcement learning with learned skill priors","volume-title":"Proc. Conf. Robot Learn.","author":"Pertsch","year":"2021"},{"key":"ref80","first-page":"1113","article-title":"Learning latent plans from play","volume-title":"Proc. Conf. Robot Learn.","author":"Lynch","year":"2020"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196935"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794024"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9341035"},{"key":"ref84","first-page":"630","article-title":"Euclideanizing flows: Diffeomorphic reduction for learning stable dynamical systems","volume-title":"Proc. Learn. Dyn. Control","author":"Rana","year":"2020"},{"key":"ref85","article-title":"Normalizing flows for probabilistic modeling and inference","author":"Papamakarios","year":"2019"},{"key":"ref86","first-page":"6572","article-title":"Neural ordinary differential equations","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Chen","year":"2018"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487173"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160217"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1177\/02783649231179499"},{"key":"ref90","first-page":"158","article-title":"Implicit behavioral cloning","volume-title":"Proc. Conf. Robot Learn.","author":"Florence","year":"2022"},{"key":"ref91","first-page":"6637","article-title":"Compositional visual generation and inference with energy based models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Du","year":"2020"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.030"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2013.6630743"},{"key":"ref94","first-page":"49","article-title":"Guided cost learning: Deep inverse optimal control via policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Finn","year":"2016"},{"key":"ref95","first-page":"3608","article-title":"Implicit generation and modeling with energy based models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Du","year":"2019"},{"key":"ref96","article-title":"Act3D: Infinite resolution action detection transformer for robotic manipulation","author":"Gervet","year":"2023"},{"key":"ref97","article-title":"Model based planning with energy based models","volume-title":"Proc. Conf. Robot Learn.","author":"Du","year":"2019"},{"key":"ref98","first-page":"234","article-title":"Leo: Learning energy-based models in factor graph optimization","volume-title":"Proc. Conf. Robot Learn.","author":"Sodhi","year":"2022"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1162\/089976602760128018"},{"key":"ref100","first-page":"2837","article-title":"Improved contrastive divergence training of energy based models","author":"Du","year":"2020","journal-title":"Int. Conf. Mach. Learn."},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2021.XVII.024"},{"key":"ref102","first-page":"835","article-title":"Se (3)-equivariant relational rearrangement with neural descriptor fields","volume-title":"Proc. Conf. Robot Learn.","author":"Simeonov","year":"2023"},{"key":"ref103","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.074"},{"key":"ref105","first-page":"2256","article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sohl-Dickstein","year":"2015"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1162\/NECO_a_00142"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19790-1_26"},{"key":"ref108","first-page":"8489","article-title":"Reduce, reuse, recycle: Compositional generation with energy-based diffusion models and MCMC","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Du","year":"2023"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.071"},{"key":"ref110","article-title":"Is conditional generative modeling all you need for decision making?","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Ajay","year":"2022"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342382"},{"key":"ref112","first-page":"2905","article-title":"Generative skill chaining: Long-horizon skill planning with diffusion models","volume-title":"Proc. CoRL Workshop Learn. Effective Abstractions Plan.","author":"Mishra","year":"2023"},{"key":"ref113","first-page":"3242","article-title":"Compositional diffusion-based continuous constraint solvers","author":"Yang","year":"2023","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref114","first-page":"8780","article-title":"Diffusion models beat GANs on image synthesis","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Dhariwal","year":"2021"},{"key":"ref115","article-title":"Classifier-free diffusion guidance","volume-title":"Proc. NeurIPS 2021 Workshop Deep Generative Models Downstream Appl.","author":"Ho","year":"2021"},{"key":"ref116","first-page":"13753","article-title":"Composer: Creative and controllable image synthesis with composable conditions","author":"Huang","year":"2023","journal-title":"Proc. 40th Int. Conf. Mach. Learn."},{"key":"ref117","volume-title":"Receding Horizon Control: Model Predictive Control for State Models","author":"Kwon","year":"2005"},{"key":"ref118","article-title":"Multimodal diffusion transformer for learning from play","volume-title":"Proc. 2nd Workshop Lang. Robot Learn.: Lang. Grounding","author":"Reuss","year":"2023"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01607"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/icra57147.2024.10610749"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3272516"},{"key":"ref122","article-title":"Zero-shot robotic manipulation with pretrained image-editing diffusion models","author":"Black","year":"2023","journal-title":"Proc. Int. Conf. Learn. Representations"},{"key":"ref123","article-title":"Video language planning","author":"Du","year":"2023"},{"key":"ref124","first-page":"9156","article-title":"Learning universal policies via text-guided video generation","volume-title":"Proc. 37th Conf. Neural Inf. Process. Syst.","author":"Du","year":"2023"},{"key":"ref125","first-page":"22304","article-title":"Compositional foundation models for hierarchical planning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Ajay","year":"2023"},{"key":"ref126","article-title":"Learning to read braille: Bridging the tactile reality gap with diffusion models","author":"Higuera","year":"2023"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3382529"},{"key":"ref128","first-page":"694","article-title":"RVT: Robotic view transformer for 3D object manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Goyal","year":"2023"},{"key":"ref129","first-page":"1602","article-title":"Volumetric grasping network: Real-time 6 DoF grasp detection in clutter","volume-title":"Proc. Conf. Robot Learn.","author":"Breyer","year":"2021"},{"key":"ref130","first-page":"894","article-title":"Cliport: What and where pathways for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Shridhar","year":"2022"},{"key":"ref131","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Brown","year":"2020"},{"key":"ref132","article-title":"Attention is all you need","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Vaswani","year":"2017"},{"key":"ref133","first-page":"4797","article-title":"Conditional image generation with PixelCNN decoders","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"29","author":"Oord","year":"2016"},{"key":"ref134","article-title":"Do as i can, not as i say: Grounding language in robotic affordances","author":"Ahn","year":"2022"},{"key":"ref135","first-page":"27921","article-title":"Multi-game decision transformers","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Lee","year":"2022"},{"key":"ref136","article-title":"A generalist agent","author":"Reed","year":"2022"},{"key":"ref137","first-page":"1273","article-title":"Offline reinforcement learning as one big sequence modeling problem","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Janner","year":"2021"},{"key":"ref138","article-title":"Octo: An open-source generalist robot policy","author":"Team","year":"2023","journal-title":"Proc. Robot.: Sci. Syst"},{"key":"ref139","article-title":"Mail: Improving imitation learning with mamba","author":"Jia","year":"2024"},{"key":"ref140","article-title":"From play to policy: Conditional behavior generation from uncurated robot data","author":"Cui","year":"2022","journal-title":"Proc. Int. Conf. Learn. Representations"},{"key":"ref141","first-page":"26991","article-title":"Behavior generation with latent actions","author":"Lee","year":"2024","journal-title":"Proc. 41th Int. Conf. Mach. Learn."},{"key":"ref142","first-page":"4537","article-title":"Continuous control with action quantization from demonstrations","author":"Dadashi","year":"2021","journal-title":"Proc. Int. Conf. Mach. Learn."},{"key":"ref143","first-page":"6309","article-title":"Neural discrete representation learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Den","year":"2017"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.324"},{"key":"ref145","article-title":"Mixture density networks","author":"Bishop","year":"1994"},{"key":"ref146","article-title":"PixelCNN++: Improving the PixelCNN with discretized logistic mixture likelihood and other modifications","author":"Salimans","year":"2017","journal-title":"Proc. Int. Conf. Learn. Representation"},{"key":"ref147","first-page":"1199","article-title":"Viola: Imitation learning for vision-based manipulation with object proposal priors","volume-title":"Proc. 6th Conf. Robot Learn.","volume":"205","author":"Zhu","year":"2023"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611129"},{"key":"ref149","first-page":"201","article-title":"Mimicplay: Long-horizon imitation learning by watching human play","author":"Wang","year":"2023","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3196123"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197318"},{"key":"ref152","first-page":"192","article-title":"Fabricflownet: Bimanual cloth manipulation with a flow-based policy","volume-title":"Proc. Conf. Robot Learn.","author":"Weng","year":"2022"},{"key":"ref153","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561692"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981999"},{"key":"ref155","first-page":"42","article-title":"Dynamics learning with cascaded variational inference for multi-step manipulation","author":"Fang","year":"2019","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref156","first-page":"106","article-title":"Generalization with lossy affordances: Leveraging broad offline data for learning visuomotor tasks","volume-title":"Proc. Conf. Robot Learn.","author":"Fang","year":"2023"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2024.xx.046"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2009.5152817"},{"key":"ref159","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2011.5980280"},{"key":"ref160","first-page":"284","article-title":"Gnfactor: Multi-task real robot learning with generalizable neural feature fields","volume-title":"Proc. Conf. Robot Learn.","author":"Ze","year":"2023"},{"key":"ref161","first-page":"1949","article-title":"3D diffuser actor: Policy diffusion with 3D scene representations","author":"Ke","year":"2024","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref162","first-page":"2323","article-title":"Chaineddiffuser: Unifying trajectory diffusion and keypose prediction for robotic manipulation","volume-title":"Proc. 7th Annu. Conf. Robot Learn.","author":"Xian","year":"2023"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01712"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3219019"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1177\/0278364908091463"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/JRA.1987.1087068"},{"key":"ref167","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00930"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487091"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.1988.194354"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.2514\/1.G001921"},{"key":"ref171","first-page":"4759","article-title":"Deep reinforcement learning in a handful of trials using probabilistic dynamics models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Chua","year":"2018"},{"key":"ref172","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref173","article-title":"Compositional generative modeling: A single model is not all you need","author":"Du","year":"2024"},{"key":"ref174","first-page":"6637","article-title":"Compositional visual generation with energy based models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Du","year":"2020"},{"key":"ref175","doi-asserted-by":"publisher","DOI":"10.1109\/icra57147.2024.10610519"},{"key":"ref176","first-page":"33486","article-title":"Potential based diffusion motion planning","author":"Luo","year":"2024","journal-title":"Proc. 41st Int. Conf. Mach. Learn."},{"key":"ref177","article-title":"Generative factor chaining: Coordinated manipulation with diffusion-based factor graph","volume-title":"Proc. ICRA Workshop Back to Future: Robot Learn. Going Probabilistic","author":"Mishra","year":"2024"},{"key":"ref178","first-page":"1300","article-title":"Composable part-based manipulation","volume-title":"Proc. 7th Annu. Conf. Robot Learn.","author":"Liu","year":"2023"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.127"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636023"},{"key":"ref181","first-page":"3473","article-title":"Real-time tracking and pose estimation for industrial objects using geometric features","volume-title":"Proc. IEEE Int. Conf. Robot. Autom.","volume":"3","author":"Yoon","year":"2003"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-11009-3_41"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196714"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-95459-8_9"},{"key":"ref185","first-page":"693","article-title":"Keypoints into the future: Self-supervised correspondence in model-based reinforcement learning","author":"Manuelli","year":"2020","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref186","first-page":"979","article-title":"Graph-structured visual imitation","volume-title":"Proc. Conf. Robot Learn.","author":"Sieb","year":"2020"},{"key":"ref187","first-page":"10724","article-title":"Unsupervised learning of object keypoints for perception and control","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Kulkarni","year":"2019"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196971"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8461196"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794224"},{"key":"ref191","first-page":"91","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Ren","year":"2015"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160888"},{"key":"ref193","first-page":"3418","article-title":"Learning generalizable manipulation policies with object-centric 3D representations","author":"Zhu","year":"2023","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636711"},{"key":"ref195","first-page":"11525","article-title":"Object-centric learning with slot attention","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Locatello","year":"2020"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00551"},{"key":"ref197","first-page":"405","article-title":"Distilled feature fields enable few-shot language-guided manipulation","author":"Shen","year":"2023","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160969"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8593430"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.adl0628"},{"key":"ref201","first-page":"14193","article-title":"3D shape reconstruction from vision and touch","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Smith","year":"2020"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812040"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342303"},{"key":"ref204","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610532"},{"key":"ref205","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2018.XIV.021"},{"key":"ref206","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196733"},{"key":"ref207","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.007"},{"key":"ref208","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561391"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981402"},{"key":"ref210","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.065"},{"key":"ref211","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01337"},{"key":"ref212","article-title":"Peract2: A perceiver actor framework for bimanual manipulation tasks","author":"Grotz","year":"2024"},{"key":"ref213","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"ref214","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref215","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.055"},{"key":"ref216","first-page":"1916","article-title":"Mira: Mental imagery for robotic affordances","volume-title":"Proc. Conf. Robot Learn.","author":"Lin","year":"2023"},{"key":"ref217","article-title":"Vat-mart: Learning visual action trajectory proposals for manipulating 3D articulated objects","author":"Wu","year":"2021","journal-title":"Proc. Int. Conf. Learn. Representations"},{"key":"ref218","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161571"},{"key":"ref219","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19818-2_6"},{"key":"ref220","article-title":"DualAfford: Learning collaborative visual affordance for dual-gripper manipulation","volume-title":"Proc. 11th Int. Conf. Learn. Representations","author":"Zhao","year":"2022"},{"key":"ref221","first-page":"1666","article-title":"O2o-afford: Annotation-free large-scale object-object affordance learning","volume-title":"Proc. Conf. Robot Learn.","author":"Mo","year":"2022"},{"key":"ref222","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.051"},{"key":"ref223","first-page":"2429","article-title":"Generative image as action models","author":"Shridhar","year":"2024","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref224","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2020.xvi.064"},{"key":"ref225","first-page":"1194","article-title":"Pianomime: Learning a generalist, dexterous piano player from internet demonstrations","author":"Qian","year":"2025","journal-title":"Proc. Conf. Robot Learn"},{"key":"ref226","first-page":"18343","article-title":"Minedojo: Building open-ended embodied agents with internet-scale knowledge","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Fan","year":"2022"},{"key":"ref227","article-title":"Vip: Towards universal visual reward and representation via value-implicit pre-training","author":"Ma","year":"2022","journal-title":"Proc. Int. Conf. Learn. Representations"},{"key":"ref228","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2974707"},{"key":"ref229","article-title":"Libero: Benchmarking knowledge transfer for lifelong robot learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Liu","year":"2024"},{"key":"ref230","article-title":"Maniskill2: A unified benchmark for generalizable manipulation skills","author":"Gu","year":"2023","journal-title":"Proc. Int. Conf. Learn. Representations"},{"key":"ref231","first-page":"1820","article-title":"Mimicgen: A data generation system for scalable robot learning using human demonstrations","author":"Mandlekar","year":"2023","journal-title":"Proc. Conf. Robot Learn."},{"key":"ref232","article-title":"Robocasa: Large-scale simulation of everyday tasks for generalist robots","author":"Nasiriany","year":"2024","journal-title":"RSS Workshop: Data Gener. Robot."}],"container-title":["IEEE Transactions on Robotics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8860\/11297026\/11244855.pdf?arnumber=11244855","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,27]],"date-time":"2026-01-27T06:09:03Z","timestamp":1769494143000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11244855\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":232,"URL":"https:\/\/doi.org\/10.1109\/tro.2025.3631816","relation":{},"ISSN":["1552-3098","1941-0468"],"issn-type":[{"value":"1552-3098","type":"print"},{"value":"1941-0468","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}