{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T16:27:35Z","timestamp":1778603255050,"version":"3.51.4"},"reference-count":42,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"Autonomous Systems and Software Program"},{"DOI":"10.13039\/501100004063","name":"Knut and Alice Wallenberg Foundation","doi-asserted-by":"crossref","id":[{"id":"10.13039\/501100004063","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2026,4]]},"DOI":"10.1109\/lra.2026.3664620","type":"journal-article","created":{"date-parts":[[2026,2,13]],"date-time":"2026-02-13T20:51:31Z","timestamp":1771015891000},"page":"4865-4872","source":"Crossref","is-referenced-by-count":1,"title":["PALM: Enhanced Generalizability for Local Visuomotor Policies via Perception Alignment"],"prefix":"10.1109","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-7672-970X","authenticated-orcid":false,"given":"Ruiyu","family":"Wang","sequence":"first","affiliation":[{"name":"Division of Robotics, Perception and Learning, KTH Royal Institute of Technology, Stockholm, Sweden"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6632-3342","authenticated-orcid":false,"given":"Zheyu","family":"Zhuang","sequence":"additional","affiliation":[{"name":"Division of Robotics, Perception and Learning, KTH Royal Institute of Technology, Stockholm, Sweden"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2965-2953","authenticated-orcid":false,"given":"Danica","family":"Kragic","sequence":"additional","affiliation":[{"name":"Division of Robotics, Perception and Learning, KTH Royal Institute of Technology, Stockholm, Sweden"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1114-6040","authenticated-orcid":false,"given":"Florian T.","family":"Pokorny","sequence":"additional","affiliation":[{"name":"Division of Robotics, Perception and Learning, KTH Royal Institute of Technology, Stockholm, Sweden"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","first-page":"1678","article-title":"What matters in learning from offline human demonstrations for robot manipulation","volume-title":"Proc. PMLR","author":"Mandlekar","year":"2022"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.013"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2025.XXI.157"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.133"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611331"},{"key":"ref6","first-page":"6892","article-title":"Open X-embodiment: Robotic learning datasets and RT-X models","volume-title":"Proc. IEEE Int. Conf. Robot. Automat.","author":"Collaboration","year":"2024"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.120"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.027"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1177\/02783649241273686"},{"key":"ref10","first-page":"4314","article-title":"Enhancing visual domain robustness in behaviour cloning VIA saliency-guided augmentation","volume-title":"Proc. 8th Conf. Robot Learn.","volume":"270","author":"Zhuang","year":"2024"},{"key":"ref11","first-page":"1820","article-title":"Mimicgen: A data generation system for scalable robot learning using human demonstrations","volume-title":"Proc. Conf. Robot Learn.","author":"Mandlekar","year":"2023"},{"key":"ref12","first-page":"208","article-title":"Spatial generalization of visual imitation learning with position-invariant regularization","volume-title":"Proc. Workshop Symmetries Robot Learn.","author":"Yin","year":"2023"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636363"},{"key":"ref14","first-page":"209","article-title":"RoVi-Aug: Robot and viewpoint augmentation for cross-embodiment robot learning","volume-title":"Proc. Conf. Robot Learn.","author":"Chen","year":"2024"},{"key":"ref15","first-page":"3536","article-title":"Shadow: Leveraging segmentation masks for cross-embodiment policy transfer","volume-title":"Proc. Conf. Robot Learn.","author":"Lepert","year":"2024"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.069"},{"key":"ref17","first-page":"1","article-title":"Vision-based manipulators need to also see from their hands","volume-title":"Proc. Int. Conf. Learn. Representation","author":"Hsu","year":"2022"},{"key":"ref18","first-page":"48","article-title":"Equivariant diffusion policy","volume-title":"Proc. Conf. Robot Learn.","author":"Wang","year":"2024"},{"key":"ref19","first-page":"77703","article-title":"Hierarchical equivariant policy via frame transfer","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhao","year":"2025"},{"key":"ref20","first-page":"201","article-title":"Mimicplay: Long-horizon imitation learning by watching human play","volume-title":"Conf. Robot Learn.","author":"Wang","year":"2023"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9560942"},{"key":"ref22","first-page":"2750","article-title":"Skillmimicgen: Automated demonstration generation for efficient skill learning and deployment","volume-title":"Proc. Conf. Robot Learn.","author":"Garrett","year":"2025"},{"key":"ref23","first-page":"2391","article-title":"Mirrorduo: Reflection-consistent visuomotor learning from mirrored demonstration pairs","volume-title":"Proc. 9th Conf. Robot Learn.","volume":"305","author":"Zhuang","year":"2025"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981982"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3349832"},{"key":"ref26","first-page":"1815","article-title":"Learning to manipulate anywhere: A visual generalizable framework for reinforcement learning","volume-title":"Proc. Conf. Robot Learn.","author":"Yuan","year":"2025"},{"key":"ref27","first-page":"1","article-title":"Multi-view masked world models for visual robotic manipulation","volume-title":"Proc. 40th Int. Conf. Mach. Learn.","author":"Seo","year":"2023"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01717"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.048"},{"key":"ref30","article-title":"Know thyself: Transferable visual control policies through robot-awareness","author":"Hu","year":"2021"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/lra.2026.3665444"},{"key":"ref32","article-title":"Phantom: Training robots without robots using only human videos","author":"Lepert","year":"2025"},{"key":"ref33","article-title":"Polybot: Training one policy across robots while embracing variability","author":"Yang","year":"2023"},{"key":"ref34","article-title":"Giving robots a hand: Broadening generalization via hand-centric human video demonstrations","author":"Kim","year":"2022"},{"key":"ref35","article-title":"Torchvision: Pytorchs computer vision library","year":"2016"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP46576.2022.9897219"},{"key":"ref37","first-page":"2679","article-title":"Openvla: An open-source vision-language-action model","volume-title":"Proc. Conf. Robot Learn.","author":"Kim","year":"2025"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2974707"},{"key":"ref39","first-page":"305","article-title":"ALVINN: An autonomous land vehicle in a neural network","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Pomerleau","year":"1988"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487395"},{"key":"ref42","first-page":"1","article-title":"ManiSkill2: A unified benchmark for generalizable manipulation skills","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Gu","year":"2023"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/7083369\/11400564\/11395611.pdf?arnumber=11395611","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T06:50:20Z","timestamp":1772866220000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11395611\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4]]},"references-count":42,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/lra.2026.3664620","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"value":"2377-3766","type":"electronic"},{"value":"2377-3774","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,4]]}}}