{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,30]],"date-time":"2026-06-30T15:36:29Z","timestamp":1782833789652,"version":"3.54.5"},"reference-count":54,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/lra.2026.3678126","type":"journal-article","created":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T19:51:48Z","timestamp":1774554708000},"page":"1-8","source":"Crossref","is-referenced-by-count":1,"title":["Generalizable Hierarchical Skill Learning via Object-Centric Representation"],"prefix":"10.1109","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-8074-3778","authenticated-orcid":false,"given":"Haibo","family":"Zhao","sequence":"first","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yu","family":"Qi","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-9286-2752","authenticated-orcid":false,"given":"Boce","family":"Hu","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yizhe","family":"Zhu","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ziyan","family":"Chen","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Heng","family":"Tian","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-7604-3395","authenticated-orcid":false,"given":"Xupeng","family":"Zhu","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Owen","family":"Howell","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8737-7959","authenticated-orcid":false,"given":"Haojie","family":"Huang","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7751-2379","authenticated-orcid":false,"given":"Robin","family":"Walters","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0546-0175","authenticated-orcid":false,"given":"Dian","family":"Wang","sequence":"additional","affiliation":[{"name":"Stanford University, Stanford, CA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-2033-3473","authenticated-orcid":false,"given":"Robert","family":"Platt","sequence":"additional","affiliation":[{"name":"Northeastern University, Boston, MA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"BEAR: Benchmarking and enhancing multimodal language models for atomic embodied capabilities","author":"Qi","year":"2025"},{"key":"ref2","first-page":"2679","article-title":"OpenVLA: An open-source vision-language-action model","volume-title":"Proc. Conf. Robot Learn.","author":"Kim","year":"2025"},{"key":"ref3","article-title":"$\\pi$0.5: A vision-language-action model with open-world generalization","author":"Intelligence","year":"2025"},{"key":"ref4","article-title":"Vision-language-action model with open-world embodied reasoning from pretrained knowledge","author":"Zhou","year":"2025"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/springerreference_179075"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01712"},{"key":"ref7","first-page":"77703","article-title":"Hierarchical equivariant policy via frame transfer","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhao","year":"2025"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA55743.2025.11127315"},{"key":"ref9","first-page":"14975","article-title":"VIMA: Robot manipulation with multimodal prompts","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Jiang","year":"2023"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2020.2974093"},{"key":"ref11","article-title":"Learning to factor policies and action-value functions: Factored action space representations for deep reinforcement learning","author":"Sharma","year":"2017"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.071"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2025.3606392"},{"key":"ref14","first-page":"15925","article-title":"SAM2Act: Integrating visual foundation model with a memory architecture for robotic manipulation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Fang","year":"2025"},{"key":"ref15","first-page":"1949","article-title":"3D diffuser actor: Policy diffusion with 3D scene representations","volume-title":"Proc. Conf. Robot Learn.","author":"Ke","year":"2025"},{"key":"ref16","first-page":"3949","article-title":"Act3D: 3D feature field transformers for multi-task robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Gervet","year":"2023"},{"key":"ref17","first-page":"894","article-title":"CLIPort: What and where pathways for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Shridhar","year":"2022"},{"key":"ref18","article-title":"BridgeVLA: Input-output alignment for efficient 3D manipulation learning with vision-language models","author":"Li","year":"2025"},{"key":"ref19","article-title":"Object-centric representations improve policy generalization in robot manipulation","author":"Chapin","year":"2025"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA55743.2025.11127231"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01620"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00291"},{"key":"ref23","article-title":"UniDoorManip: Learning universal door manipulation policy over large-scale and diverse door manipulation environments","author":"Li","year":"2024"},{"key":"ref24","first-page":"1006","article-title":"KITE: Keypoint-conditioned policies for semantic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Sundaresan","year":"2023"},{"key":"ref25","article-title":"FUNCTO: Function-centric one-shot imitation learning for tool manipulation","author":"Tang","year":"2025"},{"key":"ref26","first-page":"4573","article-title":"ReKep: Spatio-temporal reasoning of relational keypoint constraints for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Huang","year":"2025"},{"key":"ref27","first-page":"694","article-title":"RVT: Robotic view transformer for 3D object manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Goyal","year":"2023"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA55743.2025.11128681"},{"key":"ref29","first-page":"1891","article-title":"Task-oriented hierarchical object decomposition for visuomotor control","volume-title":"Proc. Conf. Robot Learn.","author":"Qian","year":"2025"},{"key":"ref30","first-page":"3418","article-title":"Learning generalizable manipulation policies with object-centric 3D representations","volume-title":"Proc. Conf. Robot Learn.","author":"Zhu","year":"2023"},{"key":"ref31","first-page":"3027","article-title":"RoboEXP: Action-conditioned scene graph via interactive exploration for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Jiang","year":"2025"},{"key":"ref32","first-page":"427","article-title":"SE(2)-equivariant pushing dynamics models for tabletop object manipulations","volume-title":"Proc. Conf. Robot Learn.","author":"Kim","year":"2023"},{"key":"ref33","first-page":"1048","article-title":"EquiBot: SIM(3)-equivariant diffusion policy for generalizable and data efficient learning","volume-title":"Proc. Conf. Robot Learn.","author":"Yang","year":"2025"},{"key":"ref34","article-title":"EquAct: An SE(3)-equivariant multi-task transformer for open-loop robotic manipulation","author":"Zhu","year":"2025"},{"key":"ref35","first-page":"2456","article-title":"OrbitGrasp: SE(3)-equivariant grasp learning","volume-title":"Proc. Conf. Robot Learn.","author":"Hu","year":"2025"},{"key":"ref36","article-title":"3D equivariant visuomotor policy learning via spherical projection","author":"Hu","year":"2025"},{"key":"ref37","first-page":"1345","article-title":"On-robot learning with equivariant models","volume-title":"Proc. Conf. Robot Learn.","author":"Wang","year":"2023"},{"key":"ref38","first-page":"1481","article-title":"Policy learning in SE(3) action spaces","volume-title":"Proc. Mach. Learn. Res.","author":"Wang","year":"2021"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812146"},{"key":"ref40","article-title":"Fourier transporter: Bi-equivariant robotic manipulation in 3D","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Huang"},{"key":"ref41","first-page":"5150","article-title":"Imagination policy: Using generative point cloud models for learning manipulation policies","volume-title":"Proc. Conf. Robot Learn.","author":"Huang","year":"2025"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160728"},{"key":"ref43","first-page":"1048","article-title":"Equivariant diffusion policy","volume-title":"Proc. Conf. Robot Learn.","author":"Wang","year":"2025"},{"key":"ref44","first-page":"80187","article-title":"SE(3)-equivariant diffusion policy in spherical Fourier space","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhu","year":"2025"},{"key":"ref45","first-page":"785","article-title":"Perceiver-Actor: A multi-task transformer for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Shridhar","year":"2023"},{"key":"ref46","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","year":"2024","journal-title":"Trans. Mach. Learn. Res. J."},{"key":"ref47","article-title":"SAM 2: Segment anything in images and videos","volume-title":"Proc. 13th Int. Conf. Learn. Representations","author":"Ravi"},{"key":"ref48","first-page":"1820","article-title":"MimicGen: A data generation system for scalable robot learning using human demonstrations","volume-title":"Proc. Conf. Robot Learn.","author":"Mandlekar","year":"2023"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2025.XXI.157"},{"key":"ref50","first-page":"175","article-title":"Instruction-driven history-aware policies for robotic manipulations","volume-title":"Proc. Conf. Robot Learn.","author":"Guhur","year":"2023"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.055"},{"key":"ref52","first-page":"1761","article-title":"PolarNet: 3D point clouds for language-guided robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Chen","year":"2023"},{"key":"ref53","article-title":"MimicFunc: Imitating tool manipulation from a single human video via functional correspondence","author":"Tang","year":"2025"},{"key":"ref54","first-page":"5464","article-title":"Learning from 10 demos: Generalisable and sample-efficient policy learning with oriented affordance frames","volume-title":"Proc. Conf. Robot Learn.","author":"Rana","year":"2025"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/7083369\/7339444\/11456665.pdf?arnumber=11456665","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,16]],"date-time":"2026-04-16T05:50:34Z","timestamp":1776318634000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11456665\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":54,"URL":"https:\/\/doi.org\/10.1109\/lra.2026.3678126","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"value":"2377-3766","type":"electronic"},{"value":"2377-3774","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}