{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,10]],"date-time":"2026-05-10T00:25:05Z","timestamp":1778372705975,"version":"3.51.4"},"reference-count":65,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,5,13]]},"DOI":"10.1109\/icra57147.2024.10610008","type":"proceedings-article","created":{"date-parts":[[2024,8,8]],"date-time":"2024-08-08T17:51:05Z","timestamp":1723139465000},"page":"3071-3078","source":"Crossref","is-referenced-by-count":17,"title":["Language-Conditioned Affordance-Pose Detection in 3D Point Clouds"],"prefix":"10.1109","author":[{"given":"Toan","family":"Nguyen","sequence":"first","affiliation":[{"name":"FPT Software AI Center,Vietnam"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Minh Nhat","family":"Vu","sequence":"additional","affiliation":[{"name":"TU Wien,Automation &amp; Control Institute,Vienna,Austria"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Baoru","family":"Huang","sequence":"additional","affiliation":[{"name":"Imperial College London,UK"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tuan","family":"Van Vo","sequence":"additional","affiliation":[{"name":"FPT Software AI Center,Vietnam"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Vy","family":"Truong","sequence":"additional","affiliation":[{"name":"FPT Software AI Center,Vietnam"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ngan","family":"Le","sequence":"additional","affiliation":[{"name":"University of Arkansas,Department of Computer Science &amp; Computer Engineering,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Thieu","family":"Vo","sequence":"additional","affiliation":[{"name":"Ton Duc Thang University,Faculty of Mathematics and Statistics,Ho Chi Minh City,Vietnam"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bac","family":"Le","sequence":"additional","affiliation":[{"name":"University of Science,Faculty of Information Technology,Ho Chi Minh City,VietNam"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anh","family":"Nguyen","sequence":"additional","affiliation":[{"name":"University of Liverpool,Department of Computer Science,UK"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3446370"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3389\/fnbot.2021.658280"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2023.3280597"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197289"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981900"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10341672"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2015.7354029"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00182"},{"key":"ref9","article-title":"O2O-Afford: Annotation-free large-scale object-object affordance learning","volume-title":"CoRL","author":"Mo"},{"key":"ref10","doi-asserted-by":"crossref","DOI":"10.1109\/IROS55552.2023.10341553","article-title":"Open-vocabulary affordance detection in 3d point clouds","volume-title":"IROS","author":"Ngyen"},{"key":"ref11","article-title":"Learning transferable visual models from natural language supervision","volume-title":"ICML","author":"Radford"},{"key":"ref12","article-title":"Bert: Pre-training of deep bidirectional transformers for language understanding","volume-title":"NAACL","author":"Devlin"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/HUMANOIDS.2017.8239542"},{"key":"ref14","article-title":"Dualafford: Learning collaborative visual affordance for dual-gripper manipulation","volume-title":"ICLR","author":"Zhao"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160736"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00286"},{"key":"ref17","article-title":"Diffusion-lm improves controllable text generation","volume-title":"NeurIPS","author":"Li"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161569"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8206484"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460902"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00658"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00657"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160606"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1177\/027836498800700301"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2000.844081"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/MRA.2004.1371616"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2004.1389727"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CW.2005.39"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ISIE.2006.296116"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2007.4399052"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-77457-0_4"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1177\/0278364907087172"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/icra.2011.5980145"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2016.7759156"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00299"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561473"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160365"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160747"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01607"},{"key":"ref42","article-title":"Language models are few-shot learners","volume-title":"NeurIPS","author":"Brown"},{"key":"ref43","article-title":"Palm: Scaling language modeling with pathways","author":"Chowdhery","year":"2022"},{"key":"ref44","article-title":"Llama: Open and efficient foundation language models","author":"Touvron","year":"2023"},{"key":"ref45","article-title":"Palm-e: An embodied multimodal language model","volume-title":"ICML","author":"Driess"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636342"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3139667"},{"key":"ref48","article-title":"Do as i can, not as i say: Grounding language in robotic affordances","volume-title":"CoRL","author":"Ahn"},{"key":"ref49","article-title":"Lisa: Learning interpretable skill abstractions from language","volume-title":"NeurIPS","author":"Garg"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160396"},{"key":"ref51","article-title":"Leveraging language for accelerated learning of tool manipulation","volume-title":"CoRL","author":"Ren"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342268"},{"key":"ref53","volume-title":"Robotiq 2f-85","year":"2018"},{"key":"ref54","article-title":"Pointnet++: Deep hierarchical feature learning on point sets in a metric space","volume-title":"NeurIPS","author":"Qi"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00288"},{"key":"ref56","article-title":"Segclip: Patch aggregation with learnable centers for open-vocabulary semantic segmentation","volume-title":"ICML","author":"Luo"},{"key":"ref57","article-title":"Denoising diffusion probabilistic models","volume-title":"NeurIPS","author":"Ho"},{"key":"ref58","article-title":"Classifier-free diffusion guidance","volume-title":"NeurIPS workshop","author":"Ho"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref60","article-title":"Adam: A method for stochastic optimization","volume-title":"ICLR","author":"Kingma"},{"key":"ref61","article-title":"Shapenet: An information-rich 3d model repository","author":"Chang","year":"2015"},{"key":"ref62","article-title":"Roberta: A robustly optimized bert pretraining approach","author":"Liu","year":"2019"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1016\/j.mechatronics.2023.102970"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00472"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1016\/j.ifacol.2023.10.1582"}],"event":{"name":"2024 IEEE International Conference on Robotics and Automation (ICRA)","location":"Yokohama, Japan","start":{"date-parts":[[2024,5,13]]},"end":{"date-parts":[[2024,5,17]]}},"container-title":["2024 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10609961\/10609862\/10610008.pdf?arnumber=10610008","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,10]],"date-time":"2024-08-10T05:42:53Z","timestamp":1723268573000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10610008\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,13]]},"references-count":65,"URL":"https:\/\/doi.org\/10.1109\/icra57147.2024.10610008","relation":{},"subject":[],"published":{"date-parts":[[2024,5,13]]}}}