{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,24]],"date-time":"2026-01-24T16:50:36Z","timestamp":1769273436585,"version":"3.49.0"},"reference-count":34,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"JSPS KAKENHI","award":["23K03478"],"award-info":[{"award-number":["23K03478"]}]},{"name":"JST Moonshot"},{"DOI":"10.13039\/501100003051","name":"New Energy and Industrial Technology Development Organization","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003051","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2025,2]]},"DOI":"10.1109\/lra.2024.3522841","type":"journal-article","created":{"date-parts":[[2024,12,26]],"date-time":"2024-12-26T19:22:55Z","timestamp":1735240975000},"page":"1728-1735","source":"Crossref","is-referenced-by-count":1,"title":["Open-Vocabulary Mobile Manipulation Based on Double Relaxed Contrastive Learning With Dense Labeling"],"prefix":"10.1109","volume":"10","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-2087-2038","authenticated-orcid":false,"given":"Daichi","family":"Yashima","sequence":"first","affiliation":[{"name":"Keio University, Yokohama, Kanagawa, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-0354-9070","authenticated-orcid":false,"given":"Ryosuke","family":"Korekata","sequence":"additional","affiliation":[{"name":"Keio University, Yokohama, Kanagawa, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0261-0510","authenticated-orcid":false,"given":"Komei","family":"Sugiura","sequence":"additional","affiliation":[{"name":"Keio University, Yokohama, Kanagawa, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"key":"ref2","article-title":"Representation learning with contrastive predictive coding","author":"Oord","year":"2018"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3352363"},{"key":"ref4","article-title":"DM2RM: Dual-mode multimodal ranking for target objects and receptacles based on open-vocabulary instructions","author":"Korekata","year":"2024"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00226"},{"key":"ref6","first-page":"287","article-title":"Do as i can, not as i say: Grounding language in robotic affordances","volume-title":"Proc. Conf. Robot Learn.","author":"Ichter","year":"2022"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161534"},{"key":"ref8","first-page":"8469","article-title":"PaLM-E: An embodied multimodal language model","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Driess","year":"2023"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2015.08.002"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1080\/01691864.2019.1663608"},{"key":"ref11","first-page":"1975","article-title":"HomeRobot: Open-vocabulary mobile manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Yenamandra","year":"2023"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342165"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342093"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3031549"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.5555\/3524938.3525087"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR56361.2022.9956660"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00273"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00989"},{"key":"ref19","first-page":"35959","article-title":"PyramidCLIP: Hierarchical feature alignment for vision-language model pretraining","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Gao","year":"2022"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i3.27955"},{"key":"ref21","article-title":"Data efficient language-supervised zero-shot recognition with optimal transport distillation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Wu","year":"2022"},{"key":"ref22","article-title":"Soft neighbors are positive supporters in contrastive visual representation learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Ge","year":"2023"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref24","first-page":"19769","article-title":"Segment everything everywhere all at once","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Zou","year":"2023"},{"key":"ref25","article-title":"Set-of-mark prompting unleashes extraordinary visual grounding in GPT-4 V","author":"Yang","year":"2023"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2010.11929"},{"key":"ref27","first-page":"34892","article-title":"Visual Instruction Tuning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Liu","year":"2023"},{"key":"ref28","article-title":"Habitat-matterport 3D dataset (HM3D): 1000 large-scale 3D environments for embodied AI","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Ramakrishnan","year":"2021"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00477"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00387"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2017.00081"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01000"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/759"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/MRA.2015.2448951"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/7083369\/10805214\/10816380.pdf?arnumber=10816380","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,13]],"date-time":"2025-01-13T20:15:25Z","timestamp":1736799325000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10816380\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,2]]},"references-count":34,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/lra.2024.3522841","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"value":"2377-3766","type":"electronic"},{"value":"2377-3774","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,2]]}}}