{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T05:10:20Z","timestamp":1765343420361,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":16,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3758293","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T07:26:55Z","timestamp":1761377215000},"page":"13332-13338","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["A Spatial Relationship Aware Dataset for Robotics"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9895-394X","authenticated-orcid":false,"given":"Peng","family":"Wang","sequence":"first","affiliation":[{"name":"Manchester Metropolitan University, Manchester, United Kingdom"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-9439-4673","authenticated-orcid":false,"given":"Minh Huy","family":"Pham","sequence":"additional","affiliation":[{"name":"Independent Researcher, Manchester, United Kingdom"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-1050-5499","authenticated-orcid":false,"given":"Zhihao","family":"Guo","sequence":"additional","affiliation":[{"name":"Manchester Metropolitan University, Manchester, United Kingdom"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3641-1429","authenticated-orcid":false,"given":"Wei","family":"Zhou","sequence":"additional","affiliation":[{"name":"Cardiff University, Cardiff, United Kingdom"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Spatialbot: Precise spatial understanding with vision language models. arXiv preprint arXiv:2406.13642","author":"Cai Wenxiao","year":"2024","unstructured":"Wenxiao Cai, Iaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, and Bo Zhao. 2024. Spatialbot: Precise spatial understanding with vision language models. arXiv preprint arXiv:2406.13642 (2024)."},{"key":"e_1_3_2_1_2_1","volume-title":"G-retriever: Retrieval-augmented generation for textual graph understanding and question answering. arXiv preprint arXiv:2402.07630","author":"He Xiaoxin","year":"2024","unstructured":"Xiaoxin He, Yijun Tian, Yifei Sun, Nitesh V Chawla, Thomas Laurent, Yann LeCun, Xavier Bresson, and Bryan Hooi. 2024. G-retriever: Retrieval-augmented generation for textual graph understanding and question answering. arXiv preprint arXiv:2402.07630 (2024)."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"crossref","unstructured":"Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata Joshua Kravitz Stephanie Chen Yannis Kalantidis Li-Jia Li David A Shamma et al. 2017. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International journal of computer vision 123 (2017) 32--73.","DOI":"10.1007\/s11263-016-0981-7"},{"key":"e_1_3_2_1_4_1","volume-title":"REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation. arXiv preprint arXiv:2405.16116 (May","author":"Neau Ma\u00eblic","year":"2024","unstructured":"Ma\u00eblic Neau, Paulo E. Santos, Anne-Gwenn Bosser, and C\u00e9dric Buche. 2024. REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation. arXiv preprint arXiv:2405.16116 (May 2024). https:\/\/arxiv.org\/abs\/2405.16116"},{"key":"e_1_3_2_1_5_1","volume-title":"International conference on machine learning. PMLR, 8748--8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In International conference on machine learning. PMLR, 8748--8763."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01470"},{"key":"e_1_3_2_1_7_1","volume-title":"Unbiased Scene Graph Generation from Biased Training. arXiv preprint arXiv:2002.11949 (Mar","author":"Tang Kaihua","year":"2020","unstructured":"Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi, and Hanwang Zhang. 2020. Unbiased Scene Graph Generation from Biased Training. arXiv preprint arXiv:2002.11949 (Mar 2020). https:\/\/arxiv.org\/abs\/2002.11949"},{"key":"e_1_3_2_1_8_1","volume-title":"Learning to Compose Dynamic Tree Structures for Visual Contexts. arXiv preprint arXiv:1812.01880 (Dec","author":"Tang Kaihua","year":"2018","unstructured":"Kaihua Tang, Hanwang Zhang, Baoyuan Wu, Wenhan Luo, and Wei Liu. 2018. Learning to Compose Dynamic Tree Structures for Visual Contexts. arXiv preprint arXiv:1812.01880 (Dec 2018). https:\/\/arxiv.org\/abs\/1812.01880"},{"key":"e_1_3_2_1_9_1","volume-title":"Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971","author":"Touvron Hugo","year":"2023","unstructured":"Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth\u00e9e Lacroix, Baptiste Rozi\u00e8re, Naman Goyal, Eric Hambro, Faisal Azhar, et al. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971 (2023)."},{"key":"e_1_3_2_1_10_1","first-page":"20","article-title":"Chatgpt for robotics: Design principles and model abilities","volume":"2","author":"Vemprala Sai","year":"2023","unstructured":"Sai Vemprala, Rogerio Bonatti, Arthur Bucker, and Ashish Kapoor. 2023. Chatgpt for robotics: Design principles and model abilities. Microsoft Auton. Syst. Robot. Res 2 (2023), 20.","journal-title":"Microsoft Auton. Syst. Robot. Res"},{"key":"e_1_3_2_1_11_1","volume-title":"Llm granularity for on-thefly robot control. arXiv preprint arXiv:2406.14653","author":"Wang Peng","year":"2024","unstructured":"Peng Wang, Mattia Robbiani, and Zhihao Guo. 2024. Llm granularity for on-thefly robot control. arXiv preprint arXiv:2406.14653 (2024)."},{"key":"e_1_3_2_1_12_1","volume-title":"Embodied task planning with large language models. arXiv preprint arXiv:2307.01848","author":"Wu Zhenyu","year":"2023","unstructured":"Zhenyu Wu, Ziwei Wang, Xiuwei Xu, Jiwen Lu, and Haibin Yan. 2023. Embodied task planning with large language models. arXiv preprint arXiv:2307.01848 (2023)."},{"key":"e_1_3_2_1_13_1","volume-title":"Llm a*: Human in the loop large language models enabled a* search for robotics. arXiv preprint arXiv:2312.01797","author":"Xiao Hengjia","year":"2023","unstructured":"Hengjia Xiao and Peng Wang. 2023. Llm a*: Human in the loop large language models enabled a* search for robotics. arXiv preprint arXiv:2312.01797 (2023)."},{"key":"e_1_3_2_1_14_1","volume-title":"Neural Motifs: Scene Graph Parsing with Global Context. arXiv preprint arXiv:1711.06640 (Mar","author":"Zellers Rowan","year":"2018","unstructured":"Rowan Zellers, Mark Yatskar, Sam Thomson, and Yejin Choi. 2018. Neural Motifs: Scene Graph Parsing with Global Context. arXiv preprint arXiv:1711.06640 (Mar 2018). https:\/\/arxiv.org\/abs\/1711.06640"},{"key":"e_1_3_2_1_15_1","volume-title":"Visual Translation Embedding Network for Visual Relation Detection. arXiv preprint arXiv:1702.08319 (Feb","author":"Zhang Hanwang","year":"2017","unstructured":"Hanwang Zhang, Zawlin Kyaw, Shih-Fu Chang, and Tat-Seng Chua. 2017. Visual Translation Embedding Network for Visual Relation Detection. arXiv preprint arXiv:1702.08319 (Feb 2017). https:\/\/arxiv.org\/abs\/1702.08319"},{"key":"e_1_3_2_1_16_1","volume-title":"Prototype-based Embedding Network for Scene Graph Generation. arXiv preprint arXiv:2303.07096 (Mar","author":"Zheng Chaofan","year":"2023","unstructured":"Chaofan Zheng, Xinyu Lyu, Lianli Gao, Bo Dai, and Jingkuan Song. 2023. Prototype-based Embedding Network for Scene Graph Generation. arXiv preprint arXiv:2303.07096 (Mar 2023). https:\/\/arxiv.org\/abs\/2303.07096"}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3758293","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T05:07:37Z","timestamp":1765343257000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3758293"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":16,"alternative-id":["10.1145\/3746027.3758293","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3758293","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}