{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T10:16:54Z","timestamp":1777889814666,"version":"3.51.4"},"reference-count":139,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.00694","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"7395-7408","source":"Crossref","is-referenced-by-count":0,"title":["MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs"],"prefix":"10.1109","author":[{"given":"Erik","family":"Daxberger","sequence":"first","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nina","family":"Wenzel","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"David","family":"Griffiths","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haiming","family":"Gang","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Justin","family":"Lazarow","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gefen","family":"Kohavi","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kai","family":"Kang","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Marcin","family":"Eichner","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yinfei","family":"Yang","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Afshin","family":"Dehghan","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Peter","family":"Grasch","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Phi-3 technical report: A highly capable language model locally on your phone","author":"Abdin","year":"2024","journal-title":"arXiv preprint"},{"key":"ref2","article-title":"Gpt-4 technical report","author":"Achiam","year":"2023","journal-title":"arXiv preprint"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_25"},{"key":"ref4","article-title":"Stupd: A synthetic dataset for spatial and temporal relation reasoning","author":"Agrawal","year":"2023","journal-title":"arXiv preprint"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1723"},{"key":"ref7","volume-title":"The AXLearn Library for Deep Learning","year":"2024"},{"key":"ref8","article-title":"Openflamingo: An open-source framework for training large autoregressive vision-language models","author":"Awadalla","year":"2023","journal-title":"arXiv preprint"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1160"},{"key":"ref10","article-title":"Qwen-vl: A frontier large vision-language model with versatile abilities","author":"Bai","year":"2023","journal-title":"arXiv preprint"},{"key":"ref11","article-title":"ARKitscenes - a diverse real-world dataset for 3d indoor scene understanding using mobile RGB-d data","author":"Baruch","year":"2021","journal-title":"NeurIPS Datasets and Benchmarks Track (Round 1)"},{"key":"ref12","article-title":"Depth pro: Sharp monocular metric depth in less than a second","author":"Bochkovskii","year":"2024","journal-title":"arXiv preprint"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01264"},{"key":"ref14","article-title":"Matryoshka multimodal models","author":"Cai","year":"2025","journal-title":"ICRL"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA55743.2025.11128671"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICAR.2015.7251504"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01311"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2017.00081"},{"key":"ref19","article-title":"Shapenet: An information-rich 3d model repository","author":"Angel","year":"2015","journal-title":"arXiv preprint"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01370"},{"key":"ref21","article-title":"Scanrefer: 3d object localization in rgb-d scans using natural language","author":"Zhenyu Chen","year":"2020","journal-title":"ECCV"},{"key":"ref22","article-title":"Contrastive localized language-image pre-training","author":"Chen","year":"2024","journal-title":"arXiv preprint"},{"key":"ref23","article-title":"Shikra: Unleashing multimodal llm\u2019s referential dialogue magic","author":"Chen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref24","article-title":"Dragonfly: Multi-resolution zoom supercharges large visuallanguage model","author":"Chen","year":"2024","journal-title":"arXiv preprint"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0850"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4231-5"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.52202\/079017-4293"},{"key":"ref28","article-title":"Languageimage models with 3d understanding","author":"Hyun Cho","year":"2024","journal-title":"arXiv preprint"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.261"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.52202\/068431-0433"},{"key":"ref31","article-title":"Internlm-xcomposer24khd: A pioneering large vision-language model handling resolutions from 336 pixels to 4k hd","author":"Dong","year":"2024","journal-title":"NeurIPS"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-short.33"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3685520"},{"key":"ref34","article-title":"Data filtering networks","author":"Fang","year":"2024","journal-title":"ICLR"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01146"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00901"},{"key":"ref37","article-title":"Mme: A comprehensive evaluation benchmark for multimodal large language models","author":"Fu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/WACV61041.2025.00220"},{"key":"ref39","author":"Gao","year":"2024","journal-title":"A framework for few-shot language model evaluation"},{"key":"ref40","article-title":"Sphinx-x: Scaling data and parameters for a family of multi-modal large language models","author":"Gao","year":"2024","journal-title":"ICML"},{"key":"ref41","article-title":"Convllava: Hierarchical backbones as visual encoder for large multimodal models","author":"Ge","year":"2024","journal-title":"arXiv preprint"},{"key":"ref42","article-title":"Rel3d: A minimally contrastive benchmark for grounding spatial relations in 3d","author":"Goyal","year":"2020","journal-title":"NeurIPS"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610243"},{"key":"ref44","article-title":"Efficient multimodal learning from data-centric perspective","author":"He","year":"2024","journal-title":"arXiv preprint"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01354"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00888"},{"key":"ref47","article-title":"3d-llm: Injecting the 3d world into large language models","author":"Hong","year":"2023","journal-title":"NeurIPS"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-emnlp.175"},{"key":"ref49","article-title":"Language is not all you need: Aligning perception with language models","author":"Huang","year":"2023","journal-title":"NeurIPS"},{"key":"ref50","article-title":"and Owana Marzia Moushi","author":"Islam","year":"2024","journal-title":"Gpt-4o: The cutting-edge advancement in multimodal llm. Authorea Preprints"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02644"},{"key":"ref52","article-title":"Mantis: Interleaved multiimage instruction tuning","author":"Jiang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.568"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.01550"},{"key":"ref55","article-title":"Ai2-thor: An interactive 3d environment for visual ai","author":"Kolve","year":"2017","journal-title":"arXiv preprint"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01316-z"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.19"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00915"},{"key":"ref59","article-title":"Building and better understanding visionlanguage models: insights and future directions","author":"Lauren\u00e7on","year":"2024","journal-title":"arXiv preprint"},{"key":"ref60","article-title":"What matters when building vision-language models?","author":"Lauren\u00e7on","year":"2025","journal-title":"NeurIPS"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02070"},{"key":"ref62","article-title":"Phantom of latent for large language and vision models","author":"Lee","year":"2024","journal-title":"arXiv preprint"},{"key":"ref63","article-title":"Llava-onevision: Easy visual task transfer","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1561\/0600000110"},{"key":"ref65","article-title":"Llava-next-interleave: Tackling multi-image, video, and 3d in large multimodal models","author":"Li","year":"2025","journal-title":"ICLR"},{"key":"ref66","article-title":"Cumo: Scaling multimodal 11 m with co-upcycled mixture-of-experts","author":"Li","year":"2024","journal-title":"NeurIPS"},{"key":"ref67","article-title":"M3dbench: Let\u2019s instruct large models with multi-modal 3d prompts","author":"Li","year":"2023","journal-title":"arXiv preprint"},{"key":"ref68","article-title":"Omnicorpus: An unified multimodal corpus of 10 billion-level images interleaved with text","author":"Li","year":"2025","journal-title":"ICLR"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-025-02491-7"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2025.3637265"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02527"},{"key":"ref72","article-title":"Ferret-ui 2: Mastering universal user interface understanding across platforms","author":"Li","year":"2025","journal-title":"ICLR"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.947"},{"key":"ref74","article-title":"Moe-llava: Mixture of experts for large vision-language models","author":"Lin","year":"2024","journal-title":"arXiv preprint"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.342"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02520"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref78","article-title":"Sphinx: The joint mixing of weights, tasks, and visual embeddings for multi-modal large language models","author":"Lin","year":"2023","journal-title":"arXiv preprint"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00566"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1516"},{"key":"ref81","author":"Liu","year":"2024","journal-title":"Llava-next: Improved reasoning, ocr, and world knowledge"},{"key":"ref82","article-title":"3dsrbench: A comprehensive 3d spatial reasoning benchmark","author":"Ma","year":"2024","journal-title":"arXiv preprint"},{"key":"ref83","author":"Ma","year":"2024","journal-title":"When llms step into the 3d world: A survey and meta-analysis of 3d tasks via multi-modal large language models"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.emnlp-main.1359"},{"key":"ref85","article-title":"Mm1: Methods, analysis & insights from multimodal 11 m pre-training","author":"McKinzie","year":"2024","journal-title":"ECCV"},{"key":"ref86","volume-title":"Gpt-4 vision","year":"2024"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-short.45"},{"key":"ref88","article-title":"Kosmos-2: Grounding multimodal large language models to the world","author":"Peng","year":"2024","journal-title":"ICLR"},{"key":"ref89","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021","journal-title":"ICML"},{"key":"ref90","article-title":"Does spatial cognition emerge in frontier models?","author":"Kumar Ramakrishnan","year":"2025","journal-title":"ICLR"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01236"},{"key":"ref92","article-title":"Sat: Spatial aptitude training for multimodal language models","author":"Ray","year":"2024","journal-title":"arXiv preprint"},{"key":"ref93","article-title":"Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context","author":"Reid","year":"2024","journal-title":"arXiv preprint"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02491"},{"key":"ref95","article-title":"Toolformer: Language models can teach themselves to use tools","author":"Schick","year":"2023","journal-title":"NeurIPS"},{"key":"ref96","article-title":"Eagle: Exploring the design space for multimodal 11 ms with mixture of encoders","author":"Shi","year":"2025","journal-title":"ICLR"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.1195"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01470"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2022.103557"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01365"},{"key":"ref101","article-title":"Emu: Generative pretraining in multimodality","author":"Sun","year":"2024","journal-title":"ICLR"},{"key":"ref102","article-title":"Textsquare: Scaling up text-centric visual instruction tuning","author":"Tang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref103","article-title":"Gemini: a family of highly capable multimodal models","author":"Team","year":"2023","journal-title":"arXiv preprint"},{"key":"ref104","article-title":"Cambrian-1: A fully open, vision-centric exploration of multimodal 11 ms","author":"Tong","year":"2024","journal-title":"NeurIPS"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00914"},{"key":"ref106","article-title":"Multimodal few-shot learning with frozen language models","author":"Tsimpoukelli","year":"2021","journal-title":"NeurIPS"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981838"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00775"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01868"},{"key":"ref110","article-title":"Visionllm: Large language model is also an open-ended decoder for vision-centric tasks","author":"Wang","year":"2023","journal-title":"NeurIPS"},{"key":"ref111","article-title":"Chain-of-thought prompting elicits reasoning in large language models","author":"Wei","year":"2022","journal-title":"NeurIPS"},{"key":"ref112","article-title":"Pllava: Parameter-free llava extension from images to videos for video dense captioning","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref113","article-title":"SlowFast-LLaVA: A strong training-free baseline for video large language models","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref114","article-title":"Llava-uhd: an 1 mm perceiving any aspect ratio and high-resolution images","author":"Xu","year":"2024","journal-title":"ECCV"},{"key":"ref115","article-title":"xgen-mm (blip-3): A family of open large multimodal models","author":"Xue","year":"2024","journal-title":"arXiv preprint"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00994"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00214"},{"key":"ref118","article-title":"Dense connector for mllms","author":"Yao","year":"2024","journal-title":"NeurIPS"},{"key":"ref119","article-title":"Minicpm-v: A gpt-4v level mllm on your phone","author":"Yao","year":"2024","journal-title":"arXiv preprint"},{"key":"ref120","article-title":"MM- Ego: Towards building egocentric multimodal 11 ms","author":"Ye","year":"2025","journal-title":"ICLR"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00008"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1036\/1097-8542.253500"},{"key":"ref123","article-title":"Ferret-ui: Grounded mobile ui understanding with multimodal 11 ms","author":"You","year":"2024","journal-title":"ECCV"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02664"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02214-4"},{"key":"ref126","article-title":"3dgraphllm: Combining semantic graphs and large language models for 3d scene understanding","author":"Zemskova","year":"2024","journal-title":"arXiv preprint"},{"key":"ref127","article-title":"Ferretv2: An improved baseline for referring and grounding with large language models","author":"Zhang","year":"2024","journal-title":"COLM"},{"key":"ref128","article-title":"Mm1. 5: Methods, analysis & insights from multimodal 11 m fine-tuning","author":"Zhang","year":"2025","journal-title":"ICLR"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.915"},{"key":"ref130","article-title":"Gpt4roi: Instruction tuning large language model on region-ofinterest","author":"Zhang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref131","article-title":"Beyond llavahd: Diving into high-resolution large multimodal models","author":"Zhang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref132","article-title":"Do vision-language models represent space and how? evaluating spatial frame of reference under ambiguities","author":"Zhang","year":"2025","journal-title":"ICLR"},{"key":"ref133","article-title":"Bubogpt: Enabling visual grounding in multi-modal 11 ms","author":"Zhao","year":"2023","journal-title":"arXiv preprint"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00841"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00356"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.544"},{"key":"ref137","article-title":"Tinyllava: A framework of small-scale large multimodal models","author":"Zhou","year":"2024","journal-title":"arXiv preprint"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73242-3_9"},{"key":"ref139","article-title":"Llava-3d: A simple yet effective pathway to empowering 1 mms with 3d-awareness","author":"Zhu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref140","article-title":"Minigpt-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2024","journal-title":"ICLR"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11449035.pdf?arnumber=11449035","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:21:05Z","timestamp":1777612865000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11449035\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":139,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.00694","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}