{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T21:08:11Z","timestamp":1779484091567,"version":"3.53.1"},"reference-count":52,"publisher":"Elsevier BV","issue":"6","license":[{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100018554","name":"Science and Technology Program of Gansu Province","doi-asserted-by":"publisher","award":["23YFFA0064"],"award-info":[{"award-number":["23YFFA0064"]}],"id":[{"id":"10.13039\/501100018554","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62363025"],"award-info":[{"award-number":["62363025"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100009590","name":"Gansu Education Department","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100009590","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100007764","name":"Lanzhou Science and Technology Bureau","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100007764","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Processing &amp; Management"],"published-print":{"date-parts":[[2026,9]]},"DOI":"10.1016\/j.ipm.2026.104720","type":"journal-article","created":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T14:36:48Z","timestamp":1773239808000},"page":"104720","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"title":["Explicit geometric relationships under limited spatial reference points guide 3D visual grounding"],"prefix":"10.1016","volume":"63","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-3644-0988","authenticated-orcid":false,"given":"Zongshun","family":"Wang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4627-6112","authenticated-orcid":false,"given":"Ce","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3255-4158","authenticated-orcid":false,"given":"Jialin","family":"Ma","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-8908-5635","authenticated-orcid":false,"given":"Zhiqiang","family":"Feng","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-1906-0967","authenticated-orcid":false,"given":"Pengcheng","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-4928-7263","authenticated-orcid":false,"given":"Xiaodong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0612-4982","authenticated-orcid":false,"given":"Limei","family":"Xiao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.ipm.2026.104720_bib0001","series-title":"European conference on computer vision","first-page":"422","article-title":"Referit3d: Neural listeners for fine-grained 3D object identification in real-world scenes","author":"Achlioptas","year":"2020"},{"key":"10.1016\/j.ipm.2026.104720_bib0002","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"16464","article-title":"3djcg: A unified framework for joint dense captioning and visual grounding on 3d point clouds","author":"Cai","year":"2022"},{"key":"10.1016\/j.ipm.2026.104720_bib0003","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"14131","article-title":"MiKASA: Multi-key-anchor & scene-aware transformer for 3d visual grounding","author":"Chang","year":"2024"},{"key":"10.1016\/j.ipm.2026.104720_bib0004","series-title":"European conference on computer vision","first-page":"202","article-title":"Scanrefer: 3d object localization in rgb-d scans using natural language","author":"Chen","year":"2020"},{"key":"10.1016\/j.ipm.2026.104720_bib0005","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"5828","article-title":"Scannet: Richly-annotated 3D reconstructions of indoor scenes","author":"Dai","year":"2017"},{"key":"10.1016\/j.ipm.2026.104720_bib0006","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"13269","article-title":"Naturally supervised 3d visual grounding with language-regularized concept learners","author":"Feng","year":"2024"},{"key":"10.1016\/j.ipm.2026.104720_bib0007","series-title":"Proceedings of the international conference on computer vision","first-page":"3722","article-title":"Free-form description guided 3d visual graph network for object grounding in point cloud","author":"Feng","year":"2021"},{"key":"10.1016\/j.ipm.2026.104720_bib0008","first-page":"1","article-title":"Pseudo-EV: Enhancing 3d visual grounding with pseudo embodied viewpoint","author":"Geng","year":"2025","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"10.1016\/j.ipm.2026.104720_bib0009","article-title":"Visual grounding in 2d and 3d: a unified perspective and survey","author":"Guo","year":"2025","journal-title":"Information Fusion"},{"key":"10.1016\/j.ipm.2026.104720_bib0010","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"1","article-title":"Text-guided sparse voxel pruning for efficient 3D visual grounding","author":"Guo","year":"2025"},{"issue":"12","key":"10.1016\/j.ipm.2026.104720_bib0011","doi-asserted-by":"crossref","first-page":"4338","DOI":"10.1109\/TPAMI.2020.3005434","article-title":"Deep learning for 3d point clouds: A survey","volume":"43","author":"Guo","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.ipm.2026.104720_bib0012","series-title":"Proceedings of the international conference on computer vision","first-page":"15372","article-title":"Viewrefer: Grasp the multi-view knowledge for 3d visual grounding","author":"Guo","year":"2023"},{"key":"10.1016\/j.ipm.2026.104720_bib0013","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102551","article-title":"Coarse to fine-based image\u2013point cloud fusion network for 3d object detection","volume":"112","author":"Hao","year":"2024","journal-title":"Information Fusion"},{"key":"10.1016\/j.ipm.2026.104720_bib0014","series-title":"Proceedings of the ACM international conference on multimedia","first-page":"2344","article-title":"Transrefer3d: Entity-and-relation aware transformer for fine-grained 3D visual grounding","author":"He","year":"2021"},{"key":"10.1016\/j.ipm.2026.104720_bib0015","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"1610","article-title":"Text-guided graph neural networks for referring 3D instance segmentation","author":"Huang","year":"2021"},{"key":"10.1016\/j.ipm.2026.104720_bib0016","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"9726","article-title":"ViewSRD: 3d visual grounding via structured multi-view decomposition","author":"Huang","year":"2025"},{"key":"10.1016\/j.ipm.2026.104720_bib0017","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"15524","article-title":"Multi-view transformer for 3d visual grounding","author":"Huang","year":"2022"},{"key":"10.1016\/j.ipm.2026.104720_bib0018","series-title":"European conference on computer vision","first-page":"417","article-title":"Bottom up top down detection transformers for language grounding in images and point clouds","author":"Jain","year":"2022"},{"key":"10.1016\/j.ipm.2026.104720_bib0019","series-title":"Proceedings of the winter conference on applications of computer vision","first-page":"272","article-title":"Auto qa: The question is not only what, but also where","author":"Kumar","year":"2022"},{"issue":"6","key":"10.1016\/j.ipm.2026.104720_bib0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.ipm.2025.104222","article-title":"Grouped top-down reasoning with hierarchical window transformer for visual grounding","volume":"62","author":"Li","year":"2025","journal-title":"Information Processing & Management"},{"key":"10.1016\/j.ipm.2026.104720_bib0021","doi-asserted-by":"crossref","unstructured":"Li, R., Li, S., Kong, L., Yang, X., & Liang, J. (2024). Seeground: See and ground for zero-shot open-vocabulary 3D visual grounding. arXiv Preprint arXiv:2412.04383.","DOI":"10.1109\/CVPR52734.2025.00351"},{"key":"10.1016\/j.ipm.2026.104720_bib0022","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111728","article-title":"R2g: Reasoning to ground in 3d scenes","volume":"168","author":"Li","year":"2025","journal-title":"Pattern Recognition"},{"key":"10.1016\/j.ipm.2026.104720_bib0023","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.111920","article-title":"Sca-pvnet: Self-and-cross attention based aggregation of point cloud and multi-view for 3D object retrieval","volume":"296","author":"Lin","year":"2024","journal-title":"Knowledge-Based Systems"},{"key":"10.1016\/j.ipm.2026.104720_bib0024","article-title":"3DAxisprompt: Promoting the 3d grounding and reasoning in GPT-4o","author":"Liu","year":"2025","journal-title":"Neurocomputing"},{"issue":"3","key":"10.1016\/j.ipm.2026.104720_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.ipm.2024.104027","article-title":"Cross-modal event extraction via visual event grounding and semantic relation filling","volume":"62","author":"Liu","year":"2025","journal-title":"Information Processing & Management"},{"key":"10.1016\/j.ipm.2026.104720_bib0026","unstructured":"Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv Preprint arXiv:1907.11692."},{"key":"10.1016\/j.ipm.2026.104720_bib0027","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"3718","article-title":"Reasongrounder: LVLM-guided hierarchical feature splatting for open-vocabulary 3D visual grounding and reasoning","author":"Liu","year":"2025"},{"key":"10.1016\/j.ipm.2026.104720_bib0028","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"16454","article-title":"3D-sps: Single-stage 3d visual grounding via referred point progressive selection","author":"Luo","year":"2022"},{"key":"10.1016\/j.ipm.2026.104720_bib0029","article-title":"Spatial\u2013temporal video grounding with cross-modal understanding and enhancement","author":"Luo","year":"2025","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.ipm.2026.104720_bib0030","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"652","article-title":"Pointnet: Deep learning on point sets for 3D classification and segmentation","author":"Qi","year":"2017"},{"key":"10.1016\/j.ipm.2026.104720_bib0031","series-title":"Advances in neural information processing systems","first-page":"1","article-title":"Pointnet++: Deep hierarchical feature learning on point sets in a metric space","author":"Qi","year":"2017"},{"key":"10.1016\/j.ipm.2026.104720_bib0032","series-title":"European conference on computer vision","first-page":"381","article-title":"Multi-branch collaborative learning network for 3d visual grounding","author":"Qian","year":"2024"},{"key":"10.1016\/j.ipm.2026.104720_bib0033","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2025.113650","article-title":"A survey of language-grounded multimodal 3d scene understanding","author":"Ren","year":"2025","journal-title":"Knowledge-Based Systems"},{"key":"10.1016\/j.ipm.2026.104720_bib0034","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"14056","article-title":"Aware visual grounding in 3D scenes","author":"Shi","year":"2024"},{"key":"10.1016\/j.ipm.2026.104720_bib0035","series-title":"Augrefer: Advancing 3d visual grounding via cross-modal augmentation and spatial relation-based referring","first-page":"8006","author":"Wang","year":"2025"},{"key":"10.1016\/j.ipm.2026.104720_bib0036","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"13917","article-title":"G\u2303 3-LQ: Marrying hyperbolic alignment with explicit semantic-geometric modeling for 3D visual grounding","author":"Wang","year":"2024"},{"key":"10.1016\/j.ipm.2026.104720_bib0037","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"8114","article-title":"Liba: Language instructed multi-granularity bridge assistant for 3D visual grounding","author":"Wang","year":"2025"},{"key":"10.1016\/j.ipm.2026.104720_bib0038","doi-asserted-by":"crossref","unstructured":"Wang, Z., Huang, H., Zhao, Y., Li, L., Cheng, X., Zhu, Y., Yin, A., & Zhao, Z. (2023). 3drp-net: 3d relative position-aware network for 3d visual grounding. arXiv Preprint arXiv:2307.13363.","DOI":"10.18653\/v1\/2023.emnlp-main.656"},{"key":"10.1016\/j.ipm.2026.104720_bib0039","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"19231","article-title":"Eda: Explicit text-decoupling and dense alignment for 3D visual grounding","author":"Wu","year":"2023"},{"key":"10.1016\/j.ipm.2026.104720_bib0040","unstructured":"Xu, R., Huang, Z., Wang, T., Chen, Y., Pang, J., & Lin, D. (2024). Vlm-grounder: A vlm agent for zero-shot 3d visual grounding. arXiv Preprint arXiv:2410.13860."},{"key":"10.1016\/j.ipm.2026.104720_bib0041","series-title":"Ieee international conference on robotics and automation","first-page":"7694","article-title":"Llm-grounder: Open-vocabulary 3d visual grounding with large language model as an agent","author":"Yang","year":"2024"},{"key":"10.1016\/j.ipm.2026.104720_bib0042","series-title":"Proceedings of the international conference on computer vision","first-page":"1856","article-title":"Sat: 2d semantics assisted training for 3d visual grounding","author":"Yang","year":"2021"},{"key":"10.1016\/j.ipm.2026.104720_bib0043","series-title":"Proceedings of the conference on computer vision and pattern recognition","first-page":"20623","article-title":"Visual programming for zero-shot open-vocabulary 3d visual grounding","author":"Yuan","year":"2024"},{"issue":"10","key":"10.1016\/j.ipm.2026.104720_bib0044","doi-asserted-by":"crossref","first-page":"19411","DOI":"10.1109\/TNNLS.2025.3571959","article-title":"Toward fine-grained 3-d visual grounding through referring textual phrases","volume":"36","author":"Yuan","year":"2025","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"10.1016\/j.ipm.2026.104720_bib0045","series-title":"Proceedings of the international conference on computer vision","first-page":"1791","article-title":"Instancerefer: Cooperative holistic understanding for visual grounding on point clouds through instance multi-level contextual referring","author":"Yuan","year":"2021"},{"key":"10.1016\/j.ipm.2026.104720_bib0046","series-title":"Conference on multimedia and expo workshops","first-page":"1","article-title":"Dual attribute-spatial relation alignment for 3D visual grounding","author":"Yue","year":"2024"},{"key":"10.1016\/j.ipm.2026.104720_bib0047","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110630","article-title":"Tcfap-net: Transformer-based cross-feature fusion and adaptive perception network for large-scale point cloud semantic segmentation","volume":"154","author":"Zhang","year":"2024","journal-title":"Pattern Recognition"},{"key":"10.1016\/j.ipm.2026.104720_bib0048","series-title":"Proceedings of the international conference on computer vision","first-page":"2928","article-title":"3dvg-transformer: Relation modeling for visual grounding on point clouds","author":"Zhao","year":"2021"},{"key":"10.1016\/j.ipm.2026.104720_bib0049","article-title":"Learning and grounding visual multimodal adaptive graph for visual navigation","author":"Zhou","year":"2025","journal-title":"Information Fusion"},{"key":"10.1016\/j.ipm.2026.104720_bib0050","doi-asserted-by":"crossref","unstructured":"Zhu, H., Kong, Q., Xu, K., Xia, X., Deng, B., Ye, J., Xiong, R., & Wang, Y. (2025a). Grounding 3d object affordance with language instructions, visual observations and interactions. arXiv Preprint arXiv:http:\/\/arxiv.org\/abs\/2504.047442504.04744.","DOI":"10.1109\/CVPR52734.2025.01616"},{"key":"10.1016\/j.ipm.2026.104720_bib0051","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"5295","article-title":"Vgmamba: Attribute-to-location clue reasoning for quantity-agnostic 3d visual grounding","author":"Zhu","year":"2025"},{"key":"10.1016\/j.ipm.2026.104720_bib0052","series-title":"Proceedings of the international conference on computer vision","first-page":"2911","article-title":"3D-vista: Pre-trained transformer for 3d vision and text alignment","author":"Zhu","year":"2023"}],"container-title":["Information Processing &amp; Management"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0306457326001111?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0306457326001111?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T20:56:11Z","timestamp":1779483371000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0306457326001111"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,9]]},"references-count":52,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2026,9]]}},"alternative-id":["S0306457326001111"],"URL":"https:\/\/doi.org\/10.1016\/j.ipm.2026.104720","relation":{},"ISSN":["0306-4573"],"issn-type":[{"value":"0306-4573","type":"print"}],"subject":[],"published":{"date-parts":[[2026,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Explicit geometric relationships under limited spatial reference points guide 3D visual grounding","name":"articletitle","label":"Article Title"},{"value":"Information Processing & Management","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.ipm.2026.104720","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"104720"}}