{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,18]],"date-time":"2025-10-18T00:01:46Z","timestamp":1760745706932,"version":"build-2065373602"},"reference-count":254,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Fusion"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1016\/j.inffus.2025.103625","type":"journal-article","created":{"date-parts":[[2025,8,18]],"date-time":"2025-08-18T08:25:10Z","timestamp":1755505510000},"page":"103625","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PB","title":["Visual Grounding in 2D and 3D: A unified perspective and survey"],"prefix":"10.1016","volume":"126","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-0699-3992","authenticated-orcid":false,"given":"Keyu","family":"Guo","sequence":"first","affiliation":[]},{"given":"Yongle","family":"Huang","sequence":"additional","affiliation":[]},{"given":"Tinglei","family":"Jia","sequence":"additional","affiliation":[]},{"given":"Xiangyu","family":"Song","sequence":"additional","affiliation":[]},{"given":"Shijie","family":"Sun","sequence":"additional","affiliation":[]},{"given":"Hongkai","family":"Wei","sequence":"additional","affiliation":[]},{"given":"Xian-Feng","family":"Han","sequence":"additional","affiliation":[]},{"given":"Shuwen","family":"Huang","sequence":"additional","affiliation":[]},{"given":"Nicola","family":"Strisciuglio","sequence":"additional","affiliation":[]},{"given":"Shuyan","family":"Li","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.inffus.2025.103625_b1","article-title":"Artificial intelligence-enabled detection and assessment of Parkinson\u2019s disease using multimodal data: A survey","author":"Zhao","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103625_b2","series-title":"Mission AI: The New System Technology","first-page":"15","article-title":"Artificial intelligence: definition and background","author":"Sheikh","year":"2023"},{"issue":"4","key":"10.1016\/j.inffus.2025.103625_b3","article-title":"Artificial intelligence: A powerful paradigm for scientific research","volume":"2","author":"Xu","year":"2021","journal-title":"Innov."},{"key":"10.1016\/j.inffus.2025.103625_b4","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102806","article-title":"IF-USOD: Multimodal information fusion interactive feature enhancement architecture for underwater salient object detection","volume":"117","author":"Yuan","year":"2025","journal-title":"Inf. Fusion"},{"issue":"10","key":"10.1016\/j.inffus.2025.103625_b5","doi-asserted-by":"crossref","first-page":"284","DOI":"10.1007\/s10462-024-10825-z","article-title":"A survey on knowledge-enhanced multimodal learning","volume":"57","author":"Lymperaiou","year":"2024","journal-title":"Artif. Intell. Rev."},{"year":"2024","series-title":"Towards bridging the cross-modal semantic gap for multi-modal recommendation","author":"Wu","key":"10.1016\/j.inffus.2025.103625_b6"},{"key":"10.1016\/j.inffus.2025.103625_b7","doi-asserted-by":"crossref","unstructured":"Xuri Ge, Fuhai Chen, Songpei Xu, Fuxiang Tao, Joemon M. Jose, Cross-modal semantic enhanced interaction for image-sentence retrieval, in: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, 2023, pp. 1022\u20131031.","DOI":"10.1109\/WACV56688.2023.00108"},{"key":"10.1016\/j.inffus.2025.103625_b8","doi-asserted-by":"crossref","unstructured":"Yuxi Sun, Shanshan Feng, Xutao Li, Yunming Ye, Jian Kang, Xu Huang, Visual grounding in remote sensing images, in: Proceedings of the 30th ACM International Conference on Multimedia, 2022, pp. 404\u2013412.","DOI":"10.1145\/3503161.3548316"},{"key":"10.1016\/j.inffus.2025.103625_b9","first-page":"998","article-title":"Deconfounded visual grounding","volume":"vol. 36, no. 1","author":"Huang","year":"2022"},{"key":"10.1016\/j.inffus.2025.103625_b10","doi-asserted-by":"crossref","unstructured":"Keyu Guo, Yongle Huang, Shijie Sun, Xiangyu Song, Mingtao Feng, Zedong Liu, Huansheng Song, Tiantian Wang, Jianxin Li, Naveed Akhtar, et al., Beyond Human Perception: Understanding Multi-Object World from Monocular View, in: Proceedings of the Computer Vision and Pattern Recognition Conference, 2025, pp. 3751\u20133760.","DOI":"10.1109\/CVPR52734.2025.00355"},{"key":"10.1016\/j.inffus.2025.103625_b11","doi-asserted-by":"crossref","unstructured":"Hongkai Wei, Yang Yang, Shijie Sun, Mingtao Feng, Xiangyu Song, Qi Lei, Hongli Hu, Rong Wang, Huansheng Song, Naveed Akhtar, et al., Mono3DVLT: Monocular-Video-Based 3D Visual Language Tracking, in: Proceedings of the Computer Vision and Pattern Recognition Conference, 2025, pp. 13886\u201313896.","DOI":"10.1109\/CVPR52734.2025.01296"},{"key":"10.1016\/j.inffus.2025.103625_b12","first-page":"2618","article-title":"Multi-task visual grounding with coarse-to-fine consistency constraints","volume":"vol. 39, no. 3","author":"Dai","year":"2025"},{"issue":"4","key":"10.1016\/j.inffus.2025.103625_b13","doi-asserted-by":"crossref","first-page":"99","DOI":"10.1007\/s10462-024-10721-6","article-title":"A review of convolutional neural networks in computer vision","volume":"57","author":"Zhao","year":"2024","journal-title":"Artif. Intell. Rev."},{"key":"10.1016\/j.inffus.2025.103625_b14","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102755","article-title":"Natural language processing in finance: A survey","volume":"115","author":"Du","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103625_b15","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2022.105036","article-title":"A survey of visual navigation: From geometry to embodied AI","volume":"114","author":"Zhang","year":"2022","journal-title":"Eng. Appl. Artif. Intell."},{"year":"2023","series-title":"ViNT: A foundation model for visual navigation","author":"Shah","key":"10.1016\/j.inffus.2025.103625_b16"},{"issue":"22","key":"10.1016\/j.inffus.2025.103625_b17","doi-asserted-by":"crossref","first-page":"11457","DOI":"10.3390\/app122211457","article-title":"Deep learning for intelligent human\u2013computer interaction","volume":"12","author":"Lv","year":"2022","journal-title":"Appl. Sci."},{"issue":"13s","key":"10.1016\/j.inffus.2025.103625_b18","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3582272","article-title":"A survey on measuring cognitive workload in human-computer interaction","volume":"55","author":"Kosch","year":"2023","journal-title":"ACM Comput. Surv."},{"issue":"1","key":"10.1016\/j.inffus.2025.103625_b19","first-page":"397","article-title":"A review of supervised and unsupervised machine learning techniques for suspicious behavior recognition in intelligent surveillance system","volume":"14","author":"Verma","year":"2022","journal-title":"Int. J. Inf. Technol."},{"issue":"1","key":"10.1016\/j.inffus.2025.103625_b20","article-title":"An intelligent surveillance model for wild forest fire detection using deep learning for drone application","volume":"58","author":"Althabhawee","year":"2025","journal-title":"J. Eur. Syst. Automatis\u00e9s"},{"issue":"12","key":"10.1016\/j.inffus.2025.103625_b21","doi-asserted-by":"crossref","first-page":"22694","DOI":"10.1109\/TITS.2022.3207665","article-title":"Vision-based semantic segmentation in scene understanding for autonomous driving: Recent achievements, challenges, and outlooks","volume":"23","author":"Muhammad","year":"2022","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b22","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2022.105474","article-title":"Enhancing scene understanding based on deep learning for end-to-end autonomous driving","volume":"116","author":"Hu","year":"2022","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.inffus.2025.103625_b23","doi-asserted-by":"crossref","DOI":"10.1016\/j.compeleceng.2025.110116","article-title":"SmartTrack: Sparse multiple objects association with selective re-identification tracking","volume":"123","author":"Guo","year":"2025","journal-title":"Comput. Electr. Eng."},{"key":"10.1016\/j.inffus.2025.103625_b24","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102270","article-title":"From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities","volume":"106","author":"Ishmam","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103625_b25","doi-asserted-by":"crossref","DOI":"10.7717\/peerj-cs.1400","article-title":"The multi-modal fusion in visual question answering: a review of attention mechanisms","volume":"9","author":"Lu","year":"2023","journal-title":"PeerJ Comput. Sci."},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b26","doi-asserted-by":"crossref","first-page":"28","DOI":"10.3390\/computers11020028","article-title":"An overview of augmented reality","volume":"11","author":"Arena","year":"2022","journal-title":"Computers"},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b27","doi-asserted-by":"crossref","first-page":"1057","DOI":"10.1007\/s11831-022-09831-7","article-title":"Augmented reality: A comprehensive review","volume":"30","author":"Dargan","year":"2023","journal-title":"Arch. Comput. Methods Eng."},{"year":"2024","series-title":"Towards visual grounding: A survey","author":"Xiao","key":"10.1016\/j.inffus.2025.103625_b28"},{"year":"2024","series-title":"A survey on text-guided 3D visual grounding: elements, recent advances, and future directions","author":"Liu","key":"10.1016\/j.inffus.2025.103625_b29"},{"key":"10.1016\/j.inffus.2025.103625_b30","doi-asserted-by":"crossref","unstructured":"Fulong Ye, Yuxing Long, Fangxiang Feng, Xiaojie Wang, Whether you can locate or not? Interactive Referring Expression Generation, in: Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 4697\u20134706.","DOI":"10.1145\/3581783.3612214"},{"year":"2024","series-title":"Referring Expression Generation in Context: Combining Linguistic and Computational Approaches","author":"Same","key":"10.1016\/j.inffus.2025.103625_b31"},{"key":"10.1016\/j.inffus.2025.103625_b32","series-title":"International Conference on Machine Learning","first-page":"1931","article-title":"Unifying vision-and-language tasks via text generation","author":"Cho","year":"2021"},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b33","doi-asserted-by":"crossref","first-page":"757","DOI":"10.1016\/j.jksuci.2023.01.014","article-title":"A comprehensive review on ensemble deep learning: Opportunities and challenges","volume":"35","author":"Mohammed","year":"2023","journal-title":"J. King Saud Univ.-Comput. Inf. Sci."},{"issue":"3","key":"10.1016\/j.inffus.2025.103625_b34","doi-asserted-by":"crossref","first-page":"685","DOI":"10.1007\/s12525-021-00475-2","article-title":"Machine learning and deep learning","volume":"31","author":"Janiesch","year":"2021","journal-title":"Electron. Mark."},{"issue":"3\u20134","key":"10.1016\/j.inffus.2025.103625_b35","doi-asserted-by":"crossref","first-page":"163","DOI":"10.1561\/0600000105","article-title":"Vision-language pre-training: Basics, recent advances, and future trends","volume":"14","author":"Gan","year":"2022","journal-title":"Found. Trends\u00ae Comput. Graph. Vis."},{"issue":"1","key":"10.1016\/j.inffus.2025.103625_b36","doi-asserted-by":"crossref","first-page":"38","DOI":"10.1007\/s11633-022-1369-5","article-title":"Vlp: A survey on vision-language pre-training","volume":"20","author":"Chen","year":"2023","journal-title":"Mach. Intell. Res."},{"key":"10.1016\/j.inffus.2025.103625_b37","doi-asserted-by":"crossref","unstructured":"Jinyu Yang, Jiali Duan, Son Tran, Yi Xu, Sampath Chanda, Liqun Chen, Belinda Zeng, Trishul Chilimbi, Junzhou Huang, Vision-language pre-training with triple contrastive learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15671\u201315680.","DOI":"10.1109\/CVPR52688.2022.01522"},{"key":"10.1016\/j.inffus.2025.103625_b38","unstructured":"Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, Tamara L. Berg, MAttNet: Modular Attention Network for Referring Expression Comprehension, in: 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 1307\u20131315."},{"key":"10.1016\/j.inffus.2025.103625_b39","doi-asserted-by":"crossref","unstructured":"Dave Zhenyu Chen, Angel X. Chang, Matthias Nie\u00dfner, ScanRefer: 3D Object Localization in RGB-D Scans Using Natural Language, in: Computer Vision \u2013 ECCV 2020, 2020, pp. 202\u2013221.","DOI":"10.1007\/978-3-030-58565-5_13"},{"key":"10.1016\/j.inffus.2025.103625_b40","doi-asserted-by":"crossref","unstructured":"Jiajun Deng, Zhengyuan Yang, Tianlang Chen, Wengang Zhou, Houqiang Li, Transvg: End-to-end visual grounding with transformers, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 1769\u20131779.","DOI":"10.1109\/ICCV48922.2021.00179"},{"key":"10.1016\/j.inffus.2025.103625_b41","doi-asserted-by":"crossref","unstructured":"Junyu Luo, Jiahui Fu, Xianghao Kong, Chen Gao, Haibing Ren, Hao Shen, Huaxia Xia, Si Liu, 3d-sps: Single-stage 3d visual grounding via referred point progressive selection, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16454\u201316463.","DOI":"10.1109\/CVPR52688.2022.01596"},{"year":"2022","series-title":"Reclip: A strong zero-shot baseline for referring expression comprehension","author":"Subramanian","key":"10.1016\/j.inffus.2025.103625_b42"},{"issue":"1","key":"10.1016\/j.inffus.2025.103625_b43","doi-asserted-by":"crossref","first-page":"134","DOI":"10.1109\/TNNLS.2021.3090426","article-title":"A real-time global inference network for one-stage referring expression comprehension","volume":"34","author":"Zhou","year":"2021","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b44","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"371","article-title":"Medical phrase grounding with region-phrase context contrastive alignment","author":"Chen","year":"2023"},{"year":"2023","series-title":"A joint study of phrase grounding and task performance in vision and language models","author":"Kojima","key":"10.1016\/j.inffus.2025.103625_b45"},{"key":"10.1016\/j.inffus.2025.103625_b46","series-title":"Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, the Netherlands, October 11-14, 2016, Proceedings, Part II 14","first-page":"69","article-title":"Modeling context in referring expressions","author":"Yu","year":"2016"},{"key":"10.1016\/j.inffus.2025.103625_b47","series-title":"Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, the Netherlands, October 11\u201314, 2016, Proceedings, Part IV 14","first-page":"792","article-title":"Modeling context between objects for referring expression understanding","author":"Nagaraja","year":"2016"},{"key":"10.1016\/j.inffus.2025.103625_b48","doi-asserted-by":"crossref","unstructured":"Bryan A. Plummer, Liwei Wang, Chris M. Cervantes, Juan C. Caicedo, Julia Hockenmaier, Svetlana Lazebnik, Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models, in: Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2641\u20132649.","DOI":"10.1109\/ICCV.2015.303"},{"key":"10.1016\/j.inffus.2025.103625_b49","doi-asserted-by":"crossref","unstructured":"Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, Tamara Berg, Referitgame: Referring to objects in photographs of natural scenes, in: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pp. 787\u2013798.","DOI":"10.3115\/v1\/D14-1086"},{"issue":"4","key":"10.1016\/j.inffus.2025.103625_b50","doi-asserted-by":"crossref","first-page":"739","DOI":"10.31763\/ijrcs.v2i4.888","article-title":"Understanding of convolutional neural network (cnn): A review","volume":"2","author":"Purwono","year":"2022","journal-title":"Int. J. Robot. Control. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b51","doi-asserted-by":"crossref","unstructured":"Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770\u2013778.","DOI":"10.1109\/CVPR.2016.90"},{"issue":"1","key":"10.1016\/j.inffus.2025.103625_b52","doi-asserted-by":"crossref","first-page":"87","DOI":"10.1109\/TPAMI.2022.3152247","article-title":"A survey on vision transformer","volume":"45","author":"Han","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103625_b53","article-title":"Pointnet++: Deep hierarchical feature learning on point sets in a metric space","volume":"30","author":"Qi","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b54","doi-asserted-by":"crossref","unstructured":"Yukang Chen, Yanwei Li, Xiangyu Zhang, Jian Sun, Jiaya Jia, Focal sparse convolutional networks for 3d object detection, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 5428\u20135437.","DOI":"10.1109\/CVPR52688.2022.00535"},{"key":"10.1016\/j.inffus.2025.103625_b55","unstructured":"Christopher Choy, JunYoung Gwak, Silvio Savarese, 4d spatio-temporal convnets: Minkowski convolutional neural networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 3075\u20133084."},{"year":"2014","series-title":"Spatially-sparse convolutional neural networks","author":"Graham","key":"10.1016\/j.inffus.2025.103625_b56"},{"key":"10.1016\/j.inffus.2025.103625_b57","doi-asserted-by":"crossref","unstructured":"Jeffrey Pennington, Richard Socher, Christopher Manning, GloVe: Global Vectors for Word Representation, in: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pp. 1532\u20131543.","DOI":"10.3115\/v1\/D14-1162"},{"year":"2019","series-title":"Roberta: A robustly optimized bert pretraining approach","author":"Liu","key":"10.1016\/j.inffus.2025.103625_b58"},{"key":"10.1016\/j.inffus.2025.103625_b59","doi-asserted-by":"crossref","DOI":"10.1016\/j.jksuci.2024.102068","article-title":"RNN-LSTM: From applications to modeling techniques and beyond\u2014Systematic review","author":"Al-Selwi","year":"2024","journal-title":"J. King Saud Univ.-Comput. Inf. Sci."},{"key":"10.1016\/j.inffus.2025.103625_b60","doi-asserted-by":"crossref","DOI":"10.1016\/j.rser.2022.112700","article-title":"Short-term multi-hour ahead country-wide wind power prediction for Germany using gated recurrent unit deep learning","volume":"167","author":"Farah","year":"2022","journal-title":"Renew. Sustain. Energy Rev."},{"key":"10.1016\/j.inffus.2025.103625_b61","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"7","key":"10.1016\/j.inffus.2025.103625_b62","first-page":"579","article-title":"Multilayer perceptron and neural networks","volume":"8","author":"Popescu","year":"2009","journal-title":"WSEAS Trans. Circuits Syst."},{"key":"10.1016\/j.inffus.2025.103625_b63","doi-asserted-by":"crossref","unstructured":"Aishwarya Kamath, Mannat Singh, Yann LeCun, Gabriel Synnaeve, Ishan Misra, Nicolas Carion, Mdetr-modulated detection for end-to-end multi-modal understanding, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 1780\u20131790.","DOI":"10.1109\/ICCV48922.2021.00180"},{"key":"10.1016\/j.inffus.2025.103625_b64","doi-asserted-by":"crossref","unstructured":"Lichen Zhao, Daigang Cai, Lu Sheng, Dong Xu, 3dvg-transformer: Relation modeling for visual grounding on point clouds, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 2928\u20132937.","DOI":"10.1109\/ICCV48922.2021.00292"},{"issue":"1","key":"10.1016\/j.inffus.2025.103625_b65","doi-asserted-by":"crossref","first-page":"4","DOI":"10.1109\/TNNLS.2020.2978386","article-title":"A comprehensive survey on graph neural networks","volume":"32","author":"Wu","year":"2020","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b66","first-page":"1610","article-title":"Text-guided graph neural networks for referring 3d instance segmentation","volume":"vol. 35, no. 2","author":"Huang","year":"2021"},{"key":"10.1016\/j.inffus.2025.103625_b67","series-title":"Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part I 16","first-page":"422","article-title":"Referit3d: Neural listeners for fine-grained 3d object identification in real-world scenes","author":"Achlioptas","year":"2020"},{"key":"10.1016\/j.inffus.2025.103625_b68","series-title":"Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13\u201317, 2019, Proceedings, Part III 22","first-page":"202","article-title":"Votenet: A deep learning label fusion method for multi-atlas segmentation","author":"Ding","year":"2019"},{"key":"10.1016\/j.inffus.2025.103625_b69","doi-asserted-by":"crossref","unstructured":"Chang Liu, Henghui Ding, Xudong Jiang, Gres: Generalized referring expression segmentation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 23592\u201323601.","DOI":"10.1109\/CVPR52729.2023.02259"},{"key":"10.1016\/j.inffus.2025.103625_b70","doi-asserted-by":"crossref","unstructured":"Li Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun, Jun Liu, Meta compositional referring expression segmentation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 19478\u201319487.","DOI":"10.1109\/CVPR52729.2023.01866"},{"key":"10.1016\/j.inffus.2025.103625_b71","first-page":"26425","article-title":"Soc: Semantic-assisted object cluster for referring video object segmentation","volume":"36","author":"Luo","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b72","doi-asserted-by":"crossref","DOI":"10.1016\/j.artmed.2023.102611","article-title":"Medical visual question answering: A survey","volume":"143","author":"Lin","year":"2023","journal-title":"Artif. Intell. Med."},{"year":"2025","series-title":"EventVAD: Training-free event-aware video anomaly detection","author":"Shao","key":"10.1016\/j.inffus.2025.103625_b73"},{"year":"2016","series-title":"Multimodal compact bilinear pooling for visual question answering and visual grounding","author":"Fukui","key":"10.1016\/j.inffus.2025.103625_b74"},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b75","doi-asserted-by":"crossref","first-page":"394","DOI":"10.1109\/TPAMI.2018.2797921","article-title":"Learning two-branch neural networks for image-text matching tasks","volume":"41","author":"Wang","year":"2018","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103625_b76","doi-asserted-by":"crossref","unstructured":"Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan L Yuille, Kevin Murphy, Generation and comprehension of unambiguous object descriptions, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 11\u201320.","DOI":"10.1109\/CVPR.2016.9"},{"key":"10.1016\/j.inffus.2025.103625_b77","series-title":"Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, the Netherlands, October 11\u201314, 2016, Proceedings, Part IV 14","first-page":"792","article-title":"Modeling context between objects for referring expression understanding","author":"Nagaraja","year":"2016"},{"key":"10.1016\/j.inffus.2025.103625_b78","series-title":"Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, the Netherlands, October 11\u201314, 2016, Proceedings, Part I 14","first-page":"817","article-title":"Grounding of textual phrases in images by reconstruction","author":"Rohrbach","year":"2016"},{"key":"10.1016\/j.inffus.2025.103625_b79","doi-asserted-by":"crossref","unstructured":"Bryan A. Plummer, Paige Kordas, M. Hadi Kiapour, Shuai Zheng, Robinson Piramuthu, Svetlana Lazebnik, Conditional image-text embedding networks, in: Proceedings of the European Conference on Computer Vision, ECCV, 2018, pp. 249\u2013264.","DOI":"10.1007\/978-3-030-01258-8_16"},{"key":"10.1016\/j.inffus.2025.103625_b80","unstructured":"Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell, Kate Saenko, Modeling relationships in referential expressions with compositional modular networks, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 1115\u20131124."},{"key":"10.1016\/j.inffus.2025.103625_b81","doi-asserted-by":"crossref","unstructured":"Kan Chen, Jiyang Gao, Ram Nevatia, Knowledge aided consistency for weakly supervised phrase grounding, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4042\u20134050.","DOI":"10.1109\/CVPR.2018.00425"},{"issue":"3","key":"10.1016\/j.inffus.2025.103625_b82","first-page":"3003","article-title":"Entity-enhanced adaptive reconstruction network for weakly supervised referring expression grounding","volume":"45","author":"Liu","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103625_b83","doi-asserted-by":"crossref","unstructured":"Xuejing Liu, Liang Li, Shuhui Wang, Zheng-Jun Zha, Li Su, Qingming Huang, Knowledge-guided pairwise reconstruction network for weakly supervised referring expression grounding, in: Proceedings of the 27th ACM International Conference on Multimedia, 2019, pp. 539\u2013547.","DOI":"10.1145\/3343031.3351074"},{"key":"10.1016\/j.inffus.2025.103625_b84","doi-asserted-by":"crossref","unstructured":"Sibei Yang, Guanbin Li, Yizhou Yu, Dynamic graph attention for referring expression comprehension, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 4644\u20134653.","DOI":"10.1109\/ICCV.2019.00474"},{"key":"10.1016\/j.inffus.2025.103625_b85","doi-asserted-by":"crossref","unstructured":"Bohan Zhuang, Qi Wu, Chunhua Shen, Ian Reid, Anton Van Den Hengel, Parallel attention: A unified framework for visual object discovery through dialogs and queries, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4252\u20134261.","DOI":"10.1109\/CVPR.2018.00447"},{"key":"10.1016\/j.inffus.2025.103625_b86","doi-asserted-by":"crossref","unstructured":"Peng Wang, Qi Wu, Jiewei Cao, Chunhua Shen, Lianli Gao, Anton van den Hengel, Neighbourhood watch: Referring expression comprehension via language-guided graph attention networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 1960\u20131968.","DOI":"10.1109\/CVPR.2019.00206"},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b87","doi-asserted-by":"crossref","first-page":"684","DOI":"10.1109\/TPAMI.2019.2911066","article-title":"Learning to compose and reason with language tree structures for visual grounding","volume":"44","author":"Hong","year":"2019","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103625_b88","doi-asserted-by":"crossref","unstructured":"Xuejing Liu, Liang Li, Shuhui Wang, Zheng-Jun Zha, Dechao Meng, Qingming Huang, Adaptive reconstruction network for weakly supervised referring expression grounding, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 2611\u20132620.","DOI":"10.1109\/ICCV.2019.00270"},{"key":"10.1016\/j.inffus.2025.103625_b89","doi-asserted-by":"crossref","unstructured":"Chaorui Deng, Qi Wu, Qingyao Wu, Fuyuan Hu, Fan Lyu, Mingkui Tan, Visual grounding via accumulated attention, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 7746\u20137755.","DOI":"10.1109\/CVPR.2018.00808"},{"key":"10.1016\/j.inffus.2025.103625_b90","doi-asserted-by":"crossref","unstructured":"Samyak Datta, Karan Sikka, Anirban Roy, Karuna Ahuja, Devi Parikh, Ajay Divakaran, Align2ground: Weakly supervised phrase grounding guided by image-caption alignment, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 2601\u20132610.","DOI":"10.1109\/ICCV.2019.00269"},{"key":"10.1016\/j.inffus.2025.103625_b91","first-page":"18123","article-title":"Counterfactual contrastive learning for weakly-supervised vision-language grounding","volume":"33","author":"Zhang","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b92","doi-asserted-by":"crossref","unstructured":"Liwei Wang, Jing Huang, Yin Li, Kun Xu, Zhengyuan Yang, Dong Yu, Improving weakly supervised visual grounding by contrastive knowledge distillation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 14090\u201314100.","DOI":"10.1109\/CVPR46437.2021.01387"},{"key":"10.1016\/j.inffus.2025.103625_b93","unstructured":"Jingyu Liu, Liang Wang, Ming-Hsuan Yang, Referring expression generation and comprehension via attributes, in: Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 4856\u20134864."},{"key":"10.1016\/j.inffus.2025.103625_b94","unstructured":"Ruotian Luo, Gregory Shakhnarovich, Comprehension-guided referring expressions, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 7102\u20137111."},{"key":"10.1016\/j.inffus.2025.103625_b95","doi-asserted-by":"crossref","unstructured":"Xihui Liu, Zihao Wang, Jing Shao, Xiaogang Wang, Hongsheng Li, Improving referring expression grounding with cross-modal attention-guided erasing, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 1950\u20131959.","DOI":"10.1109\/CVPR.2019.00205"},{"key":"10.1016\/j.inffus.2025.103625_b96","series-title":"Computer Vision\u2013ACCV 2018: 14th Asian Conference on Computer Vision, Perth, Australia, December 2\u20136, 2018, Revised Selected Papers, Part IV 14","first-page":"451","article-title":"Pirc net: Using proposal indexing, relationships and context for phrase grounding","author":"Kovvuri","year":"2019"},{"year":"2018","series-title":"Rethinking diversified and discriminative proposal generation for visual grounding","author":"Yu","key":"10.1016\/j.inffus.2025.103625_b97"},{"key":"10.1016\/j.inffus.2025.103625_b98","doi-asserted-by":"crossref","unstructured":"Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang, Bottom-up and top-down attention for image captioning and visual question answering, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6077\u20136086.","DOI":"10.1109\/CVPR.2018.00636"},{"year":"2024","series-title":"Actress: Active retraining for semi-supervised visual grounding","author":"Kang","key":"10.1016\/j.inffus.2025.103625_b99"},{"key":"10.1016\/j.inffus.2025.103625_b100","doi-asserted-by":"crossref","unstructured":"Haojun Jiang, Yuanze Lin, Dongchen Han, Shiji Song, Gao Huang, Pseudo-q: Generating pseudo language queries for visual grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15513\u201315523.","DOI":"10.1109\/CVPR52688.2022.01507"},{"key":"10.1016\/j.inffus.2025.103625_b101","article-title":"MCCE-REC: MLLM-driven cross-modal contrastive entropy model for zero-shot referring expression comprehension","author":"Qiu","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.inffus.2025.103625_b102","series-title":"European Conference on Computer Vision","first-page":"198","article-title":"Contrastive region guidance: Improving grounding in vision-language models without training","author":"Wan","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b103","doi-asserted-by":"crossref","unstructured":"Zeyu Han, Fangrui Zhu, Qianru Lao, Huaizu Jiang, Zero-shot referring expression comprehension via structural similarity between images and captions, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 14364\u201314374.","DOI":"10.1109\/CVPR52733.2024.01362"},{"key":"10.1016\/j.inffus.2025.103625_b104","first-page":"4766","article-title":"Groundvlp: Harnessing zero-shot visual grounding from vision-language pre-training and open-vocabulary object detection","volume":"vol. 38, no. 5","author":"Shen","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b105","series-title":"2024 International Joint Conference on Neural Networks","first-page":"1","article-title":"PSAIR: A neuro-symbolic approach to zero-shot visual grounding","author":"Pan","year":"2024"},{"year":"2023","series-title":"Language models can do zero-shot visual referring expression comprehension","author":"Sui","key":"10.1016\/j.inffus.2025.103625_b106"},{"key":"10.1016\/j.inffus.2025.103625_b107","doi-asserted-by":"crossref","first-page":"30","DOI":"10.1016\/j.aiopen.2024.01.004","article-title":"Cpt: Colorful prompt tuning for pre-trained vision-language models","volume":"5","author":"Yao","year":"2024","journal-title":"AI Open"},{"key":"10.1016\/j.inffus.2025.103625_b108","first-page":"19652","article-title":"Referring transformer: A one-step approach to multi-task visual grounding","volume":"34","author":"Li","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b109","series-title":"European Conference on Computer Vision","first-page":"598","article-title":"Seqtr: A simple yet universal network for visual grounding","author":"Zhu","year":"2022"},{"key":"10.1016\/j.inffus.2025.103625_b110","doi-asserted-by":"crossref","unstructured":"Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha, Polyformer: Referring image segmentation as sequential polygon generation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 18653\u201318663.","DOI":"10.1109\/CVPR52729.2023.01789"},{"issue":"8","key":"10.1016\/j.inffus.2025.103625_b111","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3660638","article-title":"Uniqrnet: Unifying referring expression grounding and segmentation with qrnet","volume":"20","author":"Ye","year":"2024","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl."},{"year":"2025","series-title":"Multi-task visual grounding with coarse-to-fine consistency constraints","author":"Dai","key":"10.1016\/j.inffus.2025.103625_b112"},{"key":"10.1016\/j.inffus.2025.103625_b113","doi-asserted-by":"crossref","unstructured":"Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu, Hivg: Hierarchical multimodal fine-grained modulation for visual grounding, in: Proceedings of the 32nd ACM International Conference on Multimedia, 2024, pp. 5460\u20135469.","DOI":"10.1145\/3664647.3681071"},{"key":"10.1016\/j.inffus.2025.103625_b114","first-page":"2357","article-title":"Referring expression comprehension using language adaptive inference","volume":"vol. 37, no. 2","author":"Su","year":"2023"},{"key":"10.1016\/j.inffus.2025.103625_b115","doi-asserted-by":"crossref","unstructured":"Ruilin Yao, Shengwu Xiong, Yichen Zhao, Yi Rong, Visual Grounding with Multi-modal Conditional Adaptation, in: Proceedings of the 32nd ACM International Conference on Multimedia, 2024, pp. 3877\u20133886.","DOI":"10.1145\/3664647.3681256"},{"key":"10.1016\/j.inffus.2025.103625_b116","unstructured":"Jiabo Ye, Junfeng Tian, Ming Yan, Xiaoshan Yang, Xuwu Wang, Ji Zhang, Liang He, Xin Lin, Shifting more attention to visual backbone: Query-modulated refinement networks for end-to-end visual grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15502\u201315512."},{"key":"10.1016\/j.inffus.2025.103625_b117","doi-asserted-by":"crossref","unstructured":"Wei Su, Peihan Miao, Huanzhang Dou, Gaoang Wang, Liang Qiao, Zheyang Li, Xi Li, Language adaptive weight generation for multi-task visual grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 10857\u201310866.","DOI":"10.1109\/CVPR52729.2023.01045"},{"key":"10.1016\/j.inffus.2025.103625_b118","article-title":"Language-guided progressive attention for visual grounding in remote sensing images","author":"Li","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2025.103625_b119","first-page":"1","article-title":"Rsvg: Exploring data and models for visual grounding on remote sensing data","volume":"61","author":"Zhan","year":"2023","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2025.103625_b120","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"371","article-title":"Medical phrase grounding with region-phrase context contrastive alignment","author":"Chen","year":"2023"},{"key":"10.1016\/j.inffus.2025.103625_b121","doi-asserted-by":"crossref","unstructured":"Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Liujuan Cao, Chenglin Wu, Cheng Deng, Rongrong Ji, Multi-task collaborative network for joint referring expression comprehension and segmentation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10034\u201310043.","DOI":"10.1109\/CVPR42600.2020.01005"},{"key":"10.1016\/j.inffus.2025.103625_b122","first-page":"121670","article-title":"Simvg: A simple framework for visual grounding with decoupled multi-modal fusion","volume":"37","author":"Dai","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b123","doi-asserted-by":"crossref","unstructured":"Bhathiya Hemanthage, Hakan Bilen, Phil Bartie, Christian Dondrup, Oliver Lemon, RECANTFormer: Referring Expression Comprehension with Varying Numbers of Targets, in: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024, pp. 21784\u201321798.","DOI":"10.18653\/v1\/2024.emnlp-main.1214"},{"key":"10.1016\/j.inffus.2025.103625_b124","series-title":"European Conference on Computer Vision","first-page":"125","article-title":"An efficient and effective transformer decoder-based framework for multi-task visual grounding","author":"Chen","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b125","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128227","article-title":"Improving visual grounding with multi-modal interaction and auto-regressive vertex generation","volume":"598","author":"Qin","year":"2024","journal-title":"Neurocomputing"},{"key":"10.1016\/j.inffus.2025.103625_b126","article-title":"Using syntax to ground referring expressions in natural images","volume":"vol. 32, no. 1","author":"Cirik","year":"2018"},{"key":"10.1016\/j.inffus.2025.103625_b127","doi-asserted-by":"crossref","unstructured":"Bin Yan, Yi Jiang, Jiannan Wu, Dong Wang, Ping Luo, Zehuan Yuan, Huchuan Lu, Universal instance perception as object discovery and retrieval, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 15325\u201315336.","DOI":"10.1109\/CVPR52729.2023.01471"},{"key":"10.1016\/j.inffus.2025.103625_b128","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128621","article-title":"Zero-shot visual grounding via coarse-to-fine representation learning","volume":"610","author":"Mi","year":"2024","journal-title":"Neurocomputing"},{"year":"2025","series-title":"Hierarchical alignment-enhanced adaptive grounding network for generalized referring expression comprehension","author":"Wang","key":"10.1016\/j.inffus.2025.103625_b129"},{"key":"10.1016\/j.inffus.2025.103625_b130","first-page":"4452","article-title":"Multi-modal queried object detection in the wild","volume":"36","author":"Xu","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b131","doi-asserted-by":"crossref","DOI":"10.1016\/j.ins.2024.121709","article-title":"Resmatch: Referring expression segmentation in a semi-supervised manner","volume":"694","author":"Zang","year":"2025","journal-title":"Inform. Sci."},{"key":"10.1016\/j.inffus.2025.103625_b132","doi-asserted-by":"crossref","unstructured":"Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, et al., Grounded language-image pre-training, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10965\u201310975.","DOI":"10.1109\/CVPR52688.2022.01069"},{"key":"10.1016\/j.inffus.2025.103625_b133","first-page":"36067","article-title":"Glipv2: Unifying localization and vision-language understanding","volume":"35","author":"Zhang","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"11","key":"10.1016\/j.inffus.2025.103625_b134","doi-asserted-by":"crossref","first-page":"13636","DOI":"10.1109\/TPAMI.2023.3296823","article-title":"Transvg++: End-to-end visual grounding with language conditioned vision transformer","volume":"45","author":"Deng","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"5","key":"10.1016\/j.inffus.2025.103625_b135","doi-asserted-by":"crossref","first-page":"3213","DOI":"10.1109\/TPAMI.2023.3339628","article-title":"Context disentangling and prototype inheriting for robust visual grounding","volume":"46","author":"Tang","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103625_b136","first-page":"20522","article-title":"Language conditioned spatial relation reasoning for 3d object grounding","volume":"35","author":"Chen","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b137","series-title":"Conference on Robot Learning","first-page":"1046","article-title":"Languagerefer: Spatial-language model for 3d visual grounding","author":"Roh","year":"2022"},{"key":"10.1016\/j.inffus.2025.103625_b138","series-title":"2024 20th CSI International Symposium on Artificial Intelligence and Signal Processing","first-page":"1","article-title":"A transformer-based framework for visual grounding on 3d point clouds","author":"Solgi","year":"2024"},{"year":"2022","series-title":"Ham: Hierarchical attention model with high performance for 3d visual grounding","author":"Chen","key":"10.1016\/j.inffus.2025.103625_b139"},{"key":"10.1016\/j.inffus.2025.103625_b140","series-title":"European Conference on Computer Vision","first-page":"196","article-title":"Four ways to improve verbo-visual fusion for dense 3d visual grounding","author":"Unal","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b141","doi-asserted-by":"crossref","unstructured":"Chun-Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker, MiKASA: Multi-key-anchor & scene-aware transformer for 3d visual grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 14131\u201314140.","DOI":"10.1109\/CVPR52733.2024.01340"},{"key":"10.1016\/j.inffus.2025.103625_b142","doi-asserted-by":"crossref","unstructured":"Ahmed Abdelreheem, Ujjwal Upadhyay, Ivan Skorokhodov, Rawan Al Yahya, Jun Chen, Mohamed Elhoseiny, 3dreftransformer: Fine-grained object identification in real-world scenes using natural language, in: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, 2022, pp. 3941\u20133950.","DOI":"10.1109\/WACV51458.2022.00068"},{"key":"10.1016\/j.inffus.2025.103625_b143","doi-asserted-by":"crossref","unstructured":"Can Xu, Yuehui Han, Rui Xu, Le Hui, Jin Xie, Jian Yang, Multi-Attribute Interactions Matter for 3D Visual Grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 17253\u201317262.","DOI":"10.1109\/CVPR52733.2024.01633"},{"key":"10.1016\/j.inffus.2025.103625_b144","doi-asserted-by":"crossref","unstructured":"Yiming Zhang, ZeMing Gong, Angel X. Chang, Multi3drefer: Grounding text description to multiple 3d objects, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 15225\u201315236.","DOI":"10.1109\/ICCV51070.2023.01397"},{"key":"10.1016\/j.inffus.2025.103625_b145","doi-asserted-by":"crossref","unstructured":"Chang Liu, Henghui Ding, Xudong Jiang, Gres: Generalized referring expression segmentation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 23592\u201323601.","DOI":"10.1109\/CVPR52729.2023.02259"},{"key":"10.1016\/j.inffus.2025.103625_b146","unstructured":"Daigang Cai, Lichen Zhao, Jing Zhang, Lu Sheng, Dong Xu, 3djcg: A unified framework for joint dense captioning and visual grounding on 3d point clouds, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16464\u201316473."},{"key":"10.1016\/j.inffus.2025.103625_b147","series-title":"European Conference on Computer Vision","first-page":"487","article-title":"D 3 net: A unified speaker-listener architecture for 3d dense captioning and visual grounding","author":"Chen","year":"2022"},{"year":"2024","series-title":"SeCG: Semantic-enhanced 3D visual grounding via cross-modal graph attention","author":"Xiao","key":"10.1016\/j.inffus.2025.103625_b148"},{"key":"10.1016\/j.inffus.2025.103625_b149","doi-asserted-by":"crossref","unstructured":"Mingtao Feng, Zhen Li, Qi Li, Liang Zhang, XiangDong Zhang, Guangming Zhu, Hui Zhang, Yaonan Wang, Ajmal Mian, Free-form description guided 3d visual graph network for object grounding in point cloud, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 3722\u20133731.","DOI":"10.1109\/ICCV48922.2021.00370"},{"key":"10.1016\/j.inffus.2025.103625_b150","first-page":"49542","article-title":"Exploiting contextual objects and relations for 3d visual grounding","volume":"36","author":"Yang","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"year":"2023","series-title":"Cot3dref: Chain-of-thoughts data-efficient 3d visual grounding","author":"Abdelrahman","key":"10.1016\/j.inffus.2025.103625_b151"},{"key":"10.1016\/j.inffus.2025.103625_b152","series-title":"Dora: 3d visual grounding with order-aware referring","first-page":"arXiv","author":"Wu","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b153","doi-asserted-by":"crossref","unstructured":"Joy Hsu, Jiayuan Mao, Jiajun Wu, Ns3d: Neuro-symbolic grounding of 3d objects and relations, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 2614\u20132623.","DOI":"10.1109\/CVPR52729.2023.00257"},{"key":"10.1016\/j.inffus.2025.103625_b154","series-title":"European Conference on Computer Vision","first-page":"188","article-title":"Unifying 3d vision-language understanding via promptable queries","author":"Zhu","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b155","doi-asserted-by":"crossref","unstructured":"Xiangxi Shi, Zhonghua Wu, Stefan Lee, Viewpoint-Aware Visual Grounding in 3D Scenes, in: 2024 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2024, pp. 14056\u201314065.","DOI":"10.1109\/CVPR52733.2024.01333"},{"key":"10.1016\/j.inffus.2025.103625_b156","series-title":"European Conference on Computer Vision","first-page":"213","article-title":"End-to-end object detection with transformers","author":"Carion","year":"2020"},{"key":"10.1016\/j.inffus.2025.103625_b157","series-title":"European Conference on Computer Vision","first-page":"417","article-title":"Bottom up top down detection transformers for language grounding in images and point clouds","author":"Jain","year":"2022"},{"key":"10.1016\/j.inffus.2025.103625_b158","doi-asserted-by":"crossref","unstructured":"Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang, Eda: Explicit text-decoupling and dense alignment for 3d visual grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 19231\u201319242.","DOI":"10.1109\/CVPR52729.2023.01843"},{"key":"10.1016\/j.inffus.2025.103625_b159","doi-asserted-by":"crossref","unstructured":"Yuan Wang, Yali Li, Shengjin Wang, \u011c 3-LQ: Marrying Hyperbolic Alignment with Explicit Semantic-Geometric Modeling for 3D Visual Grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 13917\u201313926.","DOI":"10.1109\/CVPR52733.2024.01320"},{"year":"2023","series-title":"3Drp-net: 3d relative position-aware network for 3d visual grounding","author":"Wang","key":"10.1016\/j.inffus.2025.103625_b160"},{"key":"10.1016\/j.inffus.2025.103625_b161","first-page":"5940","article-title":"3D-stmn: Dependency-driven superpoint-text matching network for end-to-end 3d referring expression segmentation","volume":"vol. 38, no. 6","author":"Wu","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b162","series-title":"Text-guided sparse voxel pruning for efficient 3D visual grounding","first-page":"arXiv","author":"Guo","year":"2025"},{"year":"2023","series-title":"A comprehensive overview of large language models","author":"Naveed","key":"10.1016\/j.inffus.2025.103625_b163"},{"issue":"3","key":"10.1016\/j.inffus.2025.103625_b164","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3641289","article-title":"A survey on evaluation of large language models","volume":"15","author":"Chang","year":"2024","journal-title":"ACM Trans. Intell. Syst. Technol."},{"year":"2024","series-title":"Llm-optic: Unveiling the capabilities of large language models for universal visual grounding","author":"Zhao","key":"10.1016\/j.inffus.2025.103625_b165"},{"year":"2025","series-title":"Visual position prompt for MLLM based visual grounding","author":"Tang","key":"10.1016\/j.inffus.2025.103625_b166"},{"key":"10.1016\/j.inffus.2025.103625_b167","series-title":"European Conference on Computer Vision","first-page":"19","article-title":"Llava-grounding: Grounded visual chat with large multimodal models","author":"Zhang","year":"2024"},{"year":"2023","series-title":"Enhancing visual grounding and generalization: A multi-task cycle training approach for vision-language models","author":"Yang","key":"10.1016\/j.inffus.2025.103625_b168"},{"key":"10.1016\/j.inffus.2025.103625_b169","series-title":"2024 IEEE International Conference on Robotics and Automation","first-page":"7694","article-title":"Llm-grounder: Open-vocabulary 3d visual grounding with large language model as an agent","author":"Yang","year":"2024"},{"year":"2024","series-title":"Grounded 3d-llm with referent tokens","author":"Chen","key":"10.1016\/j.inffus.2025.103625_b170"},{"year":"2024","series-title":"3D-grand: A million-scale dataset for 3d-llms with better grounding and less hallucination","author":"Yang","key":"10.1016\/j.inffus.2025.103625_b171"},{"key":"10.1016\/j.inffus.2025.103625_b172","series-title":"2025 IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"3107","article-title":"Data-efficient 3D visual grounding via order-aware referring","author":"Wu","year":"2025"},{"key":"10.1016\/j.inffus.2025.103625_b173","doi-asserted-by":"crossref","unstructured":"Zoey Guo, Yiwen Tang, Ray Zhang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li, Viewrefer: Grasp the multi-view knowledge for 3d visual grounding, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 15372\u201315383.","DOI":"10.1109\/ICCV51070.2023.01410"},{"key":"10.1016\/j.inffus.2025.103625_b174","series-title":"ICCV","first-page":"1791","article-title":"Instancerefer: Cooperative holistic understanding for visual grounding on point clouds through instance multi-level contextual referring","author":"Yuan","year":"2021"},{"key":"10.1016\/j.inffus.2025.103625_b175","series-title":"2024 International Conference on 3D Vision","first-page":"717","article-title":"Cross3dvg: Cross-dataset 3d visual grounding on different rgb-d scans","author":"Miyanishi","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b176","series-title":"International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.inffus.2025.103625_b177","series-title":"European Conference on Computer Vision","first-page":"38","article-title":"Grounding dino: Marrying dino with grounded pre-training for open-set object detection","author":"Liu","year":"2024"},{"year":"2024","series-title":"BIP3D: Bridging 2D images and 3D perception for embodied intelligence","author":"Lin","key":"10.1016\/j.inffus.2025.103625_b178"},{"key":"10.1016\/j.inffus.2025.103625_b179","doi-asserted-by":"crossref","unstructured":"Zhengyuan Yang, Songyang Zhang, Liwei Wang, Jiebo Luo, Sat: 2d semantics assisted training for 3d visual grounding, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 1856\u20131866.","DOI":"10.1109\/ICCV48922.2021.00187"},{"key":"10.1016\/j.inffus.2025.103625_b180","first-page":"37146","article-title":"Look around and refer: 2d synthetic semantics knowledge distillation for 3d visual grounding","volume":"35","author":"Bakr","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b181","doi-asserted-by":"crossref","unstructured":"Renrui Zhang, Han Qiu, Tai Wang, Ziyu Guo, Ziteng Cui, Yu Qiao, Hongsheng Li, Peng Gao, Monodetr: Depth-guided transformer for monocular 3d object detection, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 9155\u20139166.","DOI":"10.1109\/ICCV51070.2023.00840"},{"key":"10.1016\/j.inffus.2025.103625_b182","first-page":"6988","article-title":"Mono3dvg: 3d visual grounding in monocular images","volume":"vol. 38, no. 7","author":"Zhan","year":"2024"},{"issue":"1","key":"10.1016\/j.inffus.2025.103625_b183","doi-asserted-by":"crossref","DOI":"10.1049\/ipr2.13315","article-title":"Bootstrapping vision\u2013language transformer for monocular 3D visual grounding","volume":"19","author":"Lei","year":"2025","journal-title":"IET Image Process."},{"key":"10.1016\/j.inffus.2025.103625_b184","doi-asserted-by":"crossref","unstructured":"Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, Tamara Berg, Referitgame: Referring to objects in photographs of natural scenes, in: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pp. 787\u2013798.","DOI":"10.3115\/v1\/D14-1086"},{"key":"10.1016\/j.inffus.2025.103625_b185","doi-asserted-by":"crossref","unstructured":"Bryan A. Plummer, Liwei Wang, Chris M. Cervantes, Juan C. Caicedo, Julia Hockenmaier, Svetlana Lazebnik, Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models, in: Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2641\u20132649.","DOI":"10.1109\/ICCV.2015.303"},{"key":"10.1016\/j.inffus.2025.103625_b186","doi-asserted-by":"crossref","unstructured":"Yuke Zhu, Oliver Groth, Michael Bernstein, Li Fei-Fei, Visual7w: Grounded question answering in images, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 4995\u20135004.","DOI":"10.1109\/CVPR.2016.540"},{"key":"10.1016\/j.inffus.2025.103625_b187","doi-asserted-by":"crossref","unstructured":"Harm De Vries, Florian Strub, Sarath Chandar, Olivier Pietquin, Hugo Larochelle, Aaron Courville, Guesswhat?! visual object discovery through multi-modal dialogue, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5503\u20135512.","DOI":"10.1109\/CVPR.2017.475"},{"key":"10.1016\/j.inffus.2025.103625_b188","doi-asserted-by":"crossref","unstructured":"Runtao Liu, Chenxi Liu, Yutong Bai, Alan L. Yuille, Clevr-ref+: Diagnosing visual reasoning with referring expressions, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4185\u20134194.","DOI":"10.1109\/CVPR.2019.00431"},{"key":"10.1016\/j.inffus.2025.103625_b189","doi-asserted-by":"crossref","unstructured":"Zhenfang Chen, Peng Wang, Lin Ma, Kwan-Yee K. Wong, Qi Wu, Cops-ref: A new dataset and task on compositional referring expression comprehension, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10086\u201310095.","DOI":"10.1109\/CVPR42600.2020.01010"},{"key":"10.1016\/j.inffus.2025.103625_b190","doi-asserted-by":"crossref","unstructured":"Volkan Cirik, Taylor Berg-Kirkpatrick, Louis-Philippe Morency, Refer360\u2218: A Referring Expression Recognition Dataset in 360\u2218 Images, in: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 7189\u20137202.","DOI":"10.18653\/v1\/2020.acl-main.644"},{"key":"10.1016\/j.inffus.2025.103625_b191","doi-asserted-by":"crossref","unstructured":"Chang Liu, Henghui Ding, Xudong Jiang, Gres: Generalized referring expression segmentation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 23592\u201323601.","DOI":"10.1109\/CVPR52729.2023.02259"},{"key":"10.1016\/j.inffus.2025.103625_b192","unstructured":"Yutao Hu, Qixiong Wang, Wenqi Shao, Enze Xie, Zhenguo Li, Jungong Han, Ping Luo, Beyond one-to-one: Rethinking the referring image segmentation, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 4067\u20134077."},{"year":"2023","series-title":"Ferret: Refer and ground anything anywhere at any granularity","author":"You","key":"10.1016\/j.inffus.2025.103625_b193"},{"key":"10.1016\/j.inffus.2025.103625_b194","series-title":"European Conference on Computer Vision","first-page":"19","article-title":"Llava-grounding: Grounded visual chat with large multimodal models","author":"Zhang","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b195","doi-asserted-by":"crossref","unstructured":"Tao Ma, Bing Bai, Haozhe Lin, Heyuan Wang, Yu Wang, Lin Luo, Lu Fang, When visual grounding meets gigapixel-level large-scale scenes: benchmark and approach, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 22119\u201322128.","DOI":"10.1109\/CVPR52733.2024.02088"},{"key":"10.1016\/j.inffus.2025.103625_b196","first-page":"69566","article-title":"A large-scale human-centric benchmark for referring expression comprehension in the LMM era","volume":"37","author":"Wei","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"year":"2024","series-title":"Revisiting referring expression comprehension evaluation in the era of large multimodal models","author":"Chen","key":"10.1016\/j.inffus.2025.103625_b197"},{"year":"2024","series-title":"Mc-bench: A benchmark for multi-context visual grounding in the era of mllms","author":"Xu","key":"10.1016\/j.inffus.2025.103625_b198"},{"year":"2024","series-title":"Dino-x: A unified vision model for open-world object detection and understanding","author":"Ren","key":"10.1016\/j.inffus.2025.103625_b199"},{"year":"2024","series-title":"FineCops-Ref: A new dataset and task for fine-grained compositional referring expression comprehension","author":"Liu","key":"10.1016\/j.inffus.2025.103625_b200"},{"key":"10.1016\/j.inffus.2025.103625_b201","series-title":"2025 IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"8057","article-title":"Learning visual grounding from generative vision and language model","author":"Wang","year":"2025"},{"year":"2025","series-title":"RefDrone: A challenging benchmark for referring expression comprehension in drone scenes","author":"Sun","key":"10.1016\/j.inffus.2025.103625_b202"},{"key":"10.1016\/j.inffus.2025.103625_b203","doi-asserted-by":"crossref","unstructured":"Justin Johnson, Bharath Hariharan, Laurens Van Der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick, Clevr: A diagnostic dataset for compositional language and elementary visual reasoning, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2901\u20132910.","DOI":"10.1109\/CVPR.2017.215"},{"key":"10.1016\/j.inffus.2025.103625_b204","series-title":"Gqa: a new dataset for compositional question answering over real-world images","first-page":"1","author":"Hudson","year":"2019"},{"key":"10.1016\/j.inffus.2025.103625_b205","article-title":"The iapr tc-12 benchmark: A new evaluation resource for visual information systems","volume":"vol. 2","author":"Grubinger","year":"2006"},{"key":"10.1016\/j.inffus.2025.103625_b206","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","article-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions","volume":"2","author":"Young","year":"2014","journal-title":"Trans. Assoc. Comput. Linguist."},{"key":"10.1016\/j.inffus.2025.103625_b207","series-title":"Computer Vision\u2013ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.inffus.2025.103625_b208","unstructured":"Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang Cui, Refer-it-in-rgbd: A bottom-up approach for 3d visual grounding in rgbd images, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 6032\u20136041."},{"year":"2022","series-title":"Toward explainable and fine-grained 3d grounding through referring textual phrases","author":"Yuan","key":"10.1016\/j.inffus.2025.103625_b209"},{"year":"2024","series-title":"VLA-3D: A dataset for 3D semantic scene understanding and navigation","author":"Zhang","key":"10.1016\/j.inffus.2025.103625_b210"},{"year":"2023","series-title":"CityRefer: geography-aware 3D visual grounding dataset on city-scale point cloud data","author":"Miyanishi","key":"10.1016\/j.inffus.2025.103625_b211"},{"key":"10.1016\/j.inffus.2025.103625_b212","series-title":"Findings of the Association for Computational Linguistics: EMNLP 2023","first-page":"784","article-title":"Arkitscenerefer: Text-based localization of small objects in diverse real-world 3d indoor scenes","author":"Kato","year":"2023"},{"key":"10.1016\/j.inffus.2025.103625_b213","series-title":"European Conference on Computer Vision","first-page":"289","article-title":"Sceneverse: Scaling 3d vision-language learning for grounded scene understanding","author":"Jia","year":"2024"},{"year":"2024","series-title":"Task-oriented sequential grounding in 3d scenes","author":"Zhang","key":"10.1016\/j.inffus.2025.103625_b214"},{"year":"2023","series-title":"Pali-3 vision language models: Smaller, faster, stronger","author":"Chen","key":"10.1016\/j.inffus.2025.103625_b215"},{"key":"10.1016\/j.inffus.2025.103625_b216","doi-asserted-by":"crossref","unstructured":"Shuai Shao, Zeming Li, Tianyuan Zhang, Chao Peng, Gang Yu, Xiangyu Zhang, Jing Li, Jian Sun, Objects365: A large-scale, high-quality dataset for object detection, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 8430\u20138439.","DOI":"10.1109\/ICCV.2019.00852"},{"key":"10.1016\/j.inffus.2025.103625_b217","doi-asserted-by":"crossref","unstructured":"Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, et al., Segment anything, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 4015\u20134026.","DOI":"10.1109\/ICCV51070.2023.00371"},{"issue":"6","key":"10.1016\/j.inffus.2025.103625_b218","doi-asserted-by":"crossref","first-page":"192","DOI":"10.3390\/fi15060192","article-title":"Chatgpt and open-ai models: A preliminary review","volume":"15","author":"Roumeliotis","year":"2023","journal-title":"Futur. Internet"},{"key":"10.1016\/j.inffus.2025.103625_b219","unstructured":"Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nie\u00dfner, Scannet: Richly-annotated 3d reconstructions of indoor scenes, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5828\u20135839."},{"key":"10.1016\/j.inffus.2025.103625_b220","doi-asserted-by":"crossref","unstructured":"Shuran Song, Samuel P. Lichtenberg, Jianxiong Xiao, Sun rgb-d: A rgb-d scene understanding benchmark suite, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 567\u2013576.","DOI":"10.1109\/CVPR.2015.7298655"},{"year":"2021","series-title":"Arkitscenes: A diverse real-world dataset for 3d indoor scene understanding using mobile rgb-d data","author":"Baruch","key":"10.1016\/j.inffus.2025.103625_b221"},{"key":"10.1016\/j.inffus.2025.103625_b222","series-title":"Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part VII 16","first-page":"467","article-title":"Beyond controlled environments: 3d camera re-localization in changing indoor scenes","author":"Wald","year":"2020"},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b223","doi-asserted-by":"crossref","first-page":"316","DOI":"10.1007\/s11263-021-01554-9","article-title":"Sensaturban: Learning semantics from urban-scale photogrammetric point clouds","volume":"130","author":"Hu","year":"2022","journal-title":"Int. J. Comput. Vis."},{"key":"10.1016\/j.inffus.2025.103625_b224","series-title":"2012 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3354","article-title":"Are we ready for autonomous driving? the kitti vision benchmark suite","author":"Geiger","year":"2012"},{"key":"10.1016\/j.inffus.2025.103625_b225","doi-asserted-by":"crossref","unstructured":"Hanwang Zhang, Yulei Niu, Shih-Fu Chang, Grounding referring expressions in images by variational context, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4158\u20134166.","DOI":"10.1109\/CVPR.2018.00437"},{"key":"10.1016\/j.inffus.2025.103625_b226","unstructured":"Daqing Liu, Hanwang Zhang, Feng Wu, Zheng-Jun Zha, Learning to assemble neural module tree networks for visual grounding, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 4673\u20134682."},{"key":"10.1016\/j.inffus.2025.103625_b227","series-title":"European Conference on Computer Vision","first-page":"104","article-title":"Uniter: Universal image-text representation learning","author":"Chen","year":"2020"},{"key":"10.1016\/j.inffus.2025.103625_b228","first-page":"6616","article-title":"Large-scale adversarial training for vision-and-language representation learning","volume":"33","author":"Gan","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b229","doi-asserted-by":"crossref","first-page":"1523","DOI":"10.1109\/TNNLS.2022.3183827","article-title":"Word2pix: Word to pixel cross-attention transformer in visual grounding","volume":"35","author":"Zhao","year":"2022","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b230","doi-asserted-by":"crossref","unstructured":"Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, He Chen, Guohai Xu, Zheng Cao, et al., mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections, in: Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, pp. 7241\u20137259.","DOI":"10.18653\/v1\/2022.emnlp-main.488"},{"key":"10.1016\/j.inffus.2025.103625_b231","series-title":"European Conference on Computer Vision","first-page":"3","article-title":"Yoro-lightweight end to end visual grounding","author":"Ho","year":"2022"},{"key":"10.1016\/j.inffus.2025.103625_b232","series-title":"European Conference on Computer Vision","first-page":"521","article-title":"Unitab: Unifying text and box outputs for grounded vision-language modeling","author":"Yang","year":"2022"},{"key":"10.1016\/j.inffus.2025.103625_b233","series-title":"International Conference on Machine Learning","first-page":"23318","article-title":"Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework","author":"Wang","year":"2022"},{"key":"10.1016\/j.inffus.2025.103625_b234","first-page":"32942","article-title":"Coarse-to-fine vision-language pre-training with fusion in the backbone","volume":"35","author":"Dou","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103625_b235","doi-asserted-by":"crossref","first-page":"4334","DOI":"10.1109\/TMM.2023.3321501","article-title":"Clip-vg: Self-paced curriculum adapting of clip for visual grounding","volume":"26","author":"Xiao","year":"2023","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.inffus.2025.103625_b236","first-page":"1","article-title":"Visual grounding with joint multimodal representation and interaction","volume":"72","author":"Zhu","year":"2023","journal-title":"IEEE Trans. Instrum. Meas."},{"issue":"2","key":"10.1016\/j.inffus.2025.103625_b237","doi-asserted-by":"crossref","first-page":"1181","DOI":"10.1109\/TPAMI.2023.3328185","article-title":"Dynamic mdetr: A dynamic multimodal transformer decoder for visual grounding","volume":"46","author":"Shi","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103625_b238","first-page":"1728","article-title":"DQ-DETR: Dual query detection transformer for phrase extraction and grounding","volume":"vol. 37, no. 2","author":"Liu","year":"2023"},{"key":"10.1016\/j.inffus.2025.103625_b239","series-title":"European Conference on Computer Vision","first-page":"417","article-title":"Groma: Localized visual tokenization for grounding multimodal large language models","author":"Ma","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b240","first-page":"5535","article-title":"Cycle-consistency learning for captioning and grounding","volume":"vol. 38, no. 6","author":"Wang","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b241","unstructured":"Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu, OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling, in: The Thirty-Eighth Annual Conference on Neural Information Processing Systems, 2024."},{"key":"10.1016\/j.inffus.2025.103625_b242","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111222","article-title":"Graph-based referring expression comprehension with expression-guided selective filtering and noun-oriented reasoning","volume":"161","author":"Ke","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.inffus.2025.103625_b243","doi-asserted-by":"crossref","DOI":"10.1109\/TCSVT.2025.3528657","article-title":"Graph-based group division network for referring expression comprehension","author":"Ke","year":"2025","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.inffus.2025.103625_b244","doi-asserted-by":"crossref","unstructured":"Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, Qing Li, 3d-vista: Pre-trained transformer for 3d vision and text alignment, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 2911\u20132921.","DOI":"10.1109\/ICCV51070.2023.00272"},{"key":"10.1016\/j.inffus.2025.103625_b245","doi-asserted-by":"crossref","unstructured":"Zhenyu Chen, Ronghang Hu, Xinlei Chen, Matthias Nie\u00dfner, Angel X. Chang, Unit3d: A unified transformer for 3d dense captioning and visual grounding, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 18109\u201318119.","DOI":"10.1109\/ICCV51070.2023.01660"},{"key":"10.1016\/j.inffus.2025.103625_b246","series-title":"2024 IEEE\/RSJ International Conference on Intelligent Robots and Systems","first-page":"9737","article-title":"Transcrib3d: 3d referring expression resolution through large language models","author":"Fang","year":"2024"},{"key":"10.1016\/j.inffus.2025.103625_b247","doi-asserted-by":"crossref","unstructured":"Shijia Huang, Yilun Chen, Jiaya Jia, Liwei Wang, Multi-view transformer for 3d visual grounding, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15524\u201315533.","DOI":"10.1109\/CVPR52688.2022.01508"},{"key":"10.1016\/j.inffus.2025.103625_b248","doi-asserted-by":"crossref","unstructured":"Zhao Jin, Munawar Hayat, Yuwei Yang, Yulan Guo, Yinjie Lei, Context-aware alignment and mutual masking for 3d-language pre-training, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 10984\u201310994.","DOI":"10.1109\/CVPR52729.2023.01057"},{"key":"10.1016\/j.inffus.2025.103625_b249","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"20623","article-title":"Visual programming for zero-shot open-vocabulary 3d visual grounding","author":"Yuan","year":"2024"},{"year":"2024","series-title":"Multi-branch collaborative learning network for 3D visual grounding","author":"Qian","key":"10.1016\/j.inffus.2025.103625_b250"},{"year":"2025","series-title":"Evolving symbolic 3D visual grounder with weakly supervised reflection","author":"Mi","key":"10.1016\/j.inffus.2025.103625_b251"},{"year":"2025","series-title":"LIFT-GS: Cross-scene render-supervised distillation for 3D language grounding","author":"Cao","key":"10.1016\/j.inffus.2025.103625_b252"},{"year":"2025","series-title":"AugRefer: Advancing 3D visual grounding via cross-modal augmentation and spatial relation-based referring","author":"Wang","key":"10.1016\/j.inffus.2025.103625_b253"},{"key":"10.1016\/j.inffus.2025.103625_b254","article-title":"Vision-language models for vision tasks: A survey","author":"Zhang","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."}],"container-title":["Information Fusion"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253525006979?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253525006979?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,10,16]],"date-time":"2025-10-16T23:43:46Z","timestamp":1760658226000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1566253525006979"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2]]},"references-count":254,"alternative-id":["S1566253525006979"],"URL":"https:\/\/doi.org\/10.1016\/j.inffus.2025.103625","relation":{},"ISSN":["1566-2535"],"issn-type":[{"type":"print","value":"1566-2535"}],"subject":[],"published":{"date-parts":[[2026,2]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Visual Grounding in 2D and 3D: A unified perspective and survey","name":"articletitle","label":"Article Title"},{"value":"Information Fusion","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.inffus.2025.103625","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"103625"}}