{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:55:23Z","timestamp":1781538923767,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":48,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"National Natural Science Foundation of China","award":["62372238"],"award-info":[{"award-number":["62372238"]}]},{"name":"National Natural Science Foundation of China","award":["62476133"],"award-info":[{"award-number":["62476133"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810686","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"317-326","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["From Noisy Candidates to Reliable Grounding in Weakly-Supervised Referring Expression Comprehension"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-7502-3644","authenticated-orcid":false,"given":"Yunlong","family":"He","sequence":"first","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-5938-2621","authenticated-orcid":false,"given":"Ziqi","family":"Gu","sequence":"additional","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6212-4891","authenticated-orcid":false,"given":"Tong","family":"Zhang","sequence":"additional","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4492-5430","authenticated-orcid":false,"given":"Zhen","family":"Cui","sequence":"additional","affiliation":[{"name":"Beijing Normal University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0814-4362","authenticated-orcid":false,"given":"Chunyan","family":"Xu","sequence":"additional","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Kingma DP Ba\u00a0J Adam et\u00a0al. 2014. A method for stochastic optimization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1412.6980 1412 6 (2014)."},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00387"},{"key":"e_1_3_3_1_4_2","unstructured":"Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge Wenbin Ge Zhifang Guo Qidong Huang Jie Huang Fei Huang Binyuan Hui Shutong Jiang Zhaohai Li Mingsheng Li Mei Li Kaixin Li Zicheng Lin Junyang Lin Xuejing Liu Jiawei Liu Chenglong Liu Yang Liu Dayiheng Liu Shixuan Liu Dunjie Lu Ruilin Luo Chenxu Lv Rui Men Lingchen Meng Xuancheng Ren Xingzhang Ren Sibo Song Yuchong Sun Jun Tang Jianhong Tu Jianqiang Wan Peng Wang Pengfei Wang Qiuyue Wang Yuxuan Wang Tianbao Xie Yiheng Xu Haiyang Xu Jin Xu Zhibo Yang Mingkun Yang Jianxin Yang An Yang Bowen Yu Fei Zhang Hang Zhang Xi Zhang Bo Zheng Humen Zhong Jingren Zhou Fan Zhou Jing Zhou Yuanzhi Zhu and Ke Zhu. 2025. Qwen3-VL Technical Report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2511.21631 (2025)."},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681058"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01338"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00857"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i3.32265"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"crossref","unstructured":"Ming Dai Lingfeng Yang Yihao Xu Zhenhua Feng and Wankou Yang. 2024. Simvg: A simple framework for visual grounding with decoupled multi-modal fusion. Advances in Neural Information Processing Systems 37 (2024) 121670\u2013121698.","DOI":"10.52202\/079017-3867"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.121"},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00179"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"crossref","unstructured":"Jiajun Deng Zhengyuan Yang Daqing Liu Tianlang Chen Wengang Zhou Yanyong Zhang Houqiang Li and Wanli Ouyang. [n. d.]. Transvg++: End-to-end visual grounding with language conditioned vision transformer. IEEE Transactions on Pattern Analysis and Machine Intelligence 45 11 ([n. d.]) 13636\u201313652.","DOI":"10.1109\/TPAMI.2023.3296823"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICME59968.2025.11209140"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01761"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58580-8_44"},{"key":"e_1_3_3_1_17_2","unstructured":"Shuting He Henghui Ding Chang Liu and Xudong Jiang. 2023. Grec: Generalized referring expression comprehension. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2308.16182 (2023)."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"crossref","unstructured":"Richang Hong Daqing Liu Xiaoyu Mo Xiangnan He and Hanwang Zhang. 2019. Learning to compose and reason with language tree structures for visual grounding. IEEE Transactions on Pattern Analysis and Machine Intelligence 44 2 (2019) 684\u2013696.","DOI":"10.1109\/TPAMI.2019.2911066"},{"key":"e_1_3_3_1_19_2","volume-title":"International Conference on Learning Representations","author":"Hu Edward\u00a0J","year":"2022","unstructured":"Edward\u00a0J Hu, yelong shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. LoRA: Low-Rank Adaptation of Large Language Models. In International Conference on Learning Representations."},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.470"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00263"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00477"},{"key":"e_1_3_3_1_24_2","first-page":"38","volume-title":"European Conference on Computer Vision","author":"Liu Shilong","year":"2024","unstructured":"Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, et\u00a0al. 2024. Grounding dino: Marrying dino with grounded pre-training for open-set object detection. In European Conference on Computer Vision. 38\u201355."},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00270"},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3351074"},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"crossref","unstructured":"Mingcong Lu Ruifan Li Fangxiang Feng Zhanyu Ma and Xiaojie Wang. [n. d.]. Lgr-net: Language guided reasoning network for referring expression comprehension. IEEE Transactions on Circuits and Systems for Video Technology 34 8 ([n. d.]) 7771\u20137784.","DOI":"10.1109\/TCSVT.2024.3374786"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01005"},{"key":"e_1_3_3_1_30_2","first-page":"198","volume-title":"European Conference on Computer Vision","author":"Luo Yaxin","year":"2024","unstructured":"Yaxin Luo, Jiayi Ji, Xiaofu Chen, Yuxin Zhang, Tianhe Ren, and Gen Luo. 2024. APL: Anchor-Based Prompt Learning for One-Stage Weakly Supervised Referring Expression Comprehension. In European Conference on Computer Vision. 198\u2013215."},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.9"},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_48"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"crossref","unstructured":"Yulei Niu Hanwang Zhang Zhiwu Lu and Shih-Fu Chang. [n. d.]. Variational context: Exploiting visual and textual context for grounding referring expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence 43 1 ([n. d.]) 347\u2013359.","DOI":"10.1109\/TPAMI.2019.2926266"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.91"},{"key":"e_1_3_3_1_35_2","unstructured":"Shaoqing Ren Kaiming He Ross Girshick and Jian Sun. 2015. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems 28 (2015)."},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46448-0_49"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01045"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"crossref","unstructured":"Mingjie Sun Jimin Xiao Eng\u00a0Gee Lim Si Liu and John\u00a0Y. Goulermas. [n. d.]. Discriminative Triad Matching and Reconstruction for Weakly Referring Expression Grounding. IEEE Transactions on Pattern Analysis and Machine Intelligence 43 11 ([n. d.]) 4189\u20134195.","DOI":"10.1109\/TPAMI.2021.3058684"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01387"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"crossref","unstructured":"Yidan Wang Chenyi Zhuang Wutao Liu Pan Gao and Nicu Sebe. 2025. AlignCAT: Visual-Linguistic Alignment of Category and Attribute for Weakly Supervised Visual Grounding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.03201 (2025).","DOI":"10.1145\/3746027.3755751"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"crossref","unstructured":"Linhui Xiao Xiaoshan Yang Fang Peng Yaowei Wang and Changsheng Xu. 2024. Oneref: Unified one-tower expression grounding and segmentation with mask referring modeling. Advances in Neural Information Processing Systems 37 (2024) 139854\u2013139885.","DOI":"10.52202\/079017-4438"},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00478"},{"key":"e_1_3_3_1_43_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00142"},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00437"},{"key":"e_1_3_3_1_45_2","doi-asserted-by":"crossref","unstructured":"Ruisong Zhang Chuang Wang and Cheng-Lin Liu. [n. d.]. Cycle-consistent weakly supervised visual grounding with individual and contextual representations. IEEE Transactions on Image Processing 32 ([n. d.]) 5167\u20135180.","DOI":"10.1109\/TIP.2023.3311917"},{"key":"e_1_3_3_1_46_2","unstructured":"Zhu Zhang Zhou Zhao Zhijie Lin Xiuqiang He et\u00a0al. 2020. Counterfactual contrastive learning for weakly-supervised vision-language grounding. Advances in Neural Information Processing Systems 33 (2020) 18123\u201318134."},{"key":"e_1_3_3_1_47_2","first-page":"18123","volume-title":"Advances in Neural Information Processing Systems","author":"Zhang Zhu","unstructured":"Zhu Zhang, Zhou Zhao, Zhijie Lin, jieming zhu, and Xiuqiang He. [n. d.]. Counterfactual Contrastive Learning for Weakly-Supervised Vision-Language Grounding. In Advances in Neural Information Processing Systems , H.\u00a0Larochelle, M.\u00a0Ranzato, R.\u00a0Hadsell, M.F. Balcan, and H.\u00a0Lin (Eds.), Vol.\u00a033. 18123\u201318134."},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"crossref","unstructured":"Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin and Qi Tian. 2021. A real-time global inference network for one-stage referring expression comprehension. IEEE Transactions on Neural Networks and Learning Systems 34 1 (2021) 134\u2013143.","DOI":"10.1109\/TNNLS.2021.3090426"},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19833-5_35"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:16:22Z","timestamp":1781536582000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810686"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":48,"alternative-id":["10.1145\/3805622.3810686","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810686","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}