{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:54:32Z","timestamp":1781538872476,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":49,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810768","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"21-30","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Describing-Verifying-Scoring: A Hierarchical Reasoning Framework for Zero-Shot Composed Image Retrieval"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-4709-9932","authenticated-orcid":false,"given":"Guquan","family":"Jing","sequence":"first","affiliation":[{"name":"Beijing Normal-Hong Kong Baptist University, Zhuhai, China and Hong Kong Baptist University, Hong Kong, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-0848-9814","authenticated-orcid":false,"given":"Peng","family":"Gao","sequence":"additional","affiliation":[{"name":"Beijing Normal-Hong Kong Baptist University, Zhuhai, China and Hong Kong Baptist University, Hong Kong, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-2514-3913","authenticated-orcid":false,"given":"Yujian","family":"Lee","sequence":"additional","affiliation":[{"name":"Beijing Normal-Hong Kong Baptist University, Zhuhai, China and Hong Kong Baptist University, Hong Kong, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1681-7926","authenticated-orcid":false,"given":"Hui","family":"Zhang","sequence":"additional","affiliation":[{"name":"Beijing Normal-Hong Kong Baptist University, Zhuhai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad Ilge Akkaya Florencia\u00a0Leoni Aleman Diogo Almeida Janko Altenschmidt Sam Altman Shyamal Anadkat et\u00a0al. 2023. Gpt-4 technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.08774 (2023)."},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"crossref","unstructured":"Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr Yana Hasson Karel Lenc Arthur Mensch Katherine Millican Malcolm Reynolds et\u00a0al. 2022. Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems 35 (2022) 23716\u201323736.","DOI":"10.52202\/068431-1723"},{"key":"e_1_3_3_1_4_2","unstructured":"Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge Wenbin Ge Zhifang Guo Qidong Huang Jie Huang Fei Huang Binyuan Hui Shutong Jiang Zhaohai Li Mingsheng Li Mei Li Kaixin Li Zicheng Lin Junyang Lin Xuejing Liu Jiawei Liu Chenglong Liu Yang Liu Dayiheng Liu Shixuan Liu Dunjie Lu Ruilin Luo Chenxu Lv Rui Men Lingchen Meng Xuancheng Ren Xingzhang Ren Sibo Song Yuchong Sun Jun Tang Jianhong Tu Jianqiang Wan Peng Wang Pengfei Wang Qiuyue Wang Yuxuan Wang Tianbao Xie Yiheng Xu Haiyang Xu Jin Xu Zhibo Yang Mingkun Yang Jianxin Yang An Yang Bowen Yu Fei Zhang Hang Zhang Xi Zhang Bo Zheng Humen Zhong Jingren Zhou Fan Zhou Jing Zhou Yuanzhi Zhu and Ke Zhu. 2025. Qwen3-VL Technical Report. arxiv:https:\/\/arXiv.org\/abs\/2511.21631\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2511.21631"},{"key":"e_1_3_3_1_5_2","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang et\u00a0al. 2025. Qwen2. 5-vl technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.13923 (2025)."},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01407"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW56347.2022.00543"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.02080"},{"key":"e_1_3_3_1_9_2","first-page":"107","volume-title":"European Conference on Computer Vision","author":"Bao Wentao","year":"2024","unstructured":"Wentao Bao, Lichang Chen, Heng Huang, and Yu Kong. 2024. Prompting language-informed distribution for compositional zero-shot learning. In European Conference on Computer Vision. Springer, 107\u2013123."},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00307"},{"key":"e_1_3_3_1_11_2","unstructured":"Yongchao Du Min Wang Wengang Zhou Shuping Hui and Houqiang Li. 2024. Image2sentence based asymmetrical zero-shot composed image retrieval. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.01431 (2024)."},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49660.2025.10888719"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1145\/3731715.3733298"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v40i6.42409"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01256"},{"key":"e_1_3_3_1_16_2","unstructured":"Gabriel Ilharco Mitchell Wortsman Nicholas Carlini Rohan Taori Achal Dave Vaishaal Shankar Hongseok Namkoong John Miller Hannaneh Hajishirzi Ali Farhadi et\u00a0al. 2021. Openclip. Zenodo (2021)."},{"key":"e_1_3_3_1_17_2","first-page":"239","volume-title":"European Conference on Computer Vision","author":"Jang Young\u00a0Kyun","year":"2024","unstructured":"Young\u00a0Kyun Jang, Dat Huynh, Ashish Shah, Wen-Kai Chen, and Ser-Nam Lim. 2024. Spherical linear interpolation and text-anchoring for zero-shot composed image retrieval. In European Conference on Computer Vision. Springer, 239\u2013254."},{"key":"e_1_3_3_1_18_2","unstructured":"Shyamgopal Karthik Karsten Roth Massimiliano Mancini and Zeynep Akata. 2023. Vision-by-language for training-free compositional image retrieval. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2310.09291 (2023)."},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"crossref","unstructured":"Takeshi Kojima Shixiang\u00a0Shane Gu Machel Reid Yutaka Matsuo and Yusuke Iwasawa. 2022. Large language models are zero-shot reasoners. Advances in neural information processing systems 35 (2022) 22199\u201322213.","DOI":"10.52202\/068431-1613"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00086"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICME59968.2025.11209970"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.02167"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"crossref","unstructured":"Jia Li Ge Li Yongmin Li and Zhi Jin. 2025. Structured chain-of-thought prompting for code generation. ACM Transactions on Software Engineering and Methodology 34 2 (2025) 1\u201323.","DOI":"10.1145\/3690635"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00377"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00213"},{"key":"e_1_3_3_1_26_2","unstructured":"Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury Gregory Chanan Trevor Killeen Zeming Lin Natalia Gimelshein Luca Antiga et\u00a0al. 2019. Pytorch: An imperative style high-performance deep learning library. Advances in neural information processing systems 32 (2019)."},{"key":"e_1_3_3_1_27_2","first-page":"8748","volume-title":"International conference on machine learning","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et\u00a0al. 2021. Learning transferable visual models from natural language supervision. In International conference on machine learning. PmLR, 8748\u20138763."},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.191"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01850"},{"key":"e_1_3_3_1_30_2","unstructured":"Noah Shinn Federico Cassano Beck Labash Ashwin Gopinath Karthik Narasimhan and Shunyu Yao. 2023. Reflexion: Language agents with verbal reinforcement learning 2023. URL https:\/\/arxiv. org\/abs\/2303.11366 1 (2023)."},{"key":"e_1_3_3_1_31_2","unstructured":"Zayne Sprague Fangcong Yin Juan\u00a0Diego Rodriguez Dongwei Jiang Manya Wadhwa Prasann Singhal Xinyu Zhao Xi Ye Kyle Mahowald and Greg Durrett. 2024. To cot or not to cot? chain-of-thought helps mainly on math and symbolic reasoning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2409.12183 (2024)."},{"key":"e_1_3_3_1_32_2","unstructured":"Linzhuang Sun Hao Liang Jingxuan Wei Bihui Yu Tianpeng Li Fan Yang Zenan Zhou and Wentao Zhang. 2025. Mm-verify: Enhancing multimodal reasoning with chain-of-thought verification. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.13383 (2025)."},{"key":"e_1_3_3_1_33_2","unstructured":"Shitong Sun Fanghua Ye and Shaogang Gong. 2023. Training-free zero-shot composed image retrieval with local concept reranking. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.08924 (2023)."},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02545"},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02308"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28324"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01343"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00663"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00660"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02764"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"crossref","unstructured":"Jason Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Fei Xia Ed Chi Quoc\u00a0V Le Denny Zhou et\u00a0al. 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems 35 (2022) 24824\u201324837.","DOI":"10.52202\/068431-1800"},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01115"},{"key":"e_1_3_3_1_43_2","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681649"},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.1145\/3626772.3657740"},{"key":"e_1_3_3_1_45_2","unstructured":"Zihan Yu Liang He Zhen Wu Xinyu Dai and Jiajun Chen. 2023. Towards better chain-of-thought prompting strategies: A survey. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2310.04959 (2023)."},{"key":"e_1_3_3_1_46_2","unstructured":"Andy Zeng Maria Attarian Brian Ichter Krzysztof Choromanski Adrian Wong Stefan Welker Federico Tombari Aveek Purohit Michael Ryoo Vikas Sindhwani et\u00a0al. 2022. Socratic models: Composing zero-shot multimodal reasoning with language. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2204.00598 (2022)."},{"key":"e_1_3_3_1_47_2","unstructured":"Kai Zhang Yi Luan Hexiang Hu Kenton Lee Siyuan Qiao Wenhu Chen Yu Su and Ming-Wei Chang. 2024. Magiclens: Self-supervised image retrieval with open-ended instructions. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.19651 (2024)."},{"key":"e_1_3_3_1_48_2","unstructured":"Zhuosheng Zhang Aston Zhang Mu Li and Alex Smola. 2022. Automatic chain of thought prompting in large language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2210.03493 (2022)."},{"key":"e_1_3_3_1_49_2","unstructured":"Zhuosheng Zhang Aston Zhang Mu Li Hai Zhao George Karypis and Alex Smola. 2023. Multimodal chain-of-thought reasoning in language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2302.00923 (2023)."},{"key":"e_1_3_3_1_50_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-short.31"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:01:59Z","timestamp":1781535719000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810768"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":49,"alternative-id":["10.1145\/3805622.3810768","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810768","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}