{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T17:47:45Z","timestamp":1763142465723,"version":"build-2065373602"},"reference-count":65,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Early Career Scheme","award":["CityU 21219323"],"award-info":[{"award-number":["CityU 21219323"]}]},{"name":"General Research Fund","award":["CityU 11220324"],"award-info":[{"award-number":["CityU 11220324"]}]},{"DOI":"10.13039\/501100001839","name":"University Grants Committee","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001839","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Young Scientists","award":["9240127"],"award-info":[{"award-number":["9240127"]}]},{"name":"National Key Research and Development Program of China","award":["2023YFC3321600"],"award-info":[{"award-number":["2023YFC3321600"]}]},{"name":"NSFC Project","award":["62302140"],"award-info":[{"award-number":["62302140"]}]},{"name":"Fundamental Research Funds for the Central Universities through the Academic Newcomer Support Program of Hefei University of Technology","award":["JZ2024HGTB0261"],"award-info":[{"award-number":["JZ2024HGTB0261"]}]},{"DOI":"10.13039\/501100004733","name":"Universidade de Macau","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004733","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Start-up Research","award":["SRG2024-00002-FST"],"award-info":[{"award-number":["SRG2024-00002-FST"]}]},{"name":"Multi-Year Research","award":["MYRG-GRG2024-00077-FST-UMDF"],"award-info":[{"award-number":["MYRG-GRG2024-00077-FST-UMDF"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/tmm.2025.3599088","type":"journal-article","created":{"date-parts":[[2025,8,18]],"date-time":"2025-08-18T19:45:27Z","timestamp":1755546327000},"page":"7510-7521","source":"Crossref","is-referenced-by-count":1,"title":["Scale Up Composed Image Retrieval Learning via Modification Text Generation"],"prefix":"10.1109","volume":"27","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-2211-6688","authenticated-orcid":false,"given":"Yinan","family":"Zhou","sequence":"first","affiliation":[{"name":"School of Electronics and Information Engineering, Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6596-8117","authenticated-orcid":false,"given":"Yaxiong","family":"Wang","sequence":"additional","affiliation":[{"name":"School of Electronics and Information Engineering, Hefei University of Technology, Hefei, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-1084-7115","authenticated-orcid":false,"given":"Haokun","family":"Lin","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, University of the Chinese Academy of Sciences, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7933-9813","authenticated-orcid":false,"given":"Chen","family":"Ma","sequence":"additional","affiliation":[{"name":"Department of Computer Science, City University of Hong Kong, Hong Kong SAR, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2136-3196","authenticated-orcid":false,"given":"Li","family":"Zhu","sequence":"additional","affiliation":[{"name":"School of Electronics and Information Engineering, Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2434-9050","authenticated-orcid":false,"given":"Zhedong","family":"Zheng","sequence":"additional","affiliation":[{"name":"Faculty of Science and Technology, University of Macau, Macau, China"}]}],"member":"263","reference":[{"key":"ref1","first-page":"19730","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li","year":"2023"},{"key":"ref2","first-page":"509","article-title":"A survey on text and content based image retrieval system for image mining","volume":"3","author":"Karthikeyan","year":"2014","journal-title":"Int. J. Eng."},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2568099"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00213"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2019.00660"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413917"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548126"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/iccv.2017.163"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3208742"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3273466"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3235495"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3369898"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52688.2022.01042"},{"article-title":"Hierarchical text-conditional image generation with clip latents","year":"2022","author":"Ramesh","key":"ref14"},{"article-title":"GPT-4 technical report","year":"2023","author":"Achiam","key":"ref15"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01764"},{"article-title":"Llama: Open and efficient foundation language models","year":"2023","author":"Touvron","key":"ref17"},{"year":"2023","key":"ref18","article-title":"Baichuan 2: Open large-scale language models"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2023.3286259"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612395"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3275874"},{"key":"ref22","article-title":"CompoDiff: Versatile composed image retrieval with latent diffusion","volume-title":"Trans. Mach. Learn. Res.","author":"Gu","year":"2024"},{"key":"ref23","first-page":"2991","article-title":"Data roaming and quality assessment for composed image retrieval","volume-title":"Proc. AAAI Conf. Artif. Intell.","author":"Levy","year":"2024"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28334"},{"key":"ref25","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. learn.","author":"Radford","year":"2021"},{"key":"ref26","first-page":"4904","article-title":"Scaling up visual and vision-language representation learning with noisy text supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Jia","year":"2021"},{"key":"ref27","first-page":"9694","article-title":"Align before fuse: Vision and language representation learning with momentum distillation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Li","year":"2021"},{"key":"ref28","first-page":"12888","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. 39th Int. Conf. Mach. Learn.","author":"Li","year":"2022"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611709"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73247-8_13"},{"key":"ref31","first-page":"24824","article-title":"Chain-of-thought prompting elicits reasoning in large language models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Wei","year":"2022"},{"key":"ref32","first-page":"46595","article-title":"Judging LLM-as-a-judge with MT-bench and ChatBot arena","volume-title":"Proc. 37th Conf. Neural Inf. Process. Syst. Datasets Benchmarks Track","author":"Zheng","year":"2023"},{"key":"ref33","article-title":"The refinedweb dataset for falcon LLM: Outperforming curated corpora with web data, and web data only","author":"Penedo","year":"2023","journal-title":"CoRR"},{"article-title":"OPT: Open pre-trained transformer language models","year":"2022","author":"Zhang","key":"ref34"},{"issue":"70","key":"ref35","first-page":"1","article-title":"Scaling instruction-finetuned language models","volume":"25","author":"Chung","year":"2024","journal-title":"J. Mach. Learn. Res."},{"key":"ref36","first-page":"34892","article-title":"Visual instruction tuning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Liu","year":"2023"},{"key":"ref37","first-page":"49250","article-title":"InstructBLIP: Towards general-purpose vision-language models with instruction tuning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Dai","year":"2023"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2016.124"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3077136.3080681"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01115"},{"key":"ref41","article-title":"ARTEMIS: Attention-based retrieval with text-explicit matching and implicit similarity","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Delmas","year":"2022"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1145\/3617597"},{"key":"ref43","article-title":"Candidate set re-ranking for composed image retrieval with dual multi-modal encoder","volume-title":"Trans. Mach. Learn. Res.","author":"Liu","year":"2024"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01407"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01256"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01850"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00663"},{"key":"ref48","first-page":"59403","article-title":"MagicLens: Self-supervised image retrieval with open-ended instructions","volume-title":"Proc. 41st Int. Conf. Mach. Learn.","author":"Zhang","year":"2024"},{"key":"ref49","article-title":"Sentence-level prompts benefit composed image retrieval","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Bai","year":"2024"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/p19-1644"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-018-1116-0"},{"key":"ref52","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Brown","year":"2020"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/iccv48922.2021.00175"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00565"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680808"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01855"},{"article-title":"Modality-agnostic attention fusion for visual search with text feedback","year":"2020","author":"Dodds","key":"ref57"},{"article-title":"CurlingNet: Compositional learning between images and text for fashion IQ data","year":"2020","author":"Yu","key":"ref58"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr46437.2021.00086"},{"key":"ref60","article-title":"Composed image retrieval with text feedback via multi-grained uncertainty regularization","volume-title":"Proc. Twelfth Int. Conf. Learn. Representations","author":"Chen","year":"2024"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2024.112135"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00262"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1145\/3626772.3657740"},{"key":"ref64","article-title":"QWEN2-VL: Enhancing vision-language models perception of the world at any resolution","author":"Wang","year":"2024","journal-title":"CoRR"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02283"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6046\/10844992\/11125949.pdf?arnumber=11125949","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,22]],"date-time":"2025-10-22T17:25:29Z","timestamp":1761153929000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11125949\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":65,"URL":"https:\/\/doi.org\/10.1109\/tmm.2025.3599088","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"type":"print","value":"1520-9210"},{"type":"electronic","value":"1941-0077"}],"subject":[],"published":{"date-parts":[[2025]]}}}