{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:16:53Z","timestamp":1777655813278,"version":"3.51.4"},"publisher-location":"Cham","reference-count":31,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031726545","type":"print"},{"value":"9783031726552","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,12,6]],"date-time":"2024-12-06T00:00:00Z","timestamp":1733443200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,6]],"date-time":"2024-12-06T00:00:00Z","timestamp":1733443200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72655-2_14","type":"book-chapter","created":{"date-parts":[[2024,12,5]],"date-time":"2024-12-05T11:25:35Z","timestamp":1733397935000},"page":"239-254","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":18,"title":["Spherical Linear Interpolation and\u00a0Text-Anchoring for\u00a0Zero-Shot Composed Image Retrieval"],"prefix":"10.1007","author":[{"given":"Young Kyun","family":"Jang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dat","family":"Huynh","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ashish","family":"Shah","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wen-Kai","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ser-Nam","family":"Lim","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,6]]},"reference":[{"key":"14_CR1","doi-asserted-by":"crossref","unstructured":"Baldrati, A., Agnolucci, L., Bertini, M., Del\u00a0Bimbo, A.: Zero-shot composed image retrieval with textual inversion. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.01407"},{"key":"14_CR2","doi-asserted-by":"crossref","unstructured":"Baldrati, A., Bertini, M., Uricchio, T., Del\u00a0Bimbo, A.: Effective conditioned and composed image retrieval combining CLIP-based features. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.02080"},{"key":"14_CR3","unstructured":"Chen, T., Kornblith, S., Norouzi, M., Hinton, G.: A simple framework for contrastive learning of visual representations. In: ICML (2020)"},{"key":"14_CR4","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"558","DOI":"10.1007\/978-3-031-20044-1_32","volume-title":"Computer Vision - ECCV 2022","author":"N Cohen","year":"2022","unstructured":"Cohen, N., Gal, R., Meirom, E.A., Chechik, G., Atzmon, Y.: \u201cThis is my unicorn, fluffy\u2019\u2019: personalizing frozen vision-language representations. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13680, pp. 558\u2013577. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-20044-1_32"},{"key":"14_CR5","unstructured":"Delmas, G., Sampaio\u00a0de Rezende, R., Csurka, G., Larlus, D.: ARTEMIS: attention-based retrieval with text-explicit matching and implicit similarity. In: ICLR (2022)"},{"key":"14_CR6","doi-asserted-by":"crossref","unstructured":"Forbes, M., Kaeser-Chen, C., Sharma, P., Belongie, S.: Neural naturalist: generating fine-grained image comparisons. In: EMNLP (2019)","DOI":"10.18653\/v1\/D19-1065"},{"key":"14_CR7","doi-asserted-by":"crossref","unstructured":"Goenka, S., et al.: FashionVLP: vision language transformer for fashion retrieval with feedback. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01371"},{"key":"14_CR8","doi-asserted-by":"crossref","unstructured":"Gu, G., Chun, S., Kim, W., Kang, Y., Yun, S.: Language-only efficient training of zero-shot composed image retrieval. arXiv preprint arXiv:2312.01998 (2023)","DOI":"10.1109\/CVPR52733.2024.01256"},{"key":"14_CR9","unstructured":"Guo, X., Wu, H., Cheng, Y., Rennie, S., Tesauro, G., Feris, R.: Dialog-based interactive image retrieval. In: NeurIPS (2018)"},{"key":"14_CR10","doi-asserted-by":"crossref","unstructured":"Han, X., et al.: Automatic spatially-aware fashion concept discovery. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.163"},{"key":"14_CR11","unstructured":"Hu, E.J., et\u00a0al.: LoRA: low-rank adaptation of large language models. In: ICLR (2021)"},{"key":"14_CR12","doi-asserted-by":"crossref","unstructured":"Levy, M., Ben-Ari, R., Darshan, N., Lischinski, D.: Data roaming and early fusion for composed image retrieval. arXiv preprint arXiv:2303.09429 (2023)","DOI":"10.1609\/aaai.v38i4.28081"},{"key":"14_CR13","unstructured":"Li, J., et\u00a0al.: BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation. In: ICML (2022)"},{"key":"14_CR14","unstructured":"Liang, V.W., Zhang, Y., Kwon, Y., Yeung, S., Zou, J.Y.: Mind the gap: understanding the modality gap in multi-modal contrastive representation learning. In: NeurIPS (2022)"},{"key":"14_CR15","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T-Y Lin","year":"2014","unstructured":"Lin, T.-Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48"},{"key":"14_CR16","unstructured":"Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning. In: NeurIPS (2024)"},{"key":"14_CR17","doi-asserted-by":"crossref","unstructured":"Liu, Z., Rodriguez-Opazo, C., Teney, D., Gould, S.: Image retrieval on real-life images with pre-trained vision-and-language models. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00213"},{"key":"14_CR18","doi-asserted-by":"crossref","unstructured":"Liu, Z., Rodriguez-Opazo, C., Teney, D., Gould, S.: Image retrieval on real-life images with pre-trained vision-and-language models. In: CVPR (2021)","DOI":"10.1109\/ICCV48922.2021.00213"},{"key":"14_CR19","unstructured":"Loshchilov, I., Hutter, F.: Decoupled weight decay regularization. In: ICLR (2018)"},{"key":"14_CR20","doi-asserted-by":"publisher","first-page":"23","DOI":"10.1007\/s11263-020-01359-2","volume":"129","author":"J Ma","year":"2021","unstructured":"Ma, J., Jiang, X., Fan, A., Jiang, J., Yan, J.: Image matching from handcrafted to deep features: a survey. IJCV 129, 23\u201379 (2021)","journal-title":"IJCV"},{"key":"14_CR21","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: ICML. PMLR (2021)"},{"key":"14_CR22","doi-asserted-by":"crossref","unstructured":"Saito, K., et al.: Pic2Word: mapping pictures to words for zero-shot composed image retrieval. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.01850"},{"key":"14_CR23","doi-asserted-by":"crossref","unstructured":"Sharma, P., Ding, N., Goodman, S., Soricut, R.: Conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning. In: ACL (2018)","DOI":"10.18653\/v1\/P18-1238"},{"key":"14_CR24","doi-asserted-by":"crossref","unstructured":"Shoemake, K.: Animating rotation with quaternion curves. In: Proceedings of the 12th Annual Conference on Computer Graphics and Interactive Techniques (1985)","DOI":"10.1145\/325334.325242"},{"key":"14_CR25","doi-asserted-by":"crossref","unstructured":"Suhr, A., Zhou, S., Zhang, A., Zhang, I., Bai, H., Artzi, Y.: A corpus for reasoning about natural language grounded in photographs. In: ACL (2019)","DOI":"10.18653\/v1\/P19-1644"},{"key":"14_CR26","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS (2017)"},{"key":"14_CR27","doi-asserted-by":"crossref","unstructured":"Ventura, L., Yang, A., Schmid, C., Varol, G.: CoVR: learning composed video retrieval from web video captions. arXiv:2308.14746 (2023)","DOI":"10.1007\/s11263-024-02202-8"},{"key":"14_CR28","doi-asserted-by":"crossref","unstructured":"Vo, N., et al.: Composing text and image for image retrieval-an empirical odyssey. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00660"},{"key":"14_CR29","unstructured":"Wolf, T., et\u00a0al.: Transformers: state-of-the-art natural language processing. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (2020)"},{"key":"14_CR30","doi-asserted-by":"crossref","unstructured":"Wu, H., et al.: Fashion IQ: a new dataset towards retrieving images by natural language feedback. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.01115"},{"key":"14_CR31","doi-asserted-by":"crossref","unstructured":"Zhai, X., et al.: LiT: zero-shot transfer with locked-image text tuning. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01759"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72655-2_14","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,5]],"date-time":"2024-12-05T11:30:45Z","timestamp":1733398245000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72655-2_14"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,6]]},"ISBN":["9783031726545","9783031726552"],"references-count":31,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72655-2_14","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,12,6]]},"assertion":[{"value":"6 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}