{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,5,27]],"date-time":"2025-05-27T15:58:50Z","timestamp":1748361530090,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":26,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819609598"},{"type":"electronic","value":"9789819609604"}],"license":[{"start":{"date-parts":[[2024,12,8]],"date-time":"2024-12-08T00:00:00Z","timestamp":1733616000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,8]],"date-time":"2024-12-08T00:00:00Z","timestamp":1733616000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-0960-4_15","type":"book-chapter","created":{"date-parts":[[2024,12,7]],"date-time":"2024-12-07T07:36:38Z","timestamp":1733556998000},"page":"239-254","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Dual-Path Multimodal Optimal Transport for\u00a0Composed Image Retrieval"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0313-8833","authenticated-orcid":false,"given":"Cairong","family":"Yan","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Meng","family":"Ma","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6317-1956","authenticated-orcid":false,"given":"Yanting","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6911-0852","authenticated-orcid":false,"given":"Yongquan","family":"Wan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,8]]},"reference":[{"key":"15_CR1","doi-asserted-by":"crossref","unstructured":"Ma, C., Gu, C., Li, W., Cui, S.: Large-scale image retrieval with sparse binary projections. In: SIGIR. pp. 1817-1820 (2020)","DOI":"10.1145\/3397271.3401261"},{"key":"15_CR2","doi-asserted-by":"crossref","unstructured":"Vo, N., Jiang, L., Sun, C., Murphy, K., Li, L. J., Fei-Fei, L., Hays, J.: Composing text and image for image retrieval-an empirical odyssey. In: CVPR. pp. 6439-6448 (2019)","DOI":"10.1109\/CVPR.2019.00660"},{"key":"15_CR3","unstructured":"Dodds, E., Culpepper, J., Herdade, S., Zhang, Y., Boakye, K.: Modality-agnostic attention fusion for visual search with text feedback. arXiv preprint arXiv:2007.00145 (2020)"},{"key":"15_CR4","unstructured":"Chen, Y., Zheng, Z., Ji, W., Qu, L., Chua, T. S.: Composed image retrieval with text feedback via multi-grained uncertainty regularization. arXiv preprint arXiv:2211.07394 (2022)"},{"key":"15_CR5","doi-asserted-by":"crossref","unstructured":"Wu, H., Gao, Y., Guo, X., Al-Halah, Z., Rennie, S., Grauman, K., Feris, R.: Fashion iq: A new dataset towards retrieving images by natural language feedback. In: CVPR. pp. 11307-11317 (2021)","DOI":"10.1109\/CVPR46437.2021.01115"},{"key":"15_CR6","doi-asserted-by":"crossref","unstructured":"Liu, Z., Rodriguez-Opazo, C., Teney, D., Gould, S.: Image retrieval on real-life images with pre-trained vision-and-language models. In: ICCV. pp. 2125-2134 (2021)","DOI":"10.1109\/ICCV48922.2021.00213"},{"key":"15_CR7","doi-asserted-by":"crossref","unstructured":"Ma, Z., Dong, J., Long, Z., Zhang, Y., He, Y., Xue, H., Ji, S.: Fine-grained fashion similarity learning by attribute-specific embedding network. In: AAAI. pp. 11741-11748 (2020)","DOI":"10.1609\/aaai.v34i07.6845"},{"issue":"6","key":"15_CR8","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3596445","volume":"19","author":"H Zhu","year":"2023","unstructured":"Zhu, H., Wei, Y., Zhao, Y., Zhang, C., Huang, S.: AMC: Adaptive multi-expert collaborative network for text-guided image retrieval. ACM Trans. Multimed. Comput. Commun. Appl. 19(6), 1\u201322 (2023)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl."},{"key":"15_CR9","doi-asserted-by":"crossref","unstructured":"Kim, J., Yu, Y., Kim, H., Kim, G.: Dual compositional learning in interactive image retrieval. In: AAAI. pp. 1771-1779 (2021)","DOI":"10.1609\/aaai.v35i2.16271"},{"key":"15_CR10","doi-asserted-by":"crossref","unstructured":"Wen, H., Song, X., Yang, X., Zhan, Y., Nie, L.: Comprehensive linguistic-visual composition network for image retrieval. In: SIGIR. pp. 1369-1378 (2021)","DOI":"10.1145\/3404835.3462967"},{"key":"15_CR11","doi-asserted-by":"crossref","unstructured":"Baldrati, A., Bertini, M., Uricchio, T., Del Bimbo, A.: Effective conditioned and composed image retrieval combining clip-based features. In: CVPR. pp. 21466-21474 (2022)","DOI":"10.1109\/CVPR52688.2022.02080"},{"key":"15_CR12","doi-asserted-by":"crossref","unstructured":"Yang, Y., Wu, Y. F., Zhan, D. C., Liu, Z. B., Jiang, Y.: Complex object classification: A multi-modal multi-instance multi-label deep network with optimal transport. In: SIGKDD. pp. 2594-2603 (2018)","DOI":"10.1145\/3219819.3220012"},{"key":"15_CR13","unstructured":"Lee, J., Dabagia, M., Dyer, E., Rozell, C.: Hierarchical optimal transport for multimodal distribution alignment. NeurIPS 32 (2019)"},{"key":"15_CR14","doi-asserted-by":"crossref","unstructured":"Xu, Y., Chen, H.: Multimodal optimal transport-based co-attention transformer with global structure consistency for survival prediction. In: ICCV. pp. 21241-21251 (2023)","DOI":"10.1109\/ICCV51070.2023.01942"},{"key":"15_CR15","doi-asserted-by":"crossref","unstructured":"Yang, W., Yang, J., Liu, Y.: Multimodal Optimal Transport Knowledge Distillation for Cross-domain Recommendation. In: CIKM. pp. 2959-2968 (2023)","DOI":"10.1145\/3583780.3614983"},{"key":"15_CR16","doi-asserted-by":"crossref","unstructured":"Pramanick, S., Roy, A., Patel, V. M.: Multimodal learning using optimal transport for sarcasm and humor detection. In: WACV. pp. 3930-3940 (2022)","DOI":"10.1109\/WACV51458.2022.00062"},{"key":"15_CR17","unstructured":"Chen, L., Gan, Z., Cheng, Y., Li, L., Carin, L., Liu, J.: Graph optimal transport for cross-domain alignment. In: ICML. pp. 1542-1553. PMLR (2020)"},{"key":"15_CR18","unstructured":"Li, J., Li, D., Xiong, C., Hoi, S.: BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In: ICML. pp. 12888-12900. PMLR (2022)"},{"key":"15_CR19","doi-asserted-by":"crossref","unstructured":"Lee, S., Kim, D., Han, B.: CoSMo: Content-style modulation for image retrieval with text feedback. In: CVPR. pp. 802-812 (2021)","DOI":"10.1109\/CVPR46437.2021.00086"},{"key":"15_CR20","doi-asserted-by":"crossref","unstructured":"Zhang, G., Wei, S., Pang, H., Zhao, Y.: Heterogeneous feature fusion and cross-modal alignment for composed image retrieval. In: ACMMM, pp. 5353-5362 (2021)","DOI":"10.1145\/3474085.3475659"},{"key":"15_CR21","doi-asserted-by":"crossref","unstructured":"Goenka, S., Zheng, Z., Jaiswal, A., Chada, R., Wu, Y., Hedau, V., Natarajan, P.: Fashionvlp: Vision language transformer for fashion retrieval with feedback. In: CVPR. pp. 14105-14115 (2022)","DOI":"10.1109\/CVPR52688.2022.01371"},{"key":"15_CR22","unstructured":"Delmas, G., Rezende, R. S., Csurka, G., Larlus, D.: ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity. In: ICLR. (2021)"},{"key":"15_CR23","doi-asserted-by":"crossref","unstructured":"Tian, Y., Newsam, S., Boakye, K.: Fashion image retrieval with text feedback by additive attention compositional learning. In: WACV. pp. 1011-1021 (2023)","DOI":"10.1109\/WACV56688.2023.00107"},{"key":"15_CR24","unstructured":"Zhang, X., Zheng, Z., Wang, X., Yang, Y.: Relieving Triplet Ambiguity: Consensus Network for Language-Guided Image Retrieval. arXiv preprint arXiv:2306.02092 (2023)"},{"key":"15_CR25","doi-asserted-by":"crossref","unstructured":"Li, H., Wu, Y., Wang, F.: Dynamic network for language-based fashion retrieval. In: Proceedings of the 1st International Workshop on Deep Multimodal Learning for Information Retrieval, pp. 49-57 (2023)","DOI":"10.1145\/3606040.3617438"},{"key":"15_CR26","unstructured":"Chen, J., Lai, H.: Ranking-aware Uncertainty for Text-guided Image Retrieval. arXiv preprint arXiv:2308.08131 (2023)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-0960-4_15","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,7]],"date-time":"2024-12-07T08:34:40Z","timestamp":1733560480000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-0960-4_15"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,8]]},"ISBN":["9789819609598","9789819609604"],"references-count":26,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-0960-4_15","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,8]]},"assertion":[{"value":"8 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ACCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Asian Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Hanoi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Vietnam","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"12 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"accv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}