{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,19]],"date-time":"2025-03-19T15:40:13Z","timestamp":1742398813067},"reference-count":56,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2024,2,29]],"date-time":"2024-02-29T00:00:00Z","timestamp":1709164800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,2,29]],"date-time":"2024-02-29T00:00:00Z","timestamp":1709164800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"JSPS KAKENHI","award":["JP21H03456","JP21H03456"],"award-info":[{"award-number":["JP21H03456","JP21H03456"]}]},{"name":"JSPS KAKENHI","award":["JP21H03456","JP21H03456","JP21H03456"],"award-info":[{"award-number":["JP21H03456","JP21H03456","JP21H03456"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Multimed Info Retr"],"published-print":{"date-parts":[[2024,3]]},"DOI":"10.1007\/s13735-024-00322-y","type":"journal-article","created":{"date-parts":[[2024,2,29]],"date-time":"2024-02-29T13:02:37Z","timestamp":1709211757000},"update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Parameter-efficient tuning of cross-modal retrieval for a specific database via trainable textual and visual prompts"],"prefix":"10.1007","volume":"13","author":[{"given":"Huaying","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rintaro","family":"Yanagi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ren","family":"Togo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Takahiro","family":"Ogawa","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Miki","family":"Haseyama","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,2,29]]},"reference":[{"key":"322_CR1","doi-asserted-by":"crossref","unstructured":"Agnolucci L, Baldrati A, Todino F et\u00a0al (2023) Eco: ensembling context optimization for vision-language models. In: Proceedings of the IEEE\/CVF international conference on computer vision (ICCV) workshops, pp 2811\u20132815","DOI":"10.1109\/ICCVW60793.2023.00299"},{"key":"322_CR2","first-page":"23716","volume":"35","author":"JB Alayrac","year":"2022","unstructured":"Alayrac JB, Donahue J, Luc P et al (2022) Flamingo: a visual language model for few-shot learning. Adv Neural Inf Process Syst 35:23716\u201323736","journal-title":"Adv Neural Inf Process Syst"},{"key":"322_CR3","unstructured":"Bahng H, Jahanian A, Sankaranarayanan S et\u00a0al (2022) Exploring visual prompts for adapting large-scale models. arXiv preprint arXiv:2203.17274"},{"key":"322_CR4","first-page":"1877","volume":"33","author":"T Brown","year":"2020","unstructured":"Brown T, Mann B, Ryder N et al (2020) Language models are few-shot learners. Adv Neural Inf Process Syst 33:1877\u20131901","journal-title":"Adv Neural Inf Process Syst"},{"key":"322_CR5","doi-asserted-by":"crossref","unstructured":"Chen J, Guo H, Yi K et\u00a0al (2022) Visualgpt: data-efficient adaptation of pretrained language models for image captioning. In: IEEE\/CVF conference on computer vision and pattern recognition, pp 18030\u201318040","DOI":"10.1109\/CVPR52688.2022.01750"},{"issue":"4","key":"322_CR6","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3499027","volume":"18","author":"Y Cheng","year":"2022","unstructured":"Cheng Y, Zhu X, Qian J et al (2022) Cross-modal graph matching network for image-text retrieval. ACM Trans Multimed Comput Commun Appl 18(4):1\u201323","journal-title":"ACM Trans Multimed Comput Commun Appl"},{"key":"322_CR7","doi-asserted-by":"crossref","unstructured":"Chun S, Oh SJ, de\u00a0Rezende RS et\u00a0al (2021) Probabilistic embeddings for cross-modal retrieval. In: IEEE\/CVF conference on computer vision and pattern recognition, pp 8415\u20138424","DOI":"10.1109\/CVPR46437.2021.00831"},{"key":"322_CR8","doi-asserted-by":"crossref","unstructured":"Diao H, Zhang Y, Ma L et\u00a0al (2021) Similarity reasoning and filtration for image-text matching. In: AAAI conference on artificial intelligence, pp 1218\u20131226","DOI":"10.1609\/aaai.v35i2.16209"},{"key":"322_CR9","doi-asserted-by":"crossref","unstructured":"Ding N, Qin Y, Yang G et\u00a0al (2023) Parameter-efficient fine-tuning of large-scale pre-trained language models. Nat Mach Intell pp 1\u201316","DOI":"10.1038\/s42256-023-00626-4"},{"key":"322_CR10","doi-asserted-by":"crossref","unstructured":"Dong X, Zheng Y, Bao J et\u00a0al (2022) Maskclip: Masked self-distillation advances contrastive language-image pretraining. arXiv preprint arXiv:2208.12262","DOI":"10.1109\/CVPR52729.2023.01058"},{"key":"322_CR11","unstructured":"Dosovitskiy A, Beyer L, Kolesnikov A et\u00a0al (2021) An image is worth 16x16 words: transformers for image recognition at scale. In: International conference on learning representations"},{"key":"322_CR12","unstructured":"Faghri F, Fleet DJ, Kiros JR et\u00a0al (2017) Vse++: improving visual-semantic embeddings with hard negatives. arXiv preprint arXiv:1707.05612"},{"key":"322_CR13","doi-asserted-by":"publisher","first-page":"354","DOI":"10.1016\/j.patcog.2017.10.013","volume":"77","author":"J Gu","year":"2018","unstructured":"Gu J, Wang Z, Kuen J et al (2018) Recent advances in convolutional neural networks. Pattern Recogn 77:354\u2013377","journal-title":"Pattern Recogn"},{"key":"322_CR14","unstructured":"Jia C, Yang Y, Xia Y et\u00a0al (2021) Scaling up visual and vision-language representation learning with noisy text supervision. In: International conference on machine learning, PMLR, pp 4904\u20134916"},{"key":"322_CR15","doi-asserted-by":"crossref","unstructured":"Jia M, Tang L, Chen BC et\u00a0al (2022) Visual prompt tuning. In: European conference on computer vision","DOI":"10.1007\/978-3-031-19827-4_41"},{"key":"322_CR16","doi-asserted-by":"crossref","unstructured":"Karpathy A, Fei-Fei L (2015) Deep visual-semantic alignments for generating image descriptions. In: IEEE\/CVF conference on computer vision and pattern recognition, pp 3128\u20133137","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"322_CR17","unstructured":"Kiros R, Salakhutdinov R, Zemel RS (2014) Unifying visual-semantic embeddings with multimodal neural language models. arXiv:1411.2539"},{"key":"322_CR18","unstructured":"Kottur S, Moon S, Markosyan AH et\u00a0al (2022) Tell your story: task-oriented dialogs for interactive content creation. arXiv preprint arXiv:2211.03940"},{"key":"322_CR19","doi-asserted-by":"crossref","unstructured":"Lee KH, Chen X, Hua G et\u00a0al (2018) Stacked cross attention for image-text matching. In: European conference on computer vision, pp 201\u2013216","DOI":"10.1007\/978-3-030-01225-0_13"},{"key":"322_CR20","doi-asserted-by":"crossref","unstructured":"Lester B, Al-Rfou R, Constant N (2021) The power of scale for parameter-efficient prompt tuning. In: 2021 Conference on empirical methods in natural language processing, pp 3045\u20133059","DOI":"10.18653\/v1\/2021.emnlp-main.243"},{"key":"322_CR21","doi-asserted-by":"crossref","unstructured":"Li A, Jabri A, Joulin A et\u00a0al (2017) Learning visual n-grams from web data. In: IEEE International conference on computer vision","DOI":"10.1109\/ICCV.2017.449"},{"key":"322_CR22","doi-asserted-by":"crossref","unstructured":"Li XL, Liang P (2021) Prefix-tuning: optimizing continuous prompts for generation. In: 59th Annual Meeting of the Association for computational linguistics and the 11th international joint conference on natural language processing (Volume 1: Long Papers). Association for Computational Linguistics, Online, pp 4582\u20134597","DOI":"10.18653\/v1\/2021.acl-long.353"},{"key":"322_CR23","doi-asserted-by":"crossref","unstructured":"Lin TY, Maire M, Belongie S et\u00a0al (2014) Microsoft coco: common objects in context. In: European conference on computer vision, pp 740\u2013755","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"322_CR24","doi-asserted-by":"crossref","unstructured":"Liu L, Liu X, Gao J et\u00a0al (2020) Understanding the difficulty of training transformers. In: 2020 conference on empirical methods in natural language processing, pp 5747\u20135763","DOI":"10.18653\/v1\/2020.emnlp-main.463"},{"key":"322_CR25","unstructured":"Liu P, Yuan W, Fu J et\u00a0al (2021) Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing. arXiv preprint arXiv:2107.13586"},{"key":"322_CR26","doi-asserted-by":"publisher","first-page":"2824","DOI":"10.18653\/v1\/2022.findings-acl.222","volume":"2022","author":"R Logan IV","year":"2022","unstructured":"Logan R IV, Bala\u017eevi\u0107 I, Wallace E et al (2022) Cutting down on prompts and parameters: simple few-shot learning with language models. Find Assoc Comput Linguist ACL 2022:2824\u20132835","journal-title":"Find Assoc Comput Linguist ACL"},{"key":"322_CR27","unstructured":"Loshchilov I, Hutter F (2018) Decoupled weight decay regularization. In: International conference on learning representations"},{"issue":"8","key":"322_CR28","doi-asserted-by":"publisher","first-page":"1628","DOI":"10.1109\/TMM.2016.2568099","volume":"18","author":"D Lu","year":"2016","unstructured":"Lu D, Liu X, Qian X (2016) Tag-based image search by social re-ranking. IEEE Trans Multimed 18(8):1628\u20131639","journal-title":"IEEE Trans Multimed"},{"key":"322_CR29","doi-asserted-by":"crossref","unstructured":"Lu Y, Liu J, Zhang Y et\u00a0al (2022) Prompt distribution learning. In: IEEE\/CVF conference on computer vision and pattern recognition, pp 5206\u20135215","DOI":"10.1109\/CVPR52688.2022.00514"},{"issue":"86","key":"322_CR30","first-page":"2579","volume":"9","author":"L van der Maaten","year":"2008","unstructured":"van der Maaten L, Hinton G (2008) Visualizing data using t-sne. J Mach Learn Res 9(86):2579\u20132605","journal-title":"J Mach Learn Res"},{"key":"322_CR31","doi-asserted-by":"crossref","unstructured":"Mikolov T, Karafi\u00e1t M, Burget L et\u00a0al (2010) Recurrent neural network based language model. In: Interspeech, pp 1045\u20131048","DOI":"10.21437\/Interspeech.2010-343"},{"key":"322_CR32","unstructured":"Mokady R, Hertz A, Bermano AH (2021) Clipcap: clip prefix for image captioning. arXiv preprint arXiv:2111.09734"},{"key":"322_CR33","doi-asserted-by":"crossref","unstructured":"Petroni F, Rockt\u00e4schel T, Riedel S et al (2019) Language models as knowledge bases?. In 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Association for Computational Linguistics, Hong Kong, China, pp 2463\u20132473","DOI":"10.18653\/v1\/D19-1250"},{"key":"322_CR34","unstructured":"Pham H, Dai Z, Ghiasi G et\u00a0al (2021) Combined scaling for zero-shot transfer learning. arXiv preprint arXiv:2111.10050"},{"key":"322_CR35","unstructured":"Radford A, Narasimhan K, Salimans T et\u00a0al (2018) Improving language understanding by generative pre-training"},{"key":"322_CR36","unstructured":"Radford A, Kim JW, Hallacy C et\u00a0al (2021) Learning transferable visual models from natural language supervision. In: International conference on machine learning, PMLR, pp 8748\u20138763"},{"key":"322_CR37","unstructured":"Ren S, He K, Girshick R et\u00a0al (2015) Faster r-cnn: towards real-time object detection with region proposal networks. Adv Neural Inf Process Syst 28"},{"key":"322_CR38","doi-asserted-by":"crossref","unstructured":"Schick T, Sch\u00fctze H (2021) Exploiting cloze-questions for few-shot text classification and natural language inference. In: 16th Conference of the European chapter of the association for computational linguistics: main volume, pp 255\u2013269","DOI":"10.18653\/v1\/2021.eacl-main.20"},{"key":"322_CR39","unstructured":"Schuhmann C, Kaczmarczyk R, Komatsuzaki A, et\u00a0al (2021) Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. In: NeurIPS Workshop Datacentric AI, J\u00fclich Supercomputing Center, FZJ-2022-00923"},{"key":"322_CR40","doi-asserted-by":"crossref","unstructured":"Song H, Kim M, Park D et\u00a0al (2022) Learning from noisy labels with deep neural networks: a survey. IEEE Trans Neural Netw Learn Syst","DOI":"10.1109\/TNNLS.2022.3152527"},{"key":"322_CR41","doi-asserted-by":"crossref","unstructured":"Song Y, Soleymani M (2019) Polysemous visual-semantic embedding for cross-modal retrieval. In: IEEE\/CVF conference on computer vision and pattern recognition, pp 1979\u20131978","DOI":"10.1109\/CVPR.2019.00208"},{"key":"322_CR42","unstructured":"Strauss J, Paluska JM, Lesniewski-Laas C et\u00a0al (2011) Eyo: device-transparent personal storage. In: USENIX Annual technical conference"},{"key":"322_CR43","unstructured":"Su W, Zhu X, Cao Y et\u00a0al (2020) Vl-bert: pre-training of generic visual-linguistic representations. In: International conference on learning representations"},{"key":"322_CR44","unstructured":"Vaswani A, Shazeer N, Parmar N et\u00a0al (2017) Attention is all you need. Adv Neural Inf Process Syst 30"},{"key":"322_CR45","unstructured":"Wang K, Yin Q, Wang W et\u00a0al (2016) A comprehensive survey on cross-modal retrieval. arXiv preprint arXiv:1607.06215"},{"issue":"3","key":"322_CR46","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3386252","volume":"53","author":"Y Wang","year":"2020","unstructured":"Wang Y, Yao Q, Kwok JT et al (2020) Generalizing from a few examples: a survey on few-shot learning. ACM Comput Surv 53(3):1\u201334","journal-title":"ACM Comput Surv"},{"key":"322_CR47","doi-asserted-by":"crossref","unstructured":"Wortsman M, Ilharco G, Kim JW et\u00a0al (2022) Robust fine-tuning of zero-shot models. In: IEEE\/CVF conference on computer vision and pattern recognition, pp 7959\u20137971","DOI":"10.1109\/CVPR52688.2022.00780"},{"key":"322_CR48","doi-asserted-by":"crossref","unstructured":"Xie Q, Luong MT, Hovy E et\u00a0al (2020) Self-training with noisy student improves imagenet classification. In: IEEE\/CVF conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR42600.2020.01070"},{"key":"322_CR49","doi-asserted-by":"crossref","unstructured":"Yanagi R, Togo R, Ogawa T et\u00a0al (2021) Database-adaptive re-ranking for enhancing cross-modal image retrieval. In: 29th ACM international conference on multimedia, pp 3816\u20133825","DOI":"10.1145\/3474085.3475681"},{"issue":"3","key":"322_CR50","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3485042","volume":"18","author":"R Yanagi","year":"2022","unstructured":"Yanagi R, Togo R, Ogawa T et al (2022) Interactive re-ranking via object entropy-guided question answering for cross-modal image retrieval. ACM Trans Multimed Comput Commun Appl (TOMM) 18(3):1\u201317","journal-title":"ACM Trans Multimed Comput Commun Appl (TOMM)"},{"key":"322_CR51","doi-asserted-by":"publisher","first-page":"67","DOI":"10.1162\/tacl_a_00166","volume":"2","author":"P Young","year":"2014","unstructured":"Young P, Lai A, Hodosh M et al (2014) From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. Trans Assoc Comput Linguist 2:67\u201378","journal-title":"Trans Assoc Comput Linguist"},{"key":"322_CR52","doi-asserted-by":"publisher","first-page":"10675","DOI":"10.1109\/ACCESS.2023.3239858","volume":"11","author":"H Zhang","year":"2023","unstructured":"Zhang H, Yanagi R, Togo R et al (2023) Cross-modal image retrieval considering semantic relationships with many-to-many correspondence loss. IEEE Access 11:10675\u201310686","journal-title":"IEEE Access"},{"issue":"1","key":"322_CR53","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/s40649-019-0069-y","volume":"6","author":"S Zhang","year":"2019","unstructured":"Zhang S, Tong H, Xu J et al (2019) Graph convolutional networks: a comprehensive review. Comput Soc Netw 6(1):1\u201323","journal-title":"Comput Soc Netw"},{"key":"322_CR54","doi-asserted-by":"crossref","unstructured":"Zhou K, Yang J, Loy CC et\u00a0al (2022a) Conditional prompt learning for vision-language models. In: IEEE\/CVF conference on computer vision and pattern recognition, pp 16816\u201316825","DOI":"10.1109\/CVPR52688.2022.01631"},{"issue":"9","key":"322_CR55","doi-asserted-by":"publisher","first-page":"2337","DOI":"10.1007\/s11263-022-01653-1","volume":"130","author":"K Zhou","year":"2022","unstructured":"Zhou K, Yang J, Loy CC et al (2022) Learning to prompt for vision-language models. Int J Comput Vis 130(9):2337\u20132348","journal-title":"Int J Comput Vis"},{"key":"322_CR56","unstructured":"Zhou W, Li H, Tian Q (2017) Recent advance in content-based image retrieval: a literature survey. arXiv preprint arXiv:1706.06064"}],"container-title":["International Journal of Multimedia Information Retrieval"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s13735-024-00322-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s13735-024-00322-y\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s13735-024-00322-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,3,28]],"date-time":"2024-03-28T11:18:41Z","timestamp":1711624721000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s13735-024-00322-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,2,29]]},"references-count":56,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2024,3]]}},"alternative-id":["322"],"URL":"https:\/\/doi.org\/10.1007\/s13735-024-00322-y","relation":{},"ISSN":["2192-6611","2192-662X"],"issn-type":[{"value":"2192-6611","type":"print"},{"value":"2192-662X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,2,29]]},"assertion":[{"value":"18 April 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 January 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 January 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 February 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"There were no human subjects or animal subjects in this research.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}}],"article-number":"14"}}