{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:57:55Z","timestamp":1781539075357,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":56,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62272804"],"award-info":[{"award-number":["62272804"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810607","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"242-251","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["B-HFA: Parameter-Efficient Vision-Language Retrieval via Block-shared Adapters and Hierarchical Aggregation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-1662-2085","authenticated-orcid":false,"given":"Rui","family":"Xu","sequence":"first","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8138-6045","authenticated-orcid":false,"given":"Lin","family":"Yao","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-7982-6217","authenticated-orcid":false,"given":"Zhiyang","family":"Wu","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7353-4159","authenticated-orcid":false,"given":"Xuyun","family":"Zhang","sequence":"additional","affiliation":[{"name":"Macquarie University, Sydney, Australia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3929-3598","authenticated-orcid":false,"given":"Guowei","family":"Wu","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1723"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"e_1_3_3_1_4_2","first-page":"1877","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Brown Tom","year":"2020","unstructured":"Tom Brown, Benjamin Mann, Nick Ryder, et\u00a0al. 2020. Language models are few-shot learners. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a033. 1877\u20131901."},{"key":"e_1_3_3_1_5_2","first-page":"190","volume-title":"Proceedings of the 49th Annual Meeting of the ACL","author":"Chen David\u00a0L.","year":"2011","unstructured":"David\u00a0L. Chen and William\u00a0B. Dolan. 2011. Collecting highly parallel data for paraphrase evaluation. In Proceedings of the 49th Annual Meeting of the ACL. 190\u2013200."},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2507.06261"},{"key":"e_1_3_3_1_8_2","first-page":"75","volume-title":"Proceedings of the European Conference on Computer Vision (ECCV)","volume":"15102","author":"Diao Haiwei","year":"2024","unstructured":"Haiwei Diao, Bo Wan, Xu Jia, et\u00a0al. 2024. SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning. In Proceedings of the European Conference on Computer Vision (ECCV) , Vol.\u00a015102. Springer, 75\u201395."},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.1145\/3731715.3733460"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2111.12681"},{"key":"e_1_3_3_1_11_2","first-page":"6616","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Gan Zhe","year":"2020","unstructured":"Zhe Gan, Yen-Chun Chen, Linjie Li, et\u00a0al. 2020. Large-scale adversarial training for vision-and-language representation learning. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a033. 6616\u20136628."},{"key":"e_1_3_3_1_12_2","unstructured":"Google Gemini Team. 2024. Gemini 1.5: Unlocking Multimodal Understanding Across Millions of Tokens of Context. arXiv:https:\/\/arXiv.org\/abs\/2403.05530."},{"key":"e_1_3_3_1_13_2","first-page":"6904","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Goyal Yash","year":"2017","unstructured":"Yash Goyal, Tejas Khot, Douglas Summers-Stay, et\u00a0al. 2017. Making the V in VQA matter: Elevating the role of image understanding. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 6904\u20136913."},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i16.33868"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"crossref","unstructured":"Harold\u00a0V. Henderson Friedrich Pukelsheim and Shayle\u00a0R. Searle. 1983. On the history of the Kronecker product. Linear and Multilinear Algebra 14 (1983) 113\u2013120.","DOI":"10.1080\/03081088308817548"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.618"},{"key":"e_1_3_3_1_17_2","first-page":"2790","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","volume":"97","author":"Houlsby Neil","year":"2019","unstructured":"Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, et\u00a0al. 2019. Parameter-efficient transfer learning for NLP. In Proceedings of the International Conference on Machine Learning (ICML) , Vol.\u00a097. PMLR, 2790\u20132799."},{"key":"e_1_3_3_1_18_2","volume-title":"Proceedings of the International Conference on Learning Representations (ICLR)","author":"Hu Edward\u00a0J.","year":"2022","unstructured":"Edward\u00a0J. Hu, Yelong Shen, Phillip Wallis, et\u00a0al. 2022. LoRA: Low-Rank Adaptation of Large Language Models. In Proceedings of the International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00281"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00635"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01278"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1145\/3731715.3733324"},{"key":"e_1_3_3_1_23_2","first-page":"4904","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","volume":"139","author":"Jia Chao","year":"2021","unstructured":"Chao Jia, Yinfei Yang, Ye Xia, et\u00a0al. 2021. Scaling up visual and vision-language representation learning with noisy text supervision. In Proceedings of the International Conference on Machine Learning (ICML) , Vol.\u00a0139. PMLR, 4904\u20134916."},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2401.04088"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2310.08825"},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"crossref","unstructured":"Haojun Jiang Jianke Zhang Rui Huang et\u00a0al. 2025. Cross-modal adapter for vision\u2013language retrieval. Pattern Recognition 159 (2025) 111144.","DOI":"10.1016\/j.patcog.2024.111144"},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01832"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"crossref","unstructured":"Ranjay Krishna Yuke Zhu Oliver Groth et\u00a0al. 2017. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision (IJCV) 123 1 (2017) 32\u201373.","DOI":"10.1007\/s11263-016-0981-7"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00725"},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00490"},{"key":"e_1_3_3_1_32_2","first-page":"19730","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","volume":"202","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, et\u00a0al. 2023. Blip-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In Proceedings of the International Conference on Machine Learning (ICML) , Vol.\u00a0202. PMLR, 19730\u201319742."},{"key":"e_1_3_3_1_33_2","first-page":"12888","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","volume":"162","author":"Li Junnan","year":"2022","unstructured":"Junnan Li, Dongxu Li, Caiming Xiong, et\u00a0al. 2022. BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation. In Proceedings of the International Conference on Machine Learning (ICML) , Vol.\u00a0162. PMLR, 12888\u201312900."},{"key":"e_1_3_3_1_34_2","first-page":"9694","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Li Junnan","year":"2021","unstructured":"Junnan Li, Ramprasaath Selvaraju, Akhilesh Gotmare, et\u00a0al. 2021. Align before fuse: Vision and language representation learning with momentum distillation. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a034. 9694\u20139705."},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02536"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"e_1_3_3_1_39_2","first-page":"34892","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Liu Haotian","year":"2023","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, et\u00a0al. 2023. Visual instruction tuning. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a036. 34892\u201334916."},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2302.06605"},{"key":"e_1_3_3_1_41_2","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Lu Jiasen","year":"2019","unstructured":"Jiasen Lu, Dhruv Batra, Devi Parikh, et\u00a0al. 2019. Vilbert: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a032."},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2104.08860"},{"key":"e_1_3_3_1_43_2","volume-title":"Llama 3.2: Revolutionizing edge AI and vision with open, customizable models","author":"AI Meta","year":"2024","unstructured":"Meta AI. 2024. Llama 3.2: Revolutionizing edge AI and vision with open, customizable models. Technical Report. Meta. https:\/\/ai.meta.com\/blog\/llama-3-2-connect-2024-vision-edge-mobile-devices\/"},{"key":"e_1_3_3_1_44_2","unstructured":"OpenAI. 2024. GPT-4o System Card. arXiv:https:\/\/arXiv.org\/abs\/2410.21276."},{"key":"e_1_3_3_1_45_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2304.07193"},{"key":"e_1_3_3_1_46_2","first-page":"2641","volume-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","author":"Plummer Bryan\u00a0A.","year":"2015","unstructured":"Bryan\u00a0A. Plummer, Liwei Wang, Chris\u00a0M. Cervantes, et\u00a0al. 2015. Flickr30k entities: Collecting region-to-phrase correspondences. In Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV). 2641\u20132649."},{"key":"e_1_3_3_1_47_2","first-page":"8748","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","volume":"139","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, et\u00a0al. 2021. Learning transferable visual models from natural language supervision. In Proceedings of the International Conference on Machine Learning (ICML) , Vol.\u00a0139. PMLR, 8748\u20138763."},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1908.08530"},{"key":"e_1_3_3_1_49_2","first-page":"12991","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Sung Yi-Lin","year":"2022","unstructured":"Yi-Lin Sung, Jaemin Cho, and Mohit Bansal. 2022. LST: ladder side-tuning for parameter and memory efficient transfer learning. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a035. 12991\u201313005."},{"key":"e_1_3_3_1_50_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2307.09288"},{"key":"e_1_3_3_1_51_2","doi-asserted-by":"crossref","unstructured":"Tucker and Ledyard R. 1966. Some mathematical notes on three-mode factor analysis. Psychometrika 31 3 (1966) 279\u2013311.","DOI":"10.1007\/BF02289464"},{"key":"e_1_3_3_1_52_2","first-page":"15752","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Wang Haixin","year":"2023","unstructured":"Haixin Wang, Xinlong Yang, Jianlong Chang, et\u00a0al. 2023. Parameter-efficient-tuning-of-large-scale-multimodal-foundation-model. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a036. 15752\u201315774."},{"key":"e_1_3_3_1_53_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00638"},{"key":"e_1_3_3_1_54_2","first-page":"23318","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","volume":"162","author":"Wang Peng","year":"2022","unstructured":"Peng Wang, An Yang, Rui Men, et\u00a0al. 2022. Ofa: unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework. In Proceedings of the International Conference on Machine Learning (ICML) , Vol.\u00a0162. PMLR, 23318\u201323340."},{"key":"e_1_3_3_1_55_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2108.10904"},{"key":"e_1_3_3_1_56_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2111.07783"},{"key":"e_1_3_3_1_57_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2111.11432"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:50:01Z","timestamp":1781538601000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810607"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":56,"alternative-id":["10.1145\/3805622.3810607","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810607","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}