{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:55:39Z","timestamp":1781538939557,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":55,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"National Science Fund for Distinguished Young Scholars of China","award":["62325601"],"award-info":[{"award-number":["62325601"]}]},{"name":"Fundamental and Interdisciplinary Disciplines Breakthrough Plan of the Ministry of Education of China","award":["JYB2025XDXM612"],"award-info":[{"award-number":["JYB2025XDXM612"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810578","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1174-1183","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Adaptive Knowledge Generation via Reinforcement-Guided Pattern Completion for Zero-Shot Visual Question Answering"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-7799-1534","authenticated-orcid":false,"given":"Zhihui","family":"Sun","sequence":"first","affiliation":[{"name":"School of Artificial Intelligence, Beijing Normal University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2503-4202","authenticated-orcid":false,"given":"Diwei","family":"Su","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, Beijing Normal University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1178-7422","authenticated-orcid":false,"given":"Xiuxing","family":"Li","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Beijing Institute of Technology, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-8597-2160","authenticated-orcid":false,"given":"Qixin","family":"Wang","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, Beijing Normal University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-2961-8036","authenticated-orcid":false,"given":"Shihao","family":"Zhang","sequence":"additional","affiliation":[{"name":"Beijing Normal University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2377-6093","authenticated-orcid":false,"given":"Xia","family":"Wu","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Beijing Institute of Technology, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"crossref","unstructured":"Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr Yana Hasson Karel Lenc Arthur Mensch Katherine Millican Malcolm Reynolds et\u00a0al. 2022. Flamingo: A Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems 35 (2022) 23716\u201323736. https:\/\/papers.nips.cc\/paper_files\/paper\/2022\/hash\/960a172bc7fbf0177ccccbb411a7d800-Abstract-Conference.html","DOI":"10.52202\/068431-1723"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2504.09000"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-eacl.36"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"e_1_3_3_1_8_2","series-title":"Proceedings of Machine Learning Research","first-page":"1931","volume-title":"Proceedings of the 38th International Conference on Machine Learning","volume":"139","author":"Cho Jaemin","year":"2021","unstructured":"Jaemin Cho, Jie Lei, Hao Tan, and Mohit Bansal. 2021. Unifying Vision-and-Language Tasks via Text Generation. In Proceedings of the 38th International Conference on Machine Learning(Proceedings of Machine Learning Research, Vol.\u00a0139). PMLR, 1931\u20131942. https:\/\/proceedings.mlr.press\/v139\/cho21a.html"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-acl.187"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2142"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","unstructured":"Luciano Floridi and Massimo Chiriatti. 2020. GPT-3: Its Nature Scope Limits and Consequences. Minds and Machines 30 4 (2020) 681\u2013694. 10.1007\/s11023-020-09548-1","DOI":"10.1007\/s11023-020-09548-1"},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","unstructured":"Sandra Gattas Myra\u00a0Sarai Larson Lilit Mnatsakanyan Indranil Sen-Gupta Sumeet Vadera A.\u00a0Lee Swindlehurst Paul\u00a0E. Rapp Jack\u00a0J. Lin and Michael\u00a0A. Yassa. 2023. Theta-Mediated Dynamics of Human Hippocampal-Neocortical Learning Systems in Memory Formation and Retrieval. Nature Communications 14 1 Article 8505 (2023) 14\u00a0pages. 10.1038\/s41467-023-44011-6","DOI":"10.1038\/s41467-023-44011-6"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.670"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","unstructured":"Xenia Grande David Berron Aidan\u00a0J. Horner James\u00a0A. Bisby Emrah D\u00fczel and Neil Burgess. 2019. Holistic Recollection via Pattern Completion Involves Hippocampal Subfield CA3. Journal of Neuroscience 39 41 (2019) 8100\u20138111. 10.1523\/JNEUROSCI.0722-19.2019","DOI":"10.1523\/JNEUROSCI.0722-19.2019"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","unstructured":"Dalu Guo Chang Xu and Dacheng Tao. 2021. Bilinear Graph Networks for Visual Question Answering. IEEE Transactions on Neural Networks and Learning Systems 34 2 (2021) 1023\u20131034. 10.1109\/TNNLS.2021.3104937","DOI":"10.1109\/TNNLS.2021.3104937"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01046"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","unstructured":"Markus Hafner Maria Katsantoni Tino K\u00f6ster James Marks Joyita Mukherjee Dorothee Staiger Jernej Ule and Mihaela Zavolan. 2021. CLIP and Complementary Methods. Nature Reviews Methods Primers 1 1 Article 20 (2021) 23\u00a0pages. 10.1038\/s43586-021-00018-1","DOI":"10.1038\/s43586-021-00018-1"},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","unstructured":"Chuanfei Hu and Xinde Li. 2025. Human-Centric Context and Self-Uncertainty-Driven Multi-Modal Large Language Model for Training-Free Vision-Based Driver State Recognition. IEEE Transactions on Intelligent Transportation Systems (2025). 10.1109\/TITS.2025.3558847","DOI":"10.1109\/TITS.2025.3558847"},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"publisher","unstructured":"Naihao Hu Xiaodan Zhang Qiyuan Zhang Wei Huo and Shaojie You. 2025. ZPVQA: Visual Question Answering of Images Based on Zero-Shot Prompt Learning. IEEE Access 13 (2025) 1\u201312. 10.1109\/ACCESS.2025.3550942","DOI":"10.1109\/ACCESS.2025.3550942"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1902.09506"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"crossref","unstructured":"Byeong\u00a0Su Kim Jieun Kim Deokwoo Lee and Beakcheol Jang. 2025. Visual Question Answering: A Survey of Methods Datasets Evaluation and Challenges. ACM Comput. Surv. 57 10 Article 210 (2025) 35\u00a0pages.","DOI":"10.1145\/3728635"},{"key":"e_1_3_3_1_22_2","unstructured":"Jin-Hwa Kim Jaehyun Jun and Byoung-Tak Zhang. 2018. Bilinear Attention Networks. Advances in Neural Information Processing Systems 31 (2018) 1571\u20131581. https:\/\/proceedings.neurips.cc\/paper\/2018\/hash\/96ea64f3a1aa2fd00c72faacf0cb8ac9-Abstract.html"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","unstructured":"Jiayi Kuang Ying Shen Jingyou Xie Haohao Luo Zhe Xu Ronghao Li Yinghui Li Xianfeng Cheng Xika Lin and Yu Han. 2025. Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey. Comput. Surveys 57 8 Article 172 (2025) 36\u00a0pages. 10.1145\/3711680","DOI":"10.1145\/3711680"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612389"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2301.12597"},{"key":"e_1_3_3_1_26_2","series-title":"Proceedings of Machine Learning Research","first-page":"12888","volume-title":"Proceedings of the 39th International Conference on Machine Learning","volume":"162","author":"Li Junnan","year":"2022","unstructured":"Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022. BLIP: Bootstrapping Language-Image Pre-Training for Unified Vision-Language Understanding and Generation. In Proceedings of the 39th International Conference on Machine Learning(Proceedings of Machine Learning Research, Vol.\u00a0162). PMLR, 12888\u201312900. https:\/\/proceedings.mlr.press\/v162\/li22n.html"},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/CASE56687.2023.10260599"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","unstructured":"Tianjun Li Xinting Yang Xiao Chen Huan Hu Zijie Zhou and Wenyong Li. 2024. Zero-Shot Pest Identification Based on Generative Adversarial Networks and Visual-Semantic Alignment. Smart Agriculture 6 2 (2024) 72\u201384. 10.12133\/j.smartag.SA202312014","DOI":"10.12133\/j.smartag.SA202312014"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","unstructured":"Cheng Liu Chao Wang Yan Peng and Zhixu Li. 2024. ZVQAF: Zero-Shot Visual Question Answering with Feedback from Large Language Models. Neurocomputing 580 Article 127505 (2024) 12\u00a0pages. 10.1016\/j.neucom.2024.127505","DOI":"10.1016\/j.neucom.2024.127505"},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"crossref","unstructured":"Haotian Liu Chunyuan Li Qingyang Wu and Yong\u00a0Jae Lee. 2023. Visual Instruction Tuning. Adv. Neural Inf. Process. Syst. 36 (2023) 34892\u201334916.","DOI":"10.52202\/075280-1516"},{"key":"e_1_3_3_1_32_2","unstructured":"Jiasen Lu Dhruv Batra Devi Parikh and Stefan Lee. 2019. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems 32 (2019) 13\u201323. https:\/\/proceedings.neurips.cc\/paper\/2019\/hash\/c74d97b01eae257e44aa9d5bade97baf-Abstract.html"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00331"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01237-3_28"},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2508.10824"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00163"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20074-8_9"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2307.00862"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","unstructured":"Weinan Sun Johan Winnubst Maanasa Natrajan Chongxi Lai Koichiro Kajikawa Arco Bast Michalis Michaelos Rachel Gattoni Carsen Stringer Daniel Flickinger et\u00a0al. 2025. Learning Produces an Orthogonalized State Machine in the Hippocampus. Nature 640 8057 (2025) 165\u2013175. 10.1038\/s41586-024-08548-w","DOI":"10.1038\/s41586-024-08548-w"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1611.05546"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-emnlp.67"},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2106.13884"},{"key":"e_1_3_3_1_43_2","unstructured":"Rodrigo Jo\u00e3o\u00a0Cruz Val\u00e9rio. 2023. Zero-Shot Verified Image Generation: From Natural Language to Visual Prompts. Master\u2019s thesis. Universidade NOVA de Lisboa Lisbon Portugal."},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.20944\/preprints202511.1720.v1"},{"key":"e_1_3_3_1_45_2","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2408.15262"},{"key":"e_1_3_3_1_46_2","doi-asserted-by":"publisher","unstructured":"Peng Wang Qi Wu Chunhua Shen Anthony Dick and Anton Van Den\u00a0Hengel. 2017. FVQA: Fact-Based Visual Question Answering. IEEE Transactions on Pattern Analysis and Machine Intelligence 40 10 (2017) 2413\u20132427. 10.1109\/TPAMI.2017.2754246","DOI":"10.1109\/TPAMI.2017.2754246"},{"key":"e_1_3_3_1_47_2","doi-asserted-by":"publisher","unstructured":"Szu-Han Wang and Richard G.\u00a0M. Morris. 2010. Hippocampal-Neocortical Interactions in Memory Formation Consolidation and Reconsolidation. Annual Review of Psychology 61 1 (2010) 49\u201379. 10.1146\/annurev.psych.093008.100523","DOI":"10.1146\/annurev.psych.093008.100523"},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"publisher","unstructured":"Jake\u00a0F. Watson Victor Vargas-Barroso Rebecca\u00a0J. Morse-Mora Andrea Navas-Olive Mojtaba\u00a0R. Tavakoli Johann\u00a0G. Danzl Matthias Tomschik Karl R\u00f6ssler and Peter Jonas. 2025. Human Hippocampal CA3 Uses Specific Functional Connectivity Rules for Efficient Associative Memory. Cell 188 2 (2025) 501\u2013514. 10.1016\/j.cell.2024.11.022","DOI":"10.1016\/j.cell.2024.11.022"},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"publisher","unstructured":"Jingxuan Wei Cheng Tan Zhangyang Gao Linzhuang Sun Siyuan Li Bihui Yu Ruifeng Guo and Stan\u00a0Z. Li. 2024. Enhancing Human-Like Multimodal Reasoning: A New Challenging Dataset and Comprehensive Framework. Neural Computing and Applications 36 33 (2024) 20849\u201320861. 10.1007\/s00521-024-10310-2","DOI":"10.1007\/s00521-024-10310-2"},{"key":"e_1_3_3_1_50_2","doi-asserted-by":"crossref","unstructured":"Jason Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Fei Xia Ed\u00a0H. Chi Quoc\u00a0V. Le Denny Zhou et\u00a0al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems 35 (2022) 24824\u201324837. https:\/\/papers.nips.cc\/paper_files\/paper\/2022\/hash\/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html","DOI":"10.52202\/068431-1800"},{"key":"e_1_3_3_1_51_2","doi-asserted-by":"publisher","DOI":"10.2139\/ssrn.5731427"},{"key":"e_1_3_3_1_52_2","doi-asserted-by":"publisher","unstructured":"Jiayuan Xie Yi Cai Jiali Chen Ruohang Xu Jiexin Wang and Qing Li. 2024. Knowledge-Augmented Visual Question Answering With Natural Language Explanation. IEEE Transactions on Image Processing 33 (2024) 2652\u20132664. 10.1109\/TIP.2024.3379900","DOI":"10.1109\/TIP.2024.3379900"},{"key":"e_1_3_3_1_53_2","doi-asserted-by":"publisher","unstructured":"Jiayuan Xie Yi Cai Jiali Chen Ruohang Xu Jiexin Wang and Qing Li. 2024. Knowledge-Augmented Visual Question Answering with Natural Language Explanation. IEEE Transactions on Image Processing 33 (2024) 2652\u20132664. 10.1109\/TIP.2024.3379900","DOI":"10.1109\/TIP.2024.3379900"},{"key":"e_1_3_3_1_54_2","doi-asserted-by":"publisher","unstructured":"Quanxing Xu Jian Li Yuhao Tian Ling Zhou Feifei Zhang and Rubing Huang. 2025. Diff-ZsVQA: Zero-Shot Visual Question Answering with Frozen Large Language Models Using Diffusion Model. Expert Systems with Applications 275 Article 126951 (2025) 14\u00a0pages. 10.1016\/j.eswa.2025.126951","DOI":"10.1016\/j.eswa.2025.126951"},{"key":"e_1_3_3_1_55_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20215"},{"key":"e_1_3_3_1_56_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00553"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:14:34Z","timestamp":1781536474000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810578"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":55,"alternative-id":["10.1145\/3805622.3810578","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810578","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}