{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T16:11:39Z","timestamp":1772899899782,"version":"3.50.1"},"reference-count":51,"publisher":"Tsinghua University Press","issue":"3","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62272100"],"award-info":[{"award-number":["62272100"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Big Data Min. Anal."],"published-print":{"date-parts":[[2024,9]]},"DOI":"10.26599\/bdma.2024.9020026","type":"journal-article","created":{"date-parts":[[2024,8,28]],"date-time":"2024-08-28T19:09:04Z","timestamp":1724872144000},"page":"843-857","source":"Crossref","is-referenced-by-count":16,"title":["Prompting Large Language Models with Knowledge-Injection for Knowledge-Based Visual Question Answering"],"prefix":"10.26599","volume":"7","author":[{"given":"Zhongjian","family":"Hu","sequence":"first","affiliation":[{"name":"School of Computer Science and Engineering, Southeast University,Nanjing,China,211189"}]},{"given":"Peng","family":"Yang","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, Southeast University,Nanjing,China,211189"}]},{"given":"Fengyuan","family":"Liu","sequence":"additional","affiliation":[{"name":"Southeast University - Monash University Joint Graduate School (Suzhou), Southeast University,Suzhou,China,215125"}]},{"given":"Yuan","family":"Meng","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, Southeast University,Nanjing,China,211189"}]},{"given":"Xingyu","family":"Liu","sequence":"additional","affiliation":[{"name":"Southeast University - Monash University Joint Graduate School (Suzhou), Southeast University,Suzhou,China,215125"}]}],"member":"11138","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-19-0964-1_5"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-020-09832-7"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2754246"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00331"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20074-8_9"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01389"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20215"},{"key":"ref8","article-title":"Language models are few-shot learners","author":"Brown","year":"2020","journal-title":"arXiv preprint"},{"key":"ref9","first-page":"9459","article-title":"Retrieval-augmented generation for knowledge-intensive NLP tasks","volume-title":"Advances in Neural Information Processing Systems","author":"Lewis","year":"2020"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2024.3362475"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1016\/j.rse.2023.113856"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2878958"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-16-1092-9_7"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-022-01646-0"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-023-01784-z"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01028"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr46437.2021.00553"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.01041"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413977"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00644"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475251"},{"key":"ref23","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","author":"Li","year":"2022","journal-title":"arXiv preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52688.2022.01599"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.9"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.202"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.12"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20174"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01438"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/tkde.2024.3352100"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1088\/1742-6596\/1487\/1\/012016"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/p19-1139"},{"key":"ref33","article-title":"ERNIE 3.0: Largescale knowledge enhanced pre-training for language understanding and generation","author":"Sun","year":"2021","journal-title":"arXiv preprint"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.deelio-1.10"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.285"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/153"},{"key":"ref37","first-page":"489","article-title":"Concept Bert: Concept-aware representation for visual question answering","volume-title":"Proc. Findings of the Association for Computational Linguistics: EMNLP 2020","author":"Gard\u00e8res"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.517"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00501"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547870"},{"key":"ref41","article-title":"Pythia v0.1: The winning entry to the VQA challenge 2018","author":"Jiang","year":"2018","journal-title":"arXiv preprint"},{"key":"ref42","first-page":"13","article-title":"Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Advances in Neural Information Processing Systems","author":"Lu","year":"2019"},{"key":"ref43","article-title":"Clipcap: Clip prefix for image captioning","author":"Mokady","year":"2021","journal-title":"arXiv preprint"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1514"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20059-5_38"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00121"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.670"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0981-7"},{"key":"ref49","article-title":"Llama: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"arXiv preprint"},{"key":"ref50","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv preprint"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-77385-4_41"}],"container-title":["Big Data Mining and Analytics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8254253\/10654612\/10654678.pdf?arnumber=10654678","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,8]],"date-time":"2025-05-08T17:42:00Z","timestamp":1746726120000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10654678\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9]]},"references-count":51,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.26599\/bdma.2024.9020026","relation":{},"ISSN":["2096-0654","2097-406X"],"issn-type":[{"value":"2096-0654","type":"print"},{"value":"2097-406X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,9]]}}}