{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,6]],"date-time":"2026-01-06T18:46:14Z","timestamp":1767725174183,"version":"3.48.0"},"reference-count":62,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"National Key R&#x0026;D Program of China","award":["2023YFC3304601"],"award-info":[{"award-number":["2023YFC3304601"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62272015"],"award-info":[{"award-number":["62272015"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U21B2038"],"award-info":[{"award-number":["U21B2038"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["92370102"],"award-info":[{"award-number":["92370102"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62441232"],"award-info":[{"award-number":["62441232"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Artif. Intell."],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1109\/tai.2025.3575553","type":"journal-article","created":{"date-parts":[[2025,6,3]],"date-time":"2025-06-03T13:54:57Z","timestamp":1748958897000},"page":"412-425","source":"Crossref","is-referenced-by-count":0,"title":["ICQ-TransE: LLM-Enhanced Image-Caption-Question Translating Embeddings for Knowledge-Based Visual Question Answering"],"prefix":"10.1109","volume":"7","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0703-6255","authenticated-orcid":false,"given":"Heng","family":"Liu","sequence":"first","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Institute of Artificial Intelligence School of Information Science and Technology, Beijing University of Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2677-8342","authenticated-orcid":false,"given":"Boyue","family":"Wang","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Institute of Artificial Intelligence School of Information Science and Technology, Beijing University of Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1536-4264","authenticated-orcid":false,"given":"Xiaoyan","family":"Li","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Institute of Artificial Intelligence School of Information Science and Technology, Beijing University of Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0872-384X","authenticated-orcid":false,"given":"Yanfeng","family":"Sun","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Institute of Artificial Intelligence School of Information Science and Technology, Beijing University of Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0440-438X","authenticated-orcid":false,"given":"Yongli","family":"Hu","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Institute of Artificial Intelligence School of Information Science and Technology, Beijing University of Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3121-1823","authenticated-orcid":false,"given":"Baocai","family":"Yin","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Institute of Artificial Intelligence School of Information Science and Technology, Beijing University of Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00331"},{"key":"ref2","first-page":"5428","article-title":"Learning answer embeddings for visual question answering","volume-title":"Proc. CVPR","author":"Hu","year":"2018"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2021.02.001"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i14.17490"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.294"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.604"},{"key":"ref8","first-page":"4149","article-title":"Commonsenseqa: A question answering challenge targeting commonsense knowledge","volume-title":"Proc. NAACL-HLT","author":"Talmor","year":"2019"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-30796-7_5"},{"key":"ref10","first-page":"2787","article-title":"Translating embeddings for modeling multi-relational data","volume-title":"Proc. NIPS","author":"Bordes","year":"2013"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1164"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.302"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2022.118669"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3487553.3524648"},{"key":"ref15","first-page":"5824","article-title":"Multi-modality latent interaction network for visual question answering","volume-title":"Proc. ICCV","author":"Gao","year":"2019"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3097180"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58601-0_2"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00503"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3291379"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/153"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.44"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01389"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2024.3384270"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20215"},{"key":"ref25","article-title":"REVIVE: regional visual representation matters in knowledge-based visual question answering","volume-title":"Proc. NeurIPS","author":"Lin","year":"2022"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.70"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01438"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"article-title":"Very deep convolutional networks for large-scale image recognition","year":"2014","author":"Simonyan","key":"ref29"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2020.2998805"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2953692"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3136330"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2023.3282921"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2022.3224228"},{"key":"ref36","first-page":"13","article-title":"VilBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. NeurIPS","author":"Lu","year":"2019"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2577031"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2892802"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1514"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3189242"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00121"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref43","first-page":"4171","article-title":"BERT: pre-training of deep bidirectional transformers for language understanding","volume-title":"Proc. NAACL","author":"Devlin","year":"2019"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1181"},{"key":"ref45","first-page":"8024","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume-title":"Proc. NeurIPS","author":"Paszke","year":"2019"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.3045034"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2817340"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00644"},{"key":"ref51","first-page":"1571","article-title":"Bilinear attention networks","volume-title":"Proc. NeurIPS","author":"Kim","year":"2018"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.285"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01046"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107563"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3447548.3467285"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413943"},{"article-title":"Fixing weight decay regularization in Adam","year":"2017","author":"Loshchilov","key":"ref57"},{"article-title":"PromptCap: Prompt-guided task-aware image captioning","year":"2022","author":"Hu","key":"ref58"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-emnlp.67"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.11164"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-76298-0_52"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46547-0_19"}],"container-title":["IEEE Transactions on Artificial Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/9078688\/11329125\/11022756.pdf?arnumber=11022756","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,6]],"date-time":"2026-01-06T18:38:39Z","timestamp":1767724719000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11022756\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":62,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/tai.2025.3575553","relation":{},"ISSN":["2691-4581"],"issn-type":[{"type":"electronic","value":"2691-4581"}],"subject":[],"published":{"date-parts":[[2026,1]]}}}