{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,13]],"date-time":"2026-04-13T19:36:08Z","timestamp":1776108968798,"version":"3.50.1"},"reference-count":19,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Intell. Syst."],"published-print":{"date-parts":[[2024,5]]},"DOI":"10.1109\/mis.2024.3384513","type":"journal-article","created":{"date-parts":[[2024,4,3]],"date-time":"2024-04-03T18:03:16Z","timestamp":1712167396000},"page":"35-44","source":"Crossref","is-referenced-by-count":3,"title":["Detect2Interact: Localizing Object Key Field in Visual Question Answering with LLMs"],"prefix":"10.1109","volume":"39","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8833-4360","authenticated-orcid":false,"given":"Jialou","family":"Wang","sequence":"first","affiliation":[{"name":"Northumbria University, Newcastle upon Tyne, U.K."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2180-5740","authenticated-orcid":false,"given":"Manli","family":"Zhu","sequence":"additional","affiliation":[{"name":"Northumbria University, Newcastle upon Tyne, U.K."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3579-6179","authenticated-orcid":false,"given":"Yulei","family":"Li","sequence":"additional","affiliation":[{"name":"Northumbria University, Newcastle upon Tyne, U.K."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3126-0764","authenticated-orcid":false,"given":"Honglei","family":"Li","sequence":"additional","affiliation":[{"name":"Northumbria University, Newcastle upon Tyne, U.K."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2115-4909","authenticated-orcid":false,"given":"Longzhi","family":"Yang","sequence":"additional","affiliation":[{"name":"Northumbria University, Newcastle upon Tyne, U.K."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8698-7605","authenticated-orcid":false,"given":"Wai Lok","family":"Woo","sequence":"additional","affiliation":[{"name":"Northumbria University, Newcastle upon Tyne, U.K."}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/lra.2023.3295255"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.876"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.procir.2022.02.162"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01438"},{"key":"ref5","article-title":"VisionLLM: Large language model is also an open-ended decoder for vision-centric tasks","author":"Wang","year":"2023"},{"key":"ref6","article-title":"Kosmos-2: Grounding multimodal large language models to the world","author":"Peng","year":"2023"},{"key":"ref7","article-title":"MiniGPT-v2: Large language model as a unified interface for vision-language multi-task learning","author":"Chen","year":"2023"},{"key":"ref8","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1422953112"},{"key":"ref11","article-title":"A multi-world approach to question answering about real-world scenes based on uncertain input","volume":"27","author":"Malinowski","year":"2014","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"ref13","article-title":"MiniGPT-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/wacv.2018.00201"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cvi.2018.5226"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/icetce48199.2020.9091754"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1016\/j.image.2019.115648"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2013.140"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.15"}],"container-title":["IEEE Intelligent Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9670\/10570357\/10490309.pdf?arnumber=10490309","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,25]],"date-time":"2024-06-25T21:48:14Z","timestamp":1719352094000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10490309\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5]]},"references-count":19,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/mis.2024.3384513","relation":{},"ISSN":["1541-1672","1941-1294"],"issn-type":[{"value":"1541-1672","type":"print"},{"value":"1941-1294","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,5]]}}}