{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:08:46Z","timestamp":1777655326947,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":15,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,6,3]],"date-time":"2024-06-03T00:00:00Z","timestamp":1717372800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/4.0\/"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,6,3]]},"DOI":"10.1145\/3656650.3656677","type":"proceedings-article","created":{"date-parts":[[2024,5,31]],"date-time":"2024-05-31T18:27:17Z","timestamp":1717180037000},"page":"1-5","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":5,"title":["VQAsk: a multimodal Android GPT-based application to help blind users visualize pictures"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1391-8502","authenticated-orcid":false,"given":"Maria","family":"De Marsico","sequence":"first","affiliation":[{"name":"Computer Science, Sapienza University of Rome, Italy"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-6919-7771","authenticated-orcid":false,"given":"Chiara","family":"Giacanelli","sequence":"additional","affiliation":[{"name":"Computer Science, Sapienza University of Rome, Italy"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-0295-6958","authenticated-orcid":false,"given":"Clizia Giorgia","family":"Manganaro","sequence":"additional","affiliation":[{"name":"Computer Science, Sapienza University of Rome, Italy"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-4332-9179","authenticated-orcid":false,"given":"Alessio","family":"Palma","sequence":"additional","affiliation":[{"name":"Computer Science, Sapienza University of Rome, Italy"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-0837-8936","authenticated-orcid":false,"given":"Davide","family":"Santoro","sequence":"additional","affiliation":[{"name":"Computer Science, Sapienza University of Rome, Italy"}]}],"member":"320","published-online":{"date-parts":[[2024,6,3]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"e_1_3_2_1_2_1","volume-title":"Visual question answering: Which investigated applications?Pattern Recognition Letters 151","author":"Barra Silvio","year":"2021","unstructured":"Silvio Barra, Carmen Bisogni, Maria De\u00a0Marsico, and Stefano Ricciardi. 2021. Visual question answering: Which investigated applications?Pattern Recognition Letters 151 (2021), 325\u2013331."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/1866029.1866080"},{"key":"e_1_3_2_1_4_1","volume-title":"Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. See https:\/\/vicuna. lmsys. org (accessed","author":"Chiang Wei-Lin","year":"2023","unstructured":"Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph\u00a0E Gonzalez, 2023. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. See https:\/\/vicuna. lmsys. org (accessed 09 January 2024) (2023)."},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00103"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00380"},{"key":"e_1_3_2_1_7_1","volume-title":"From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities. Information Fusion","author":"Ishmam Md\u00a0Farhan","year":"2024","unstructured":"Md\u00a0Farhan Ishmam, Md\u00a0Sakib\u00a0Hossain Shovon, MF Mridha, and Nilanjan Dey. 2024. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities. Information Fusion (2024), 102270."},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1145\/2513383.2517033"},{"key":"e_1_3_2_1_9_1","volume-title":"Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597 (2023)."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-020-09832-7"},{"key":"e_1_3_2_1_11_1","unstructured":"OpenAI : Josh Achiam et al. 2023. GPT-4 Technical Report. arxiv:2303.08774\u00a0[cs.CL]"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2021.104327"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-16-1092-9_7"},{"key":"e_1_3_2_1_14_1","volume-title":"Conference on Robot Learning. PMLR, 1314\u20131327","author":"Weiss Martin","year":"2020","unstructured":"Martin Weiss, Simon Chamorro, Roger Girgis, Margaux Luck, Samira\u00a0E Kahou, Joseph\u00a0P Cohen, Derek Nowrouzezahrai, Doina Precup, Florian Golemo, and Chris Pal. 2020. Navigation agents for the visually impaired: A sidewalk simulator and experiments. In Conference on Robot Learning. PMLR, 1314\u20131327."},{"key":"e_1_3_2_1_15_1","volume-title":"MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arXiv preprint arXiv:2304.10592","author":"Zhu Deyao","year":"2023","unstructured":"Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. 2023. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arXiv preprint arXiv:2304.10592 (2023)."}],"event":{"name":"AVI 2024: International Conference on Advanced Visual Interfaces 2024","location":"Arenzano, Genoa Italy","acronym":"AVI 2024"},"container-title":["Proceedings of the 2024 International Conference on Advanced Visual Interfaces"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3656650.3656677","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3656650.3656677","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T14:55:15Z","timestamp":1755788115000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3656650.3656677"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,6,3]]},"references-count":15,"alternative-id":["10.1145\/3656650.3656677","10.1145\/3656650"],"URL":"https:\/\/doi.org\/10.1145\/3656650.3656677","relation":{},"subject":[],"published":{"date-parts":[[2024,6,3]]},"assertion":[{"value":"2024-06-03","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}