{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T23:12:50Z","timestamp":1773443570874,"version":"3.50.1"},"publisher-location":"Cham","reference-count":53,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031813412","type":"print"},{"value":"9783031813429","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-81342-9_21","type":"book-chapter","created":{"date-parts":[[2025,2,11]],"date-time":"2025-02-11T17:23:58Z","timestamp":1739294638000},"page":"245-266","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Enhancing Visual Question Answering with\u00a0Beam Search in\u00a0Transformer Models"],"prefix":"10.1007","author":[{"given":"Pratiksh","family":"Kumar","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rishik","family":"Gupta","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Vanshika","family":"Mishra","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Prakhar","family":"Shukla","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bagesh","family":"Kumar","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Pratham","family":"Bhatia","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Abhinav","family":"Upadhyay","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,2,12]]},"reference":[{"key":"21_CR1","doi-asserted-by":"crossref","unstructured":"Zhang, J., Wu, Q., Shen, C., Zhang, J., Lu, J., van den Hengel, A.: Asking the difficult questions: goal-oriented visual question generation via intermediate rewards (2017)","DOI":"10.1007\/978-3-030-01228-1_12"},{"key":"21_CR2","doi-asserted-by":"crossref","unstructured":"Guo, D., Xu, C., Tao, D.: Image-question-answer synergistic network for visual dialog. In: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Los Alamitos, CA, USA, pp. 10426\u201310435. IEEE Computer Society (2019)","DOI":"10.1109\/CVPR.2019.01068"},{"key":"21_CR3","unstructured":"Alayrac, J.-B., et al.: Flamingo: a visual language model for few-shot learning (2022)"},{"key":"21_CR4","doi-asserted-by":"crossref","unstructured":"Gurari, D., et al.: VizWiz grand challenge: answering visual questions from blind people. In: Ren, F., Zhou, Y. (eds.) CGMVQA: A New Classification and Generative Model for Medical Visual Question Answering, vol. 8, pp. 50626\u201350636. IEEE Access (2020)","DOI":"10.1109\/ACCESS.2020.2980024"},{"key":"21_CR5","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C.L., Parikh, D.: CIDEr: consensus-based image description evaluation (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"21_CR6","doi-asserted-by":"crossref","unstructured":"Zhou, L., Palangi, H., Zhang, L., Hu, H., Corso, J.J., Gao, J.: Unified vision-language pre-training for image captioning and VQA (2019)","DOI":"10.1609\/aaai.v34i07.7005"},{"key":"21_CR7","doi-asserted-by":"crossref","unstructured":"Koner, R., Li, H., Hildebrandt, M., Das, D., Tresp, V., Gu nnemann, S.: Graphhopper: multi-hop scene graph reasoning for visual question answering (2021)","DOI":"10.1007\/978-3-030-88361-4_7"},{"key":"21_CR8","doi-asserted-by":"crossref","unstructured":"Yun, H., Yu, Y., Yang, W., Lee, K., Kim, G.: Pano-AVQA: grounded audio-visual question answering on 360$$\\circ $$ videos (2021)","DOI":"10.1109\/ICCV48922.2021.00204"},{"key":"21_CR9","unstructured":"Lu, J., Batra, D., Parikh, D., Lee, S.: ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks (2019)"},{"key":"21_CR10","doi-asserted-by":"publisher","first-page":"57","DOI":"10.1016\/j.patrec.2021.07.002","volume":"150","author":"A Al-Sadi","year":"2021","unstructured":"Al-Sadi, A., Al-Ayyoub, M., Jararweh, Y., Costen, F.: Visual question answering in the medical domain based on deep learning approaches: a comprehensive study. Pattern Recogn. Lett. 150, 57\u201375 (2021)","journal-title":"Pattern Recogn. Lett."},{"key":"21_CR11","doi-asserted-by":"crossref","unstructured":"Guo, L., Liu, J., Zhu, X., Yao, P., Lu, S., Lu, H.: Normalized and geometry-aware self-attention network for image captioning (2020)","DOI":"10.1109\/CVPR42600.2020.01034"},{"key":"21_CR12","doi-asserted-by":"crossref","unstructured":"Wu, Q., Wang, P., Shen, C., Dick, A., van den Hengel, A.: Ask me anything: free-form visual question answering based on knowledge from external sources (2016)","DOI":"10.1109\/CVPR.2016.500"},{"key":"21_CR13","doi-asserted-by":"crossref","unstructured":"Hu, R., Andreas, J., Rohrbach, M., Darrell, T., Saenko, K.: Learning to reason: end-to-end module networks for visual question answering (2017)","DOI":"10.1109\/ICCV.2017.93"},{"key":"21_CR14","unstructured":"Li, J., Li, D., Xiong, C., Hoi, S.: BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation (2022)"},{"key":"21_CR15","doi-asserted-by":"crossref","unstructured":"Lamba, D., Hsu, W.: Answer-agnostic question generation in privacy policy domain using sequence-to-sequence and transformer models, November 2021","DOI":"10.1109\/CECIT53797.2021.00052"},{"key":"21_CR16","first-page":"3277","volume":"11","author":"B Dixit","year":"2023","unstructured":"Dixit, B., Pawar, R.G., Gayakwad, M., Joshi, R., Mahajan, A., Chinchmalatpure, V.S.: International journal of intelligent systems and applications in engineering challenges and a novel approach for image captioning using neural network and searching techniques. Int. J. Intell. Syst. Appl. Eng. 11, 3277\u20133286 (2023)","journal-title":"Int. J. Intell. Syst. Appl. Eng."},{"key":"21_CR17","doi-asserted-by":"crossref","unstructured":"Akula, A., Changpinyo, S., Gong, B., Sharma, P., Zhu, S.-C., Soricut, R.: CrossVQA: scalably generating benchmarks for systematically testing VQA generalization. In: Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Online, Punta Cana, Dominican Republic, November 2021, pp. 2148\u2013 2166. Association for Computational Linguistics (2021)","DOI":"10.18653\/v1\/2021.emnlp-main.164"},{"key":"21_CR18","doi-asserted-by":"crossref","unstructured":"Gao, F., Ping, Q., Thattai, G., Reganti, A., Wu, Y.N., Natarajan, P.: Transform-retrieve-generate: natural language-centric outside-knowledge visual question answering. In: CVPR 2022 (2022)","DOI":"10.1109\/CVPR52688.2022.00501"},{"key":"21_CR19","doi-asserted-by":"crossref","unstructured":"Seenivasan, L., Islam, M., Krishna, A.K., Ren, H.: Surgical-VQA: visual question answering in surgical scenes using transformer (2022)","DOI":"10.1007\/978-3-031-16449-1_4"},{"key":"21_CR20","doi-asserted-by":"crossref","unstructured":"Ravi, S., Chinchure, A., Sigal, L., Liao, R., Shwartz, V.: VLC-BERT: visual question answering with contextualized commonsense knowledge (2022)","DOI":"10.1109\/WACV56688.2023.00121"},{"key":"21_CR21","doi-asserted-by":"crossref","unstructured":"Anderson, P., et al.: Bottom-up and top-down attention for image captioning and visual question answering (2018)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"21_CR22","doi-asserted-by":"crossref","unstructured":"Changpinyo, S., Sharma, P., Ding, N., Soricut, R.: Conceptual 12m: pushing web-scale image-text pre-training to recognize long-tail visual concepts (2021)","DOI":"10.1109\/CVPR46437.2021.00356"},{"key":"21_CR23","doi-asserted-by":"crossref","unstructured":"Wei, J., Li, X., Zhang, Y., Wang, X.E.: Visual question rewriting for increasing response rate. In: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, July 2021. ACM (2021)","DOI":"10.1145\/3404835.3463114"},{"key":"21_CR24","doi-asserted-by":"crossref","unstructured":"Andreas, J., Rohrbach, M., Darrell, T., Klein, D.: Learning to compose neural networks for question answering. In: Proceedings of the Conference of North American Chapter of Association for Computational Linguistics (2016)","DOI":"10.18653\/v1\/N16-1181"},{"key":"21_CR25","doi-asserted-by":"crossref","unstructured":"Antol, S., et al.: VQA: visual question answering. In: Proceedings of the IEEE International Conference on Computer Vision (2015)","DOI":"10.1109\/ICCV.2015.279"},{"key":"21_CR26","doi-asserted-by":"crossref","unstructured":"Andreas, J., Rohrbach, M., Darrell, T., Klein, D.: Neural module networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016)","DOI":"10.1109\/CVPR.2016.12"},{"key":"21_CR27","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"722","DOI":"10.1007\/978-3-540-76298-0_52","volume-title":"The Semantic Web","author":"S Auer","year":"2007","unstructured":"Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., Ives, Z.: DBpedia: a nucleus for a web of open data. In: Aberer, K., et al. (eds.) ASWC\/ISWC -2007. LNCS, vol. 4825, pp. 722\u2013735. Springer, Heidelberg (2007). https:\/\/doi.org\/10.1007\/978-3-540-76298-0_52"},{"key":"21_CR28","unstructured":"Collobert, R., Kavukcuoglu, K., Farabet, C.: Torch7: a Matlab-like environment for machine learning. In: Proceedings of the Advances in Neural Information Processing System Workshop (2011)"},{"key":"21_CR29","doi-asserted-by":"crossref","unstructured":"Bollacker, K., Evans, C., Paritosh, P., Sturge, T., Taylor, J.: Freebase: a collaboratively created graph database for structuring human knowledge. In: ACM SIGMOD International Conference on Management of Data, pp. 1247\u20131250. ACM (2008)","DOI":"10.1145\/1376616.1376746"},{"key":"21_CR30","doi-asserted-by":"crossref","unstructured":"Malinowski, M., Rohrbach, M., Fritz, M.: Ask your neurons: a neural-based approach to answering questions about images. In: Proceedings of the IEEE International Conference on Computer Vision (2015)","DOI":"10.1109\/ICCV.2015.9"},{"key":"21_CR31","unstructured":"Malinowski, M., Rohrbach, M., Fritz, M.: Ask your neurons: a deep learning approach to visual question answering. arXiv preprint arXiv:1605.02697 (2016)"},{"key":"21_CR32","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: Proceedings of the International Conference on Learning Representations (2015)"},{"key":"21_CR33","doi-asserted-by":"crossref","unstructured":"Wu, Q., Teney, D., Wang, P., Shen, C., Dick, A., Hengel, A.v.d.: Visual question answering: a survey of methods and datasets. arXiv preprint arXiv:1607.05910 (2016)","DOI":"10.1016\/j.cviu.2017.05.001"},{"key":"21_CR34","unstructured":"Xiong, C., Merity, S., Socher, R.: Dynamic memory networks for visual and textual question answering. In: Proceedings of the International Conference on Machine Learning (2016)"},{"key":"21_CR35","doi-asserted-by":"crossref","unstructured":"Yang, Z., He, X., Gao, J, Deng, L., Smola, A.: Stacked attention networks for image question answering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016)","DOI":"10.1109\/CVPR.2016.10"},{"key":"21_CR36","doi-asserted-by":"crossref","unstructured":"Zhu, Y., Groth, O., Bernstein, M., Fei-Fei, L.: Visual7W: grounded question answering in images. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016)","DOI":"10.1109\/CVPR.2016.540"},{"key":"21_CR37","unstructured":"Zhou, B., Tian, Y., Sukhbaatar, S., Szlam, A., Fergus, R.: Simple baseline for visual question answering (2015)"},{"key":"21_CR38","unstructured":"Krishna, R., et al.: Visual genome: connecting language and vision using crowdsourced dense image annotations. arXiv preprint arXiv:1602.07332 (2016)"},{"key":"21_CR39","unstructured":"Lu, J., Yang, J., Batra, D., Parikh, D.: Hierarchical question-image co-attention for visual question answering. In: Proceedings of the Advances in Neural Information Processing System (2016)"},{"key":"21_CR40","unstructured":"Kiros, R., Salakhutdinov, R., Zemel, R.S.: Unifying visual-semantic embeddings with multimodal neural language models. In: TACL (2015)"},{"key":"21_CR41","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C.L., Parikh, D.: CIDEr: consensus-based image description evaluation. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"21_CR42","unstructured":"Weston, J., Bordes, A., Chopra, S., Mikolov, T.: Towards AI complete question answering: a set of prerequisite toy tasks. CoRR, abs\/1502.05698 (2015)"},{"key":"21_CR43","unstructured":"Mao, J., Xu, W., Yang, Y., Wang, J., Yuille, A.L.: Explain images with multimodal recurrent neural networks. CoRR abs\/1410.1090 (2014)"},{"key":"21_CR44","doi-asserted-by":"crossref","unstructured":"Kong, C., Lin, D., Bansal, M., Urtasun, R., Fidler, S.: What are you talking about? Text-to-image coreference. In: CVPR, February 2014 (2014). [23] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. In NIPS, 2012","DOI":"10.1109\/CVPR.2014.455"},{"key":"21_CR45","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T-Y Lin","year":"2014","unstructured":"Lin, T.-Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48"},{"key":"21_CR46","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"15","DOI":"10.1007\/978-3-642-15561-1_2","volume-title":"Computer Vision \u2013 ECCV 2010","author":"A Farhadi","year":"2010","unstructured":"Farhadi, A., et al.: Every picture tells a story: generating sentences from images. In: Daniilidis, K., Maragos, P., Paragios, N. (eds.) ECCV 2010. LNCS, vol. 6314, pp. 15\u201329. Springer, Heidelberg (2010). https:\/\/doi.org\/10.1007\/978-3-642-15561-1_2"},{"key":"21_CR47","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. CoRR, abs\/1409.1556 (2015)"},{"key":"21_CR48","unstructured":"Kiros, R., Salakhutdinov, R., Zemel, R.: Multimodal neural language models. In: Proceedings of the 31st International Conference on Machine Learning, in Proceedings of Machine Learning Research, vol. 32, no. 2, pp. 595\u2013603 (2014)"},{"key":"21_CR49","doi-asserted-by":"crossref","unstructured":"Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., Parikh, D.: Making the V in VQA matter: elevating the role of image understanding in visual question answering. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.670"},{"key":"21_CR50","doi-asserted-by":"crossref","unstructured":"Morris, J., Lifland, E., Yoo, J.Y., Grigsby, J., Jin, D., Qi, Y.: TextAttack: a framework for adversarial attacks, data augmentation, and adversarial training in NLP. In: EMNLP: System Demonstrations (2020)","DOI":"10.18653\/v1\/2020.emnlp-demos.16"},{"key":"21_CR51","unstructured":"Huang, Z., Zeng, Z., Liu, B., Fu, D., Fu, J.: Pixel-BERT: aligning image pixels with text by deep multi-modal transformers. arXiv preprint arXiv:2004.00849 (2020)"},{"key":"21_CR52","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","volume":"123","author":"R Krishna","year":"2017","unstructured":"Krishna, R., et al.: Visual genome: connecting language and vision using crowdsourced dense image annotations. IJCV 123, 32\u201373 (2017)","journal-title":"IJCV"},{"key":"21_CR53","doi-asserted-by":"crossref","unstructured":"Agarwal, V., Shetty, R., Fritz, M.: Towards causal VQA: revealing and reducing spurious correlations by invariant and covariant semantic editing. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00971"}],"container-title":["Communications in Computer and Information Science","Computational Intelligence in Communications and Business Analytics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-81342-9_21","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,2,11]],"date-time":"2025-02-11T17:24:23Z","timestamp":1739294663000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-81342-9_21"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"ISBN":["9783031813412","9783031813429"],"references-count":53,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-81342-9_21","relation":{},"ISSN":["1865-0929","1865-0937"],"issn-type":[{"value":"1865-0929","type":"print"},{"value":"1865-0937","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]},"assertion":[{"value":"12 February 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"CICBA","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Computational Intelligence in Communications and Business Analytics","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Patna","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"India","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"24 January 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"26 January 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"6","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"cicba2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/www.cicba.in","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}