{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T18:05:21Z","timestamp":1771956321228,"version":"3.50.1"},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"},{"start":{"date-parts":[[2026,2,3]],"date-time":"2026-02-03T00:00:00Z","timestamp":1770076800000},"content-version":"vor","delay-in-days":2,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"}],"funder":[{"DOI":"10.13039\/501100005417","name":"Universiti Teknologi Malaysia","doi-asserted-by":"crossref","id":[{"id":"10.13039\/501100005417","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1007\/s00521-025-11721-5","type":"journal-article","created":{"date-parts":[[2026,2,3]],"date-time":"2026-02-03T06:04:47Z","timestamp":1770098687000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["VTFCGNet: a novel cross-modal reasoning network integrating Fourier self-attention and graph attention for visual text question answering"],"prefix":"10.1007","volume":"38","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-3123-2803","authenticated-orcid":false,"given":"Yujie","family":"Huo","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Weng Howe","family":"Chan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Song","family":"Yu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongyu","family":"Gao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,2,3]]},"reference":[{"issue":"1","key":"11721_CR1","doi-asserted-by":"publisher","first-page":"4","DOI":"10.1007\/s11263-016-0966-6","volume":"123","author":"A Agrawal","year":"2017","unstructured":"Agrawal A, Lu J, Antol S et al (2017) Vqa: visual question answering. Int J Comput Vis 123(1):4\u201331. https:\/\/doi.org\/10.1007\/s11263-016-0966-6","journal-title":"Int J Comput Vis"},{"key":"11721_CR2","doi-asserted-by":"publisher","unstructured":"Anderson P, He X, Buehler C, et al (2018) Bottom-up and top-down attention for image captioning and visual question answering. In: 2018 IEEE\/CVF conference on computer vision and pattern recognition, pp 6077\u20136086. https:\/\/doi.org\/10.1109\/CVPR.2018.00636","DOI":"10.1109\/CVPR.2018.00636"},{"key":"11721_CR3","doi-asserted-by":"publisher","unstructured":"Cadene R, Ben-younes H, Cord M, et al (2019) Murel: multimodal relational reasoning for visual question answering. In: 2019 IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp 1989\u20131998. https:\/\/doi.org\/10.1109\/CVPR.2019.00209","DOI":"10.1109\/CVPR.2019.00209"},{"issue":"3","key":"11721_CR4","doi-asserted-by":"publisher","first-page":"4160","DOI":"10.1109\/TNNLS.2021.3135655","volume":"36","author":"J Cao","year":"2025","unstructured":"Cao J, Qin X, Zhao S et al (2025) Bilateral cross-modality graph matching attention for feature fusion in visual question answering. IEEE Trans Neural Netw Learn Syst 36(3):4160\u20134171. https:\/\/doi.org\/10.1109\/TNNLS.2021.3135655","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"key":"11721_CR5","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2023.110706","volume":"275","author":"C Chen","year":"2023","unstructured":"Chen C, Han D, Shen X (2023) Clvin: complete language-vision interaction network for visual question answering. Knowl-Based Syst 275:110706. https:\/\/doi.org\/10.1016\/j.knosys.2023.110706","journal-title":"Knowl-Based Syst"},{"key":"11721_CR6","doi-asserted-by":"publisher","first-page":"110084","DOI":"10.1016\/j.patcog.2023.110084","volume":"147","author":"C Chen","year":"2024","unstructured":"Chen C, Han D, Chang CC (2024) Mpcct: multimodal vision-language learning paradigm with context-based compact transformer. Pattern Recogn 147:110084. https:\/\/doi.org\/10.1016\/j.patcog.2023.110084","journal-title":"Pattern Recogn"},{"key":"11721_CR7","doi-asserted-by":"publisher","unstructured":"Chen K, Wu X (2024) VTQA: visual text question answering via entity alignment and cross-media reasoning. In: 2024 IEEE\/CVF conference on computer vision and pattern recognition (CVPR). IEEE, Seattle, WA, USA, pp 27208\u201327217. https:\/\/doi.org\/10.1109\/CVPR52733.2024.02570","DOI":"10.1109\/CVPR52733.2024.02570"},{"key":"11721_CR8","doi-asserted-by":"publisher","first-page":"102969","DOI":"10.1016\/j.inffus.2025.102969","volume":"118","author":"W Chen","year":"2025","unstructured":"Chen W, Huang X, Liu Z et al (2025) Rk-vqa: rational knowledge-aware fusion-in-decoder for knowledge-based visual question answering. Inf Fus 118:102969. https:\/\/doi.org\/10.1016\/j.inffus.2025.102969","journal-title":"Inf Fus"},{"key":"11721_CR9","doi-asserted-by":"publisher","unstructured":"Chen YC, Li L, Yu L, et al (2020) Uniter: Universal image-text representation learning. In: Vedaldi A, Bischof H, Brox T, et al (eds) Computer vision\u2014ECCV 2020. Springer, Cham, pp 104\u2013120. https:\/\/doi.org\/10.1007\/978-3-030-58577-8_7","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"11721_CR10","doi-asserted-by":"publisher","first-page":"102329","DOI":"10.1016\/j.displa.2022.102329","volume":"75","author":"J Feng","year":"2022","unstructured":"Feng J, Liu R (2022) Lrb-net: improving vqa via division of labor strategy and multimodal classifiers. Displays 75:102329. https:\/\/doi.org\/10.1016\/j.displa.2022.102329","journal-title":"Displays"},{"key":"11721_CR11","doi-asserted-by":"publisher","unstructured":"Ganz R, Kittenplon Y, Aberdam A, et al (2024) Question aware vision transformer for multimodal reasoning. In: 2024 IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp 13861\u201313871. https:\/\/doi.org\/10.1109\/CVPR52733.2024.01315","DOI":"10.1109\/CVPR52733.2024.01315"},{"key":"11721_CR12","doi-asserted-by":"publisher","unstructured":"Ganz R, Kittenplon Y, Aberdam A, et al (2024) Question aware vision transformer for multimodal reasoning. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp 13861\u201313871. https:\/\/doi.org\/10.1109\/CVPR52733.2024.01315","DOI":"10.1109\/CVPR52733.2024.01315"},{"issue":"5","key":"11721_CR13","doi-asserted-by":"publisher","first-page":"5561","DOI":"10.1109\/TPAMI.2022.3210780","volume":"45","author":"D Gao","year":"2023","unstructured":"Gao D, Wang R, Shan S et al (2023) Cric: a vqa dataset for compositional reasoning on vision and commonsense. IEEE Trans Pattern Anal Mach Intell 45(5):5561\u20135578. https:\/\/doi.org\/10.1109\/TPAMI.2022.3210780","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"11721_CR14","doi-asserted-by":"publisher","unstructured":"George M, Floerkemeier C (2014) Recognizing products: a per-exemplar multi-label image classification approach. In: Fleet D, Pajdla T, Schiele B, et al (eds) Computer vision\u2014ECCV 2014. Springer, Cham, pp 440\u2013455. https:\/\/doi.org\/10.1007\/978-3-319-10605-2_29","DOI":"10.1007\/978-3-319-10605-2_29"},{"key":"11721_CR15","doi-asserted-by":"publisher","first-page":"16455","DOI":"10.1109\/ACCESS.2025.3532308","volume":"13","author":"H Gong","year":"2025","unstructured":"Gong H, Li L (2025) Answer distillation network with bi-text-image attention for medical visual question answering. IEEE Access 13:16455\u201316465. https:\/\/doi.org\/10.1109\/ACCESS.2025.3532308","journal-title":"IEEE Access"},{"key":"11721_CR16","doi-asserted-by":"publisher","unstructured":"Goyal Y, Khot T, Summers-Stay D, et al (2017) Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In: 2017 IEEE conference on computer vision and pattern recognition (CVPR), pp 6325\u20136334. https:\/\/doi.org\/10.1109\/CVPR.2017.670","DOI":"10.1109\/CVPR.2017.670"},{"key":"11721_CR17","doi-asserted-by":"publisher","unstructured":"Hackel L, Clasen KN, Ravanbakhsh M, et al (2023) Lit-4-rsvqa: Lightweight transformer-based visual question answering in remote sensing. In: IGARSS 2023\u20132023 IEEE international geoscience and remote sensing symposium, pp 2231\u20132234. https:\/\/doi.org\/10.1109\/IGARSS52108.2023.10281674","DOI":"10.1109\/IGARSS52108.2023.10281674"},{"issue":"8","key":"11721_CR18","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780. https:\/\/doi.org\/10.1162\/neco.1997.9.8.1735","journal-title":"Neural Comput"},{"key":"11721_CR19","unstructured":"Kim JH, Jun J, Zhang BT (2018) Bilinear attention networks. In: Proceedings of the 32nd international conference on neural information processing systems. Curran Associates Inc., Red Hook, NY, USA, NIPS\u201918, pp 1571\u20131581"},{"key":"11721_CR20","unstructured":"Kim W, Son B, Kim I (2021) Vilt: Vision-and-language transformer without convolution or region supervision. In: Meila M, Zhang T (eds) Proceedings of the 38th international conference on machine learning, proceedings of machine learning research, vol 139. PMLR, pp 5583\u20135594"},{"key":"11721_CR21","unstructured":"Li J, Selvaraju R, Gotmare A, et al (2021) Align before fuse: Vision and language representation learning with momentum distillation. In: Ranzato M, Beygelzimer A, Dauphin Y, et al (eds) Advances in Neural Information Processing Systems, vol\u00a034. Curran Associates, Inc., pp 9694\u20139705. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2021\/file\/505259756244493872b7709a8a01b536-Paper.pdf"},{"key":"11721_CR22","unstructured":"Li J, Li D, Xiong C, et al (2022) BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In: Chaudhuri K, Jegelka S, Song L, et al (eds) Proceedings of the 39th international conference on machine learning, proceedings of machine learning research, vol 162. PMLR, pp 12888\u201312900"},{"key":"11721_CR23","doi-asserted-by":"publisher","first-page":"107956","DOI":"10.1016\/j.patcog.2021.107956","volume":"117","author":"Y Liu","year":"2021","unstructured":"Liu Y, Zhang X, Zhang Q et al (2021) Dual self-attention with co-attention networks for visual question answering. Pattern Recogn 117:107956. https:\/\/doi.org\/10.1016\/j.patcog.2021.107956","journal-title":"Pattern Recogn"},{"issue":"10","key":"11721_CR24","doi-asserted-by":"publisher","first-page":"11624","DOI":"10.1109\/TPAMI.2023.3284038","volume":"45","author":"Y Liu","year":"2023","unstructured":"Liu Y, Li G, Lin L (2023) Cross-modal causal relational reasoning for event-level visual question answering. IEEE Trans Pattern Anal Mach Intell 45(10):11624\u201311641. https:\/\/doi.org\/10.1109\/TPAMI.2023.3284038","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"11721_CR25","doi-asserted-by":"publisher","first-page":"8449","DOI":"10.1609\/aaai.v34i05.6364","volume":"34","author":"S Lv","year":"2020","unstructured":"Lv S, Guo D, Xu J et al (2020) Graph-based reasoning over heterogeneous external knowledge for commonsense question answering. Proc AAAI Conf Artif Intell 34:8449\u20138456. https:\/\/doi.org\/10.1609\/aaai.v34i05.6364","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"11721_CR26","doi-asserted-by":"publisher","unstructured":"Marino K, Rastegari M, Farhadi A, et al (2019) Ok-vqa: a visual question answering benchmark requiring external knowledge. In: 2019 IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp 3190\u20133199. https:\/\/doi.org\/10.1109\/CVPR.2019.00331","DOI":"10.1109\/CVPR.2019.00331"},{"key":"11721_CR27","doi-asserted-by":"publisher","unstructured":"N C MH, Jha A, Abdar M, et al (2025) Can commonsense knowledge improve clip\u2019s performance in cross-domain vqa? In: Proceedings of the fifteenth indian conference on computer vision graphics and image processing. Association for Computing Machinery, New York, NY, USA, ICVGIP \u201924. https:\/\/doi.org\/10.1145\/3702250.3702265","DOI":"10.1145\/3702250.3702265"},{"key":"11721_CR28","doi-asserted-by":"publisher","unstructured":"Pennington J, Socher R, Manning C (2014) GloVe: global vectors for word representation. In: Moschitti A, Pang B, Daelemans W (eds) Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). Association for Computational Linguistics, Doha, Qatar, pp 1532\u20131543. https:\/\/doi.org\/10.3115\/v1\/D14-1162","DOI":"10.3115\/v1\/D14-1162"},{"key":"11721_CR29","doi-asserted-by":"publisher","DOI":"10.1007\/s00371-024-03777-6","author":"J Shi","year":"2025","unstructured":"Shi J, Han D, Chen C et al (2025) SAFFNet: self-attention based on Fourier frequency domain filter network for visual question answering. Vis Comput. https:\/\/doi.org\/10.1007\/s00371-024-03777-6","journal-title":"Vis Comput"},{"key":"11721_CR30","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2022.108878","volume":"131","author":"K Shuang","year":"2022","unstructured":"Shuang K, Guo J, Wang Z (2022) Comprehensive-perception dynamic reasoning for visual question answering. Pattern Recogn 131:108878. https:\/\/doi.org\/10.1016\/j.patcog.2022.108878","journal-title":"Pattern Recogn"},{"issue":"4","key":"11721_CR31","doi-asserted-by":"publisher","first-page":"2737","DOI":"10.1007\/s00371-024-03563-4","volume":"41","author":"X Song","year":"2025","unstructured":"Song X, Han D, Chen C et al (2025) VMAN: visual-modified attention network for multimodal paradigms. Vis Comput 41(4):2737\u20132754. https:\/\/doi.org\/10.1007\/s00371-024-03563-4","journal-title":"Vis Comput"},{"key":"11721_CR32","doi-asserted-by":"publisher","unstructured":"Tan H, Bansal M (2019) LXMERT: Learning cross-modality encoder representations from transformers. In: Inui K, Jiang J, Ng V, et al (eds) Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th international joint conference on natural language processing (EMNLP-IJCNLP). Association for Computational Linguistics, Hong Kong, China, pp 5100\u20135111. https:\/\/doi.org\/10.18653\/v1\/D19-1514","DOI":"10.18653\/v1\/D19-1514"},{"key":"11721_CR33","doi-asserted-by":"publisher","unstructured":"Tang M, Wang R, Lu S, et al (2024) Visual question answering: Attention mechanism, datasets, and future challenges. In: Proceedings of the 2024 9th international conference on cyber security and information engineering. Association for Computing Machinery, New York, NY, USA, ICCSIE \u201924, p 731\u2013739. https:\/\/doi.org\/10.1145\/3689236.3691498","DOI":"10.1145\/3689236.3691498"},{"key":"11721_CR34","unstructured":"Vaswani A, Shazeer N, Parmar N, et al (2017) Attention is all you need. In: Proceedings of the 31st international conference on neural information processing systems. Curran Associates Inc., Red Hook, NY, USA, NIPS\u201917, p 6000\u20136010"},{"key":"11721_CR35","unstructured":"Veli\u010dkovi\u0107 P, Cucurull G, Casanova A, et al (2018) Graph attention networks. In: International conference on learning representations (ICLR 2018)"},{"key":"11721_CR36","doi-asserted-by":"publisher","unstructured":"Wang P, Wu Q, Shen C, et al (2017) Explicit knowledge-based reasoning for visual question answering. In: Proceedings of the twenty-sixth international joint conference on artificial intelligence, IJCAI-17, pp 1290\u20131296. https:\/\/doi.org\/10.24963\/ijcai.2017\/179","DOI":"10.24963\/ijcai.2017\/179"},{"key":"11721_CR37","doi-asserted-by":"publisher","unstructured":"Wen S, Qiao M, Jiang L, et al (2024) Mt-vqa: a multi-task approach for quality assessment of short-form videos. Association for Computing Machinery, New York, NY, USA, QoEVMA\u201924, pp 30\u201338. https:\/\/doi.org\/10.1145\/3689093.3689181","DOI":"10.1145\/3689093.3689181"},{"key":"11721_CR38","doi-asserted-by":"publisher","unstructured":"Woo S, Park J, Lee JY, et al (2018) Cbam: Convolutional block attention module. In: Ferrari V, Hebert M, Sminchisescu C, et al (eds) Computer Vision\u2014ECCV 2018. Springer, Cham, pp 3\u201319.https:\/\/doi.org\/10.1007\/978-3-030-01234-2_1","DOI":"10.1007\/978-3-030-01234-2_1"},{"issue":"18","key":"11721_CR39","doi-asserted-by":"publisher","first-page":"20967","DOI":"10.1007\/s10489-023-04564-x","volume":"53","author":"H Xia","year":"2023","unstructured":"Xia H, Lan R, Li H et al (2023) ST-VQA: shrinkage transformer with accurate alignment for visual question answering. Appl Intell 53(18):20967\u201320978. https:\/\/doi.org\/10.1007\/s10489-023-04564-x","journal-title":"Appl Intell"},{"key":"11721_CR40","doi-asserted-by":"publisher","unstructured":"Yi Z, Lu S, Tang X, et al (2024) Cmacc: Cross-modal adversarial contrastive learning in visual question answering based on co-attention network. In: 2024 IEEE international conference on systems, man, and cybernetics (SMC), pp 1957\u20131962. https:\/\/doi.org\/10.1109\/SMC54092.2024.10831907","DOI":"10.1109\/SMC54092.2024.10831907"},{"key":"11721_CR41","doi-asserted-by":"publisher","unstructured":"Yu Z, Yu J, Cui Y, et al (2019) Deep modular co-attention networks for visual question answering. In: 2019 IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp 6274\u20136283. https:\/\/doi.org\/10.1109\/CVPR.2019.00644","DOI":"10.1109\/CVPR.2019.00644"},{"key":"11721_CR42","doi-asserted-by":"publisher","first-page":"129345","DOI":"10.1016\/j.neucom.2025.129345","volume":"622","author":"RY Zakari","year":"2025","unstructured":"Zakari RY, Owusu JW, Qin K et al (2025) Vqa and visual reasoning: an overview of approaches, datasets, and future direction. Neurocomputing 622:129345. https:\/\/doi.org\/10.1016\/j.neucom.2025.129345","journal-title":"Neurocomputing"},{"issue":"4","key":"11721_CR43","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3634918","volume":"20","author":"S Zhou","year":"2024","unstructured":"Zhou S, Guo D, Yang X et al (2024) Graph pooling inference network for text-based vqa. ACM Trans Multimedia Comput Commun Appl 20(4):1\u201321. https:\/\/doi.org\/10.1145\/3634918","journal-title":"ACM Trans Multimedia Comput Commun Appl"},{"key":"11721_CR44","doi-asserted-by":"publisher","unstructured":"Zhu Z, Yu J, Wang Y, et al (2020) Mucko: Multi-layer cross-modal knowledge reasoning for fact-based visual question answering. In: Proceedings of the twenty-ninth international joint conference on artificial intelligence (IJCAI-20). International Joint Conferences on Artificial Intelligence Organization, Yokohama, Japan, pp 1097\u20131103. https:\/\/doi.org\/10.24963\/ijcai.2020\/153","DOI":"10.24963\/ijcai.2020\/153"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11721-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-025-11721-5","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11721-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T17:16:15Z","timestamp":1771953375000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-025-11721-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2]]},"references-count":44,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2026,2]]}},"alternative-id":["11721"],"URL":"https:\/\/doi.org\/10.1007\/s00521-025-11721-5","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"value":"0941-0643","type":"print"},{"value":"1433-3058","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,2]]},"assertion":[{"value":"25 May 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 December 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 February 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no Conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"32"}}