{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,25]],"date-time":"2026-01-25T05:00:21Z","timestamp":1769317221861,"version":"3.49.0"},"reference-count":63,"publisher":"Springer Science and Business Media LLC","issue":"22","license":[{"start":{"date-parts":[[2025,5,9]],"date-time":"2025-05-09T00:00:00Z","timestamp":1746748800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,5,9]],"date-time":"2025-05-09T00:00:00Z","timestamp":1746748800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/100007219","name":"Natural Science Foundation of Shanghai Municipality","doi-asserted-by":"publisher","award":["22ZR1418400"],"award-info":[{"award-number":["22ZR1418400"]}],"id":[{"id":"10.13039\/100007219","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100007219","name":"Natural Science Foundation of Shanghai Municipality","doi-asserted-by":"publisher","award":["23ZR1414900"],"award-info":[{"award-number":["23ZR1414900"]}],"id":[{"id":"10.13039\/100007219","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2025,8]]},"DOI":"10.1007\/s00521-025-11261-y","type":"journal-article","created":{"date-parts":[[2025,5,9]],"date-time":"2025-05-09T04:59:42Z","timestamp":1746766782000},"page":"17701-17721","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Cross-modal heterogeneous graph reasoning network for visual question answering"],"prefix":"10.1007","volume":"37","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6270-7771","authenticated-orcid":false,"given":"Jing","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiong","family":"Teng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Weichao","family":"Ding","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhe","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,5,9]]},"reference":[{"key":"11261_CR1","doi-asserted-by":"crossref","unstructured":"Luo Y, Ji J, Sun X, Cao L, Wu Y, Huang F, Lin C-W, Ji R (2021) Dual-level collaborative transformer for image captioning. In: Proceedings of the AAAI conference on artificial intelligence, vol 35, pp 2286\u20132293","DOI":"10.1609\/aaai.v35i3.16328"},{"key":"11261_CR2","doi-asserted-by":"publisher","first-page":"129","DOI":"10.1016\/j.neunet.2022.01.011","volume":"148","author":"T Xian","year":"2022","unstructured":"Xian T, Li Z, Zhang C, Ma H (2022) Dual global enhanced transformer for image captioning. Neural Netw 148:129\u2013141","journal-title":"Neural Netw"},{"key":"11261_CR3","doi-asserted-by":"publisher","first-page":"318","DOI":"10.1016\/j.neunet.2023.03.010","volume":"162","author":"Q Wang","year":"2023","unstructured":"Wang Q, Deng H, Wu X, Yang Z, Liu Y, Wang Y, Hao G (2023) Lcm-captioner: a lightweight text-based image captioning method with collaborative mechanism between vision and text. Neural Netw 162:318\u2013329","journal-title":"Neural Netw"},{"key":"11261_CR4","doi-asserted-by":"crossref","unstructured":"Yang Z, Gong B, Wang L, Huang W, Yu D, Luo J (2019) A fast and accurate one-stage approach to visual grounding. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 4683\u20134693","DOI":"10.1109\/ICCV.2019.00478"},{"key":"11261_CR5","doi-asserted-by":"crossref","unstructured":"Deng J, Yang Z, Chen T, Zhou W, Li H (2021) Transvg: End-to-end visual grounding with transformers. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 1769\u20131779","DOI":"10.1109\/ICCV48922.2021.00179"},{"key":"11261_CR6","doi-asserted-by":"crossref","unstructured":"Messina N, Falchi F, Esuli A, Amato G (2021) Transformer reasoning network for image-text matching and retrieval. In: 2020 25th international conference on pattern recognition (ICPR), pp 5222\u20135229. IEEE","DOI":"10.1109\/ICPR48806.2021.9413172"},{"key":"11261_CR7","doi-asserted-by":"crossref","unstructured":"Diao H, Zhang Y, Ma L, Lu H (2021) Similarity reasoning and filtration for image-text matching. In: Proceedings of the AAAI conference on artificial intelligence, vol 35, pp 1218\u20131226","DOI":"10.1609\/aaai.v35i2.16209"},{"issue":"3","key":"11261_CR8","doi-asserted-by":"publisher","first-page":"931","DOI":"10.1109\/TCSVT.2020.2995959","volume":"31","author":"T Yu","year":"2020","unstructured":"Yu T, Yu J, Yu Z, Huang Q, Tian Q (2020) Long-term video question answering via multimodal hierarchical memory attentive networks. IEEE Trans Circuits Syst Video Technol 31(3):931\u2013944","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"issue":"5","key":"11261_CR9","doi-asserted-by":"publisher","first-page":"1697","DOI":"10.1109\/TCSVT.2020.3014775","volume":"31","author":"Z Guo","year":"2020","unstructured":"Guo Z, Zhao Z, Jin W, Wei Z, Yang M, Wang N, Yuan NJ (2020) Multi-turn video question generation via reinforced multi-choice attention network. IEEE Trans Circuits Syst Video Technol 31(5):1697\u20131710","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"issue":"1","key":"11261_CR10","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1109\/TCSVT.2020.3048440","volume":"32","author":"J Zhang","year":"2020","unstructured":"Zhang J, Shao J, Cao R, Gao L, Xu X, Shen HT (2020) Action-centric relation transformer network for video question answering. IEEE Trans Circuits Syst Video Technol 32(1):63\u201374","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"11261_CR11","doi-asserted-by":"crossref","unstructured":"Antol S, Agrawal A, Lu J, Mitchell M, Batra D, Zitnick CL, Parikh D (2015) Vqa: visual question answering. In: Proceedings of the IEEE international conference on computer vision, pp 2425\u20132433","DOI":"10.1109\/ICCV.2015.279"},{"key":"11261_CR12","doi-asserted-by":"crossref","unstructured":"Gao P, Jiang Z, You H, Lu P, Hoi SC, Wang X, Li H (2019) Dynamic fusion with intra-and inter-modality attention flow for visual question answering. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 6639\u20136648","DOI":"10.1109\/CVPR.2019.00680"},{"key":"11261_CR13","doi-asserted-by":"crossref","unstructured":"Li L, Gan Z, Cheng Y, Liu J (2019) Relation-aware graph attention network for visual question answering. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 10313\u201310322","DOI":"10.1109\/ICCV.2019.01041"},{"key":"11261_CR14","unstructured":"Xiong P, You Q, Yu P, Liu Z, Wu Y (2022) Sa-vqa: structured alignment of visual and semantic representations for visual question answering. arXiv preprint arXiv:2201.10654"},{"key":"11261_CR15","doi-asserted-by":"crossref","unstructured":"Huang Q, Wei J, Cai Y, Zheng C, Chen J, Leung H-f, Li Q (2020) Aligned dual channel graph convolutional network for visual question answering. In: Proceedings of the 58th annual meeting of the association for computational linguistics, pp 7166\u20137176","DOI":"10.18653\/v1\/2020.acl-main.642"},{"key":"11261_CR16","doi-asserted-by":"publisher","first-page":"70","DOI":"10.1016\/j.inffus.2021.02.006","volume":"72","author":"W Zhang","year":"2021","unstructured":"Zhang W, Yu J, Zhao W, Ran C (2021) Dmrfnet: deep multimodal reasoning and fusion for visual question answering and explanation generation. Inform Fusion 72:70\u201379","journal-title":"Inform Fusion"},{"key":"11261_CR17","unstructured":"Han X, Yang J, Hu H, Zhang L, Gao J, Zhang P (2021) Image scene graph generation (sgg) benchmark. arXiv preprint arXiv:2107.12604"},{"key":"11261_CR18","doi-asserted-by":"crossref","unstructured":"Shih KJ, Singh S, Hoiem D (2016) Where to look: focus regions for visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4613\u20134621","DOI":"10.1109\/CVPR.2016.499"},{"key":"11261_CR19","doi-asserted-by":"publisher","first-page":"6730","DOI":"10.1109\/TIP.2021.3097180","volume":"30","author":"W Guo","year":"2021","unstructured":"Guo W, Zhang Y, Yang J, Yuan X (2021) Re-attention for visual question answering. IEEE Trans Image Process 30:6730\u20136743","journal-title":"IEEE Trans Image Process"},{"key":"11261_CR20","unstructured":"Kim J-H, On K-W, Lim W, Kim J, Ha J-W, Zhang B-T (2016) Hadamard product for low-rank bilinear pooling. arXiv preprint arXiv:1610.04325"},{"key":"11261_CR21","doi-asserted-by":"crossref","unstructured":"Chen H, Liu R, Peng B (2021) Cross-modal relational reasoning network for visual question answering. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 3956\u20133965","DOI":"10.1109\/ICCVW54120.2021.00441"},{"key":"11261_CR22","doi-asserted-by":"crossref","unstructured":"Nguyen BX, Do T, Tran H, Tjiputra E, Tran QD, Nguyen A (2022) Coarse-to-fine reasoning for visual question answering. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 4558\u20134566","DOI":"10.1109\/CVPRW56347.2022.00502"},{"key":"11261_CR23","doi-asserted-by":"crossref","unstructured":"Qiao T, Dong J, Xu D (2018) Exploring human-like attention supervision in visual question answering. In: Proceedings of the AAAI conference on artificial intelligence, vol 32","DOI":"10.1609\/aaai.v32i1.12272"},{"key":"11261_CR24","doi-asserted-by":"crossref","unstructured":"Zhou Y, Ren T, Zhu C, Sun X, Liu J, Ding X, Xu M, Ji R (2021) Trar: Routing the attention spans in transformer for visual question answering. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 2074\u20132084","DOI":"10.1109\/ICCV48922.2021.00208"},{"key":"11261_CR25","doi-asserted-by":"crossref","unstructured":"Anderson P, He X, Buehler C, Teney D, Johnson M, Gould S, Zhang L (2018) Bottom-up and top-down attention for image captioning and visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6077\u20136086","DOI":"10.1109\/CVPR.2018.00636"},{"key":"11261_CR26","unstructured":"Kim J-H, Jun J, Zhang B-T (2018) Bilinear attention networks. Adv Neural Inform Process Syst 31"},{"key":"11261_CR27","doi-asserted-by":"crossref","unstructured":"Khademi M (2020) Multimodal neural graph memory networks for visual question answering. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 7177\u20137188","DOI":"10.18653\/v1\/2020.acl-main.643"},{"key":"11261_CR28","doi-asserted-by":"crossref","unstructured":"Yang X, Lin G, Lv F, Liu F (2020) Trrnet: tiered relation reasoning for compositional visual question answering. In: European conference on computer vision, pp 414\u2013430. Springer","DOI":"10.1007\/978-3-030-58589-1_25"},{"key":"11261_CR29","doi-asserted-by":"crossref","unstructured":"Wang W, Bao H, Dong L, Bjorck J, Peng Z, Liu Q, Aggarwal K, Mohammed OK, Singhal S, Som S et al (2022) Image as a foreign language: Beit pretraining for all vision and vision-language tasks. arXiv preprint arXiv:2208.10442","DOI":"10.1109\/CVPR52729.2023.01838"},{"key":"11261_CR30","doi-asserted-by":"crossref","unstructured":"Zhang P, Li X, Hu X, Yang J, Zhang L, Wang L, Choi Y, Gao J (2021) Vinvl: revisiting visual representations in vision-language models. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 5579\u20135588","DOI":"10.1109\/CVPR46437.2021.00553"},{"key":"11261_CR31","doi-asserted-by":"crossref","unstructured":"Wortsman M, Ehsani K, Rastegari M, Farhadi A, Mottaghi R (2019) Learning to learn how to learn: Self-adaptive visual navigation using meta-learning. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 6750\u20136759","DOI":"10.1109\/CVPR.2019.00691"},{"key":"11261_CR32","doi-asserted-by":"crossref","unstructured":"Chen Y-C, Li L, Yu L, El\u00a0Kholy A, Ahmed F, Gan Z, Cheng Y, Liu J (2020) Uniter: universal image-text representation learning. In: Computer vision\u2013ECCV 2020: 16th European conference, Glasgow, UK, August 23\u201328, 2020, proceedings, Part XXX, pp 104\u2013120. Springer","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"11261_CR33","doi-asserted-by":"crossref","unstructured":"Tan H, Bansal M (2019) Lxmert: Learning cross-modality encoder representations from transformers. arXiv preprint arXiv:1908.07490","DOI":"10.18653\/v1\/D19-1514"},{"key":"11261_CR34","doi-asserted-by":"crossref","unstructured":"Yang Z, He X, Gao J, Deng L, Smola A (2016) Stacked attention networks for image question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 21\u201329","DOI":"10.1109\/CVPR.2016.10"},{"key":"11261_CR35","doi-asserted-by":"crossref","unstructured":"Xu H, Saenko K (2016) Ask, attend and answer: Exploring question-guided spatial attention for visual question answering. In: European conference on computer vision, pp 451\u2013466. Springer","DOI":"10.1007\/978-3-319-46478-7_28"},{"key":"11261_CR36","unstructured":"Lu J, Yang J, Batra D, Parikh D (2016) Hierarchical question-image co-attention for visual question answering. Adv Neural Inf Process Syst 29"},{"key":"11261_CR37","doi-asserted-by":"crossref","unstructured":"Yu Z, Yu J, Cui Y, Tao D, Tian Q (2019) Deep modular co-attention networks for visual question answering. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 6281\u20136290","DOI":"10.1109\/CVPR.2019.00644"},{"issue":"12","key":"11261_CR38","doi-asserted-by":"publisher","first-page":"4453","DOI":"10.1109\/TCSVT.2019.2957309","volume":"30","author":"M Gu","year":"2019","unstructured":"Gu M, Zhao Z, Jin W, Cai D, Wu F (2019) Video dialog via multi-grained convolutional self-attention context multi-modal networks. IEEE Trans Circuits Syst Video Technol 30(12):4453\u20134466","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"11261_CR39","doi-asserted-by":"crossref","unstructured":"Johnson J, Hariharan B, Van Der\u00a0Maaten L, Hoffman J, Fei-Fei L, Lawrence\u00a0Zitnick C, Girshick R (2017) Inferring and executing programs for visual reasoning. In: Proceedings of the IEEE international conference on computer vision, pp 2989\u20132998","DOI":"10.1109\/ICCV.2017.325"},{"key":"11261_CR40","doi-asserted-by":"crossref","unstructured":"Hu R, Andreas J, Rohrbach M, Darrell T, Saenko K (2017) Learning to reason: End-to-end module networks for visual question answering. In: Proceedings of the IEEE international conference on computer vision, pp 804\u2013813","DOI":"10.1109\/ICCV.2017.93"},{"key":"11261_CR41","unstructured":"Santoro A, Raposo D, Barrett DG, Malinowski M, Pascanu R, Battaglia P, Lillicrap T (2017) A simple neural network module for relational reasoning. Adv Neural Inf Process Syst 30"},{"key":"11261_CR42","doi-asserted-by":"crossref","unstructured":"Johnson J, Hariharan B, Van Der\u00a0Maaten L, Fei-Fei L, Lawrence\u00a0Zitnick C, Girshick R (2017) Clevr: A diagnostic dataset for compositional language and elementary visual reasoning. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2901\u20132910","DOI":"10.1109\/CVPR.2017.215"},{"key":"11261_CR43","unstructured":"Norcliffe-Brown W, Vafeias S, Parisot S (2018) Learning conditioned graph structures for interpretable visual question answering. Adv Neural Inf Process Syst 31"},{"key":"11261_CR44","doi-asserted-by":"crossref","unstructured":"Teney D, Liu L, Den\u00a0Hengel A (2017) Graph-structured representations for visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1\u20139","DOI":"10.1109\/CVPR.2017.344"},{"key":"11261_CR45","doi-asserted-by":"crossref","unstructured":"Guo L, Liu J, Tang J, Li J, Luo W, Lu H (2019) Aligning linguistic words and visual semantic units for image captioning. In: Proceedings of the 27th ACM international conference on multimedia, pp 765\u2013773","DOI":"10.1145\/3343031.3350943"},{"key":"11261_CR46","doi-asserted-by":"crossref","unstructured":"Guo L, Liu J, Zhu X, Yao P, Lu S, Lu H (2020) Normalized and geometry-aware self-attention network for image captioning. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10327\u201310336","DOI":"10.1109\/CVPR42600.2020.01034"},{"key":"11261_CR47","doi-asserted-by":"crossref","unstructured":"Ma Z, Yu Z, Li J, Li G (2023) Hybridprompt: Bridging language models and human priors in prompt tuning for visual question answering. In: Proceedings of the AAAI conference on artificial intelligence, vol 37, pp 13371\u201313379","DOI":"10.1609\/aaai.v37i11.26569"},{"issue":"11","key":"11261_CR48","doi-asserted-by":"publisher","first-page":"16343","DOI":"10.1007\/s11042-022-14167-2","volume":"82","author":"H Yan","year":"2023","unstructured":"Yan H, Liu L, Feng X, Huang Q (2023) Overcoming language priors with self-contrastive learning for visual question answering. Multimed Tools Appl 82(11):16343\u201316358","journal-title":"Multimed Tools Appl"},{"key":"11261_CR49","doi-asserted-by":"crossref","unstructured":"Agrawal A, Batra D, Parikh D, Kembhavi A (2018) Don\u2019t just assume; look and answer: overcoming priors for visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4971\u20134980","DOI":"10.1109\/CVPR.2018.00522"},{"key":"11261_CR50","doi-asserted-by":"crossref","unstructured":"Pennington J, Socher R, Manning CD (2014) Glove: Global vectors for word representation. In: Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pp 1532\u20131543","DOI":"10.3115\/v1\/D14-1162"},{"key":"11261_CR51","doi-asserted-by":"crossref","unstructured":"Peters M, Neumann M, Iyyer M, Gardner M, Clark C, Lee K, Zettlemoyer L (1802) Deep contextualized word representations. arxiv 2018. arXiv preprint arXiv:1802.05365 12","DOI":"10.18653\/v1\/N18-1202"},{"issue":"2","key":"11261_CR52","doi-asserted-by":"publisher","first-page":"1023","DOI":"10.1109\/TNNLS.2021.3104937","volume":"34","author":"D Guo","year":"2023","unstructured":"Guo D, Xu C, Tao D (2023) Bilinear graph networks for visual question answering. IEEE Trans Neural Netw Learn Syst 34(2):1023\u20131034","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"issue":"5","key":"11261_CR53","doi-asserted-by":"publisher","first-page":"1424","DOI":"10.1049\/ipr2.12421","volume":"16","author":"X Shao","year":"2022","unstructured":"Shao X, Xiang Z, Li Y (2022) Visual question answering with gated relation-aware auxiliary. IET Image Process 16(5):1424\u20131432","journal-title":"IET Image Process"},{"key":"11261_CR54","doi-asserted-by":"crossref","unstructured":"Gao Y, Beijbom O, Zhang N, Darrell T (2016) Compact bilinear pooling. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 317\u2013326","DOI":"10.1109\/CVPR.2016.41"},{"key":"11261_CR55","doi-asserted-by":"crossref","unstructured":"Zhou Y, Ji R, Sun X, Luo G, Hong X, Su J, Ding X, Shao L (2020) K-armed bandit based multi-modal network architecture search for visual question answering. In: Proceedings of the 28th ACM international conference on multimedia, pp 1245\u20131254","DOI":"10.1145\/3394171.3413998"},{"key":"11261_CR56","doi-asserted-by":"crossref","unstructured":"Yu Z, Cui Y, Yu J, Wang M, Tao D, Tian Q (2020) Deep multimodal neural architecture search. In: Proceedings of the 28th ACM international conference on multimedia, pp 3743\u20133752","DOI":"10.1145\/3394171.3413977"},{"key":"11261_CR57","unstructured":"Cao J, Qin X, Zhao S, Shen J (2022) Bilateral cross-modality graph matching attention for feature fusion in visual question answering. IEEE Trans Neural Netw Learn Syst"},{"issue":"2","key":"11261_CR58","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2022.103207","volume":"60","author":"Z Xu","year":"2023","unstructured":"Xu Z, Gu J, Liu M, Zhou G, Fu H, Qiu C (2023) A question-guided multi-hop reasoning graph network for visual question answering. Inf Process Manag 60(2):103207","journal-title":"Inf Process Manag"},{"key":"11261_CR59","unstructured":"Wu J, Mooney R (2019) Self-critical reasoning for robust visual question answering. Adv Neural Inf Process Syst 32"},{"key":"11261_CR60","doi-asserted-by":"publisher","first-page":"227","DOI":"10.1109\/TIP.2021.3128322","volume":"31","author":"Y Guo","year":"2021","unstructured":"Guo Y, Nie L, Cheng Z, Tian Q, Zhang M (2021) Loss re-scaling vqa: revisiting the language prior problem from a class-imbalance view. IEEE Trans Image Process 31:227\u2013238","journal-title":"IEEE Trans Image Process"},{"key":"11261_CR61","doi-asserted-by":"crossref","unstructured":"Chen L, Yan X, Xiao J, Zhang H, Pu S, Zhuang Y (2020) Counterfactual samples synthesizing for robust visual question answering. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10800\u201310809","DOI":"10.1109\/CVPR42600.2020.01081"},{"key":"11261_CR62","doi-asserted-by":"crossref","unstructured":"Zhu X, Mao Z, Liu C, Zhang P, Wang B, Zhang Y (2020) Overcoming language priors with self-supervised learning for visual question answering. arXiv preprint arXiv:2012.11528","DOI":"10.24963\/ijcai.2020\/151"},{"key":"11261_CR63","doi-asserted-by":"crossref","unstructured":"Niu Y, Tang K, Zhang H, Lu Z, Hua X-S, Wen J-R (2021) Counterfactual vqa: a cause-effect look at language bias. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 12700\u201312710","DOI":"10.1109\/CVPR46437.2021.01251"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11261-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-025-11261-y\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11261-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,6]],"date-time":"2025-09-06T14:28:43Z","timestamp":1757168923000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-025-11261-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,9]]},"references-count":63,"journal-issue":{"issue":"22","published-print":{"date-parts":[[2025,8]]}},"alternative-id":["11261"],"URL":"https:\/\/doi.org\/10.1007\/s00521-025-11261-y","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"value":"0941-0643","type":"print"},{"value":"1433-3058","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,5,9]]},"assertion":[{"value":"22 October 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 April 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 May 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}