{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T03:43:21Z","timestamp":1773373401215,"version":"3.50.1"},"reference-count":47,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100012434","name":"Middle-aged and Young Teachers' Basic Ability Promotion Project of Guangxi","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100012434","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Image and Vision Computing"],"published-print":{"date-parts":[[2026,5]]},"DOI":"10.1016\/j.imavis.2026.105955","type":"journal-article","created":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T16:44:33Z","timestamp":1773074673000},"page":"105955","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Bidirectional causal learning for visual question answering"],"prefix":"10.1016","volume":"169","author":[{"given":"Faning","family":"Long","sequence":"first","affiliation":[]},{"given":"Peiyi","family":"Wei","sequence":"additional","affiliation":[]},{"given":"Peiyun","family":"Li","sequence":"additional","affiliation":[]},{"given":"Min","family":"Jiang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2548-3486","authenticated-orcid":false,"given":"Wei","family":"Li","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.imavis.2026.105955_b1","doi-asserted-by":"crossref","unstructured":"S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C.L. Zitnick, D. Parikh, Vqa: Visual question answering, in: Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2425\u20132433.","DOI":"10.1109\/ICCV.2015.279"},{"key":"10.1016\/j.imavis.2026.105955_b2","doi-asserted-by":"crossref","unstructured":"D. Gao, K. Li, R. Wang, S. Shan, X. Chen, Multi-modal graph neural network for joint reasoning on vision and scene text, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 12746\u201312756.","DOI":"10.1109\/CVPR42600.2020.01276"},{"key":"10.1016\/j.imavis.2026.105955_b3","doi-asserted-by":"crossref","unstructured":"J.W. Cho, D.-J. Kim, H. Ryu, I.S. Kweon, Generative bias for robust visual question answering, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 11681\u201311690.","DOI":"10.1109\/CVPR52729.2023.01124"},{"key":"10.1016\/j.imavis.2026.105955_b4","doi-asserted-by":"crossref","unstructured":"T. Wang, J. Huang, H. Zhang, Q. Sun, Visual commonsense r-cnn, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10760\u201310770.","DOI":"10.1109\/CVPR42600.2020.01077"},{"key":"10.1016\/j.imavis.2026.105955_b5","doi-asserted-by":"crossref","unstructured":"Y. Niu, K. Tang, H. Zhang, Z. Lu, X.-S. Hua, J.-R. Wen, Counterfactual vqa: A cause-effect look at language bias, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 12700\u201312710.","DOI":"10.1109\/CVPR46437.2021.01251"},{"key":"10.1016\/j.imavis.2026.105955_b6","doi-asserted-by":"crossref","unstructured":"Y. Goyal, T. Khot, D. Summers-Stay, D. Batra, D. Parikh, Making the v in vqa matter: Elevating the role of image understanding in visual question answering, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6904\u20136913.","DOI":"10.1109\/CVPR.2017.670"},{"key":"10.1016\/j.imavis.2026.105955_b7","doi-asserted-by":"crossref","unstructured":"A. Agrawal, D. Batra, D. Parikh, A. Kembhavi, Don\u2019t just assume; look and answer: Overcoming priors for visual question answering, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4971\u20134980.","DOI":"10.1109\/CVPR.2018.00522"},{"key":"10.1016\/j.imavis.2026.105955_b8","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111129","article-title":"Enhancing robust VQA via contrastive and self-supervised learning","volume":"159","author":"Cao","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.imavis.2026.105955_b9","doi-asserted-by":"crossref","DOI":"10.1016\/j.imavis.2023.104840","article-title":"Multi-modal spatial relational attention networks for visual question answering","volume":"140","author":"Yao","year":"2023","journal-title":"Image Vis. Comput."},{"key":"10.1016\/j.imavis.2026.105955_b10","article-title":"Bilinear attention networks","volume":"31","author":"Kim","year":"2018","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105955_b11","doi-asserted-by":"crossref","unstructured":"P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, L. Zhang, Bottom-up and top-down attention for image captioning and visual question answering, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6077\u20136086.","DOI":"10.1109\/CVPR.2018.00636"},{"key":"10.1016\/j.imavis.2026.105955_b12","doi-asserted-by":"crossref","first-page":"70","DOI":"10.1016\/j.inffus.2021.02.006","article-title":"Dmrfnet: deep multimodal reasoning and fusion for visual question answering and explanation generation","volume":"72","author":"Zhang","year":"2021","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.imavis.2026.105955_b13","doi-asserted-by":"crossref","first-page":"116","DOI":"10.1016\/j.inffus.2019.08.009","article-title":"Multimodal feature fusion by relational reasoning and attention for visual question answering","volume":"55","author":"Zhang","year":"2020","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.imavis.2026.105955_b14","doi-asserted-by":"crossref","DOI":"10.1109\/TCSVT.2024.3382684","article-title":"Fair attention network for robust visual question answering","author":"Bi","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.imavis.2026.105955_b15","doi-asserted-by":"crossref","unstructured":"R.R. Selvaraju, S. Lee, Y. Shen, H. Jin, S. Ghosh, L. Heck, D. Batra, D. Parikh, Taking a hint: Leveraging explanations to make vision and language models more grounded, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 2591\u20132600.","DOI":"10.1109\/ICCV.2019.00268"},{"key":"10.1016\/j.imavis.2026.105955_b16","doi-asserted-by":"crossref","DOI":"10.1016\/j.imavis.2020.103968","article-title":"Explaining VQA predictions using visual grounding and a knowledge base","volume":"101","author":"Riquelme","year":"2020","journal-title":"Image Vis. Comput."},{"key":"10.1016\/j.imavis.2026.105955_b17","doi-asserted-by":"crossref","unstructured":"W. Wang, D. Tran, M. Feiszli, What makes training multi-modal classification networks hard?, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 12695\u201312705.","DOI":"10.1109\/CVPR42600.2020.01271"},{"key":"10.1016\/j.imavis.2026.105955_b18","doi-asserted-by":"crossref","unstructured":"L. Nie, W. Wang, R. Hong, M. Wang, Q. Tian, Multimodal dialog system: Generating responses via adaptive decoders, in: Proceedings of the 27th ACM International Conference on Multimedia, 2019, pp. 1098\u20131106.","DOI":"10.1145\/3343031.3350923"},{"key":"10.1016\/j.imavis.2026.105955_b19","doi-asserted-by":"crossref","unstructured":"L. Nie, M. Jia, X. Song, G. Wu, H. Cheng, J. Gu, Multimodal activation: Awakening dialog robots without wake words, in: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2021, pp. 491\u2013500.","DOI":"10.1145\/3404835.3462964"},{"key":"10.1016\/j.imavis.2026.105955_b20","doi-asserted-by":"crossref","first-page":"7732","DOI":"10.1109\/TIP.2021.3108724","article-title":"Conversational image search","volume":"30","author":"Nie","year":"2021","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.imavis.2026.105955_b21","series-title":"Towards robust visual question answering: Making the most of biased samples via contrastive learning","author":"Si","year":"2022"},{"key":"10.1016\/j.imavis.2026.105955_b22","series-title":"Lxmert: Learning cross-modality encoder representations from transformers","author":"Tan","year":"2019"},{"key":"10.1016\/j.imavis.2026.105955_b23","doi-asserted-by":"crossref","unstructured":"T. Chen, W. Yu, R. Chen, L. Lin, Knowledge-embedded routing network for scene graph generation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 6163\u20136171.","DOI":"10.1109\/CVPR.2019.00632"},{"key":"10.1016\/j.imavis.2026.105955_b24","doi-asserted-by":"crossref","unstructured":"G. Li, X. Wang, W. Zhu, Perceptual visual reasoning with knowledge propagation, in: Proceedings of the 27th Acm International Conference on Multimedia, 2019, pp. 530\u2013538.","DOI":"10.1145\/3343031.3350922"},{"key":"10.1016\/j.imavis.2026.105955_b25","article-title":"Self-critical reasoning for robust visual question answering","volume":"32","author":"Wu","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"4","key":"10.1016\/j.imavis.2026.105955_b26","first-page":"1","article-title":"Answer questions with right image regions: A visual attention regularization approach","volume":"18","author":"Liu","year":"2022","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl. (TOMM)"},{"key":"10.1016\/j.imavis.2026.105955_b27","series-title":"Mutant: A training paradigm for out-of-distribution generalization in visual question answering","author":"Gokhale","year":"2020"},{"key":"10.1016\/j.imavis.2026.105955_b28","doi-asserted-by":"crossref","unstructured":"S. Zhao, Z. Li, Y. Lu, A. Yuille, Y. Wang, Causal-cog: A causal-effect look at context generation for boosting multi-modal language models, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 13342\u201313351.","DOI":"10.1109\/CVPR52733.2024.01267"},{"issue":"10","key":"10.1016\/j.imavis.2026.105955_b29","doi-asserted-by":"crossref","first-page":"11624","DOI":"10.1109\/TPAMI.2023.3284038","article-title":"Cross-modal causal relational reasoning for event-level visual question answering","volume":"45","author":"Liu","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"11","key":"10.1016\/j.imavis.2026.105955_b30","doi-asserted-by":"crossref","first-page":"13265","DOI":"10.1109\/TPAMI.2023.3292266","article-title":"Contrastive video question answering via video graph transformer","volume":"45","author":"Xiao","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.imavis.2026.105955_b31","series-title":"2023 IEEE 3rd International Conference on Data Science and Computer Application","first-page":"1337","article-title":"Establishment of second-hand sailboats price prediction model based on random forest and exploration of influencing factors","author":"Liu","year":"2023"},{"key":"10.1016\/j.imavis.2026.105955_b32","doi-asserted-by":"crossref","first-page":"4891","DOI":"10.1016\/j.egyr.2024.10.050","article-title":"Short-term power load forecast using OOA optimized bidirectional long short-term memory network with spectral attention for the frequency domain","volume":"12","author":"Liu","year":"2024","journal-title":"Energy Rep."},{"issue":"5","key":"10.1016\/j.imavis.2026.105955_b33","doi-asserted-by":"crossref","first-page":"402","DOI":"10.3390\/e26050402","article-title":"Detracking autoencoding conditional generative adversarial network: Improved generative adversarial network method for tabular missing value imputation","volume":"26","author":"Liu","year":"2024","journal-title":"Entropy"},{"key":"10.1016\/j.imavis.2026.105955_b34","first-page":"3784","article-title":"Debiased visual question answering from feature and sample perspectives","volume":"34","author":"Wen","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105955_b35","series-title":"Overcoming language priors with self-supervised learning for visual question answering","author":"Zhu","year":"2020"},{"key":"10.1016\/j.imavis.2026.105955_b36","doi-asserted-by":"crossref","unstructured":"Y. Li, L. Yuan, N. Vasconcelos, Bidirectional learning for domain adaptation of semantic segmentation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 6936\u20136945.","DOI":"10.1109\/CVPR.2019.00710"},{"key":"10.1016\/j.imavis.2026.105955_b37","series-title":"Cross-modal causal relation alignment for video question grounding","author":"Chen","year":"2025"},{"key":"10.1016\/j.imavis.2026.105955_b38","doi-asserted-by":"crossref","unstructured":"D.A. Hudson, C.D. Manning, Gqa: A new dataset for real-world visual reasoning and compositional question answering, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 6700\u20136709.","DOI":"10.1109\/CVPR.2019.00686"},{"key":"10.1016\/j.imavis.2026.105955_b39","doi-asserted-by":"crossref","unstructured":"J. Pennington, R. Socher, C.D. Manning, Glove: Global vectors for word representation, in: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pp. 1532\u20131543.","DOI":"10.3115\/v1\/D14-1162"},{"key":"10.1016\/j.imavis.2026.105955_b40","doi-asserted-by":"crossref","unstructured":"Z. Yang, X. He, J. Gao, L. Deng, A. Smola, Stacked attention networks for image question answering, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 21\u201329.","DOI":"10.1109\/CVPR.2016.10"},{"key":"10.1016\/j.imavis.2026.105955_b41","doi-asserted-by":"crossref","unstructured":"Z. Liang, W. Jiang, H. Hu, J. Zhu, Learning to contrast the counterfactual samples for robust visual question answering, in: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2020, pp. 3285\u20133292.","DOI":"10.18653\/v1\/2020.emnlp-main.265"},{"key":"10.1016\/j.imavis.2026.105955_b42","doi-asserted-by":"crossref","unstructured":"M. Ziaeefard, F. Lecue, Towards knowledge-augmented visual question answering, in: Proceedings of the 28th International Conference on Computational Linguistics, 2020, pp. 1863\u20131873.","DOI":"10.18653\/v1\/2020.coling-main.169"},{"key":"10.1016\/j.imavis.2026.105955_b43","doi-asserted-by":"crossref","unstructured":"Y. Guo, L. Nie, Y. Wong, Y. Liu, Z. Cheng, M. Kankanhalli, A unified end-to-end retriever-reader framework for knowledge-based VQA, in: Proceedings of the 30th ACM International Conference on Multimedia, 2022, pp. 2061\u20132069.","DOI":"10.1145\/3503161.3547870"},{"key":"10.1016\/j.imavis.2026.105955_b44","doi-asserted-by":"crossref","unstructured":"B.X. Nguyen, T. Do, H. Tran, E. Tjiputra, Q.D. Tran, A. Nguyen, Coarse-to-fine reasoning for visual question answering, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 4558\u20134566.","DOI":"10.1109\/CVPRW56347.2022.00502"},{"key":"10.1016\/j.imavis.2026.105955_b45","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.112827","article-title":"R-VQA: A robust visual question answering model","volume":"309","author":"Chowdhury","year":"2025","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.imavis.2026.105955_b46","series-title":"Check it again: Progressive visual question answering via visual entailment","author":"Si","year":"2021"},{"issue":"3","key":"10.1016\/j.imavis.2026.105955_b47","first-page":"560","article-title":"A medical visual question answering approach based on co-attention networks","volume":"41","author":"Cui","year":"2024","journal-title":"Sheng Wu Yi Xue Gong Cheng Xue Za Zhi=J. Biomed. Eng.=Shengwu Yixue Gongchengxue Zazhi"}],"container-title":["Image and Vision Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0262885626000624?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0262885626000624?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,12]],"date-time":"2026-03-12T17:32:46Z","timestamp":1773336766000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0262885626000624"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5]]},"references-count":47,"alternative-id":["S0262885626000624"],"URL":"https:\/\/doi.org\/10.1016\/j.imavis.2026.105955","relation":{},"ISSN":["0262-8856"],"issn-type":[{"value":"0262-8856","type":"print"}],"subject":[],"published":{"date-parts":[[2026,5]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Bidirectional causal learning for visual question answering","name":"articletitle","label":"Article Title"},{"value":"Image and Vision Computing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.imavis.2026.105955","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"105955"}}