{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,13]],"date-time":"2026-05-13T01:33:41Z","timestamp":1778636021259,"version":"3.51.4"},"reference-count":46,"publisher":"Springer Science and Business Media LLC","issue":"7","license":[{"start":{"date-parts":[[2021,1,5]],"date-time":"2021-01-05T00:00:00Z","timestamp":1609804800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,1,5]],"date-time":"2021-01-05T00:00:00Z","timestamp":1609804800000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61672338"],"award-info":[{"award-number":["61672338"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61873160"],"award-info":[{"award-number":["61873160"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Soft Comput"],"published-print":{"date-parts":[[2021,4]]},"DOI":"10.1007\/s00500-020-05539-7","type":"journal-article","created":{"date-parts":[[2021,1,5]],"date-time":"2021-01-05T11:14:51Z","timestamp":1609845291000},"page":"5411-5421","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":27,"title":["Cross-modality co-attention networks for visual question answering"],"prefix":"10.1007","volume":"25","author":[{"given":"Dezhi","family":"Han","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shuli","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1381-4364","authenticated-orcid":false,"given":"Kuan Ching","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rodrigo Fernandes","family":"de Mello","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2021,1,5]]},"reference":[{"key":"5539_CR1","doi-asserted-by":"crossref","unstructured":"Anderson P, He XD, Buehler C, Teney D, Johnson M, Gould S, Zhang L (2018) Bottom-up and top-down attention for image captioning and visual question answering. In: IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2018.00636"},{"key":"5539_CR2","doi-asserted-by":"crossref","unstructured":"Ben-Younes H, Cadene R, Cord M, Thome N (2017) MUTAN: multimodal tucker fusion for visual question answering. In: IEEE international conference on computer vision","DOI":"10.1109\/ICCV.2017.285"},{"key":"5539_CR3","doi-asserted-by":"publisher","first-page":"35662","DOI":"10.1109\/ACCESS.2975093","volume":"8","author":"C Chen","year":"2020","unstructured":"Chen C, Han D, Wang J (2020) Multimodal encoder-decoder attention networks for visual question answering. IEEE Access 8:35662\u201335671. https:\/\/doi.org\/10.1109\/ACCESS.2975093","journal-title":"IEEE Access"},{"key":"5539_CR4","unstructured":"Chung J, Gulcehre C, Cho K (2015) Gated feedback recurrent neural networks. In: International conference on machine learning, pp 2067\u20132075"},{"issue":"3","key":"5539_CR5","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1504\/IJBIC.2020.111267","volume":"16","author":"W Deng","year":"2020","unstructured":"Deng W, Xu JJ, Zhao HM, Song YJ (2020a) An effective improved co-evolution ant colony optimisation algorithm with multi-strategies and its application. Int J Bio-Inspir Comput 16(3):1\u201310","journal-title":"Int J Bio-Inspir Comput"},{"key":"5539_CR6","doi-asserted-by":"crossref","unstructured":"Deng W, Xu JJ, Zhao HM, Song YJ (2020b) A novel gate resource allocation method using improved PSO-based QEA. IEEE trans intell transp syst 1\u20139","DOI":"10.1109\/TITS.2020.3025796"},{"key":"5539_CR7","unstructured":"Devlin J, Chang MW, Lee K, Toutanova K (2018) Bert: pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805"},{"key":"5539_CR8","doi-asserted-by":"crossref","unstructured":"Fukui A, Huk Park D, Yang D, Rohrbach A, Darrell T, and Rohrbach M (2016) Multi-modal compact bilinear pooling for visual question answering and visual grounding. In: Proceedings of the 2016 conference on empirical methods in natural language processing, pp 457\u2013468","DOI":"10.18653\/v1\/D16-1044"},{"key":"5539_CR9","doi-asserted-by":"crossref","unstructured":"Gao Y, Beijbom O, Zhang N, Darrell T (2016) Compact bilinear pooling. In: IEEE conference on computer vision and pattern recognition, pp 317\u2013326","DOI":"10.1109\/CVPR.2016.41"},{"key":"5539_CR10","doi-asserted-by":"crossref","unstructured":"Gao P, Jiang ZK, You HX, Lu P, Steven CH, Wang XG, Li HS (2019) Dynamic fusion with intra- and inter-modality attention flow for visual question answering. In: CVPR, pp 6639\u20136648","DOI":"10.1109\/CVPR.2019.00680"},{"key":"5539_CR11","first-page":"2296","volume":"28","author":"HY Gao","year":"2015","unstructured":"Gao HY, Mao JH, Zhou J, Huang ZH, Wang L, Xu W (2015) Are you talking to a machine? Dataset and methods for multilingual image question. NIPS 28:2296\u20132304","journal-title":"NIPS"},{"key":"5539_CR12","doi-asserted-by":"crossref","unstructured":"Goyal Y, Khot T, Summers-Stay D, Batra D, Parikh D (2017) Making the V in VQA Matter: elevating the role of image understanding in visual question answering. In: IEEE conference on computer vision and pattern recognition, pp 6904\u20136913","DOI":"10.1109\/CVPR.2017.670"},{"issue":"1","key":"5539_CR13","doi-asserted-by":"publisher","first-page":"38","DOI":"10.2298\/CSIS200515038G","volume":"18","author":"Z Guo","year":"2021","unstructured":"Guo Z, Han D, Massetto FI, Li K-C (2021) Double-layer affective visual question answering network. Comput Sci Inf Syst 18(1):38","journal-title":"Comput Sci Inf Syst"},{"key":"5539_CR14","doi-asserted-by":"crossref","unstructured":"Gurari D, Li Q, Stangl AJ, Guo AH, Lin C, Grauman K, Luo JB, and Bigham JP (2018) Vizwiz grand challenge: answering visual questions from blind people. In: IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2018.00380"},{"key":"5539_CR15","doi-asserted-by":"publisher","first-page":"4897","DOI":"10.3390\/s20174897","volume":"20","author":"S He","year":"2020","unstructured":"He S, Han D (2020) An effective dense co-attention networks for visual question answering. Sensors 20:4897","journal-title":"Sensors"},{"key":"5539_CR16","unstructured":"He KM, Zhang XY, Ren SQ, and Sun J (2016) Deep residual learning for image recognition. In: IEEE conference on computer vision and pattern recognition, pp 770\u2013778"},{"key":"5539_CR17","unstructured":"Ilievski I, Yan SC, Feng JS (2016) A focused dynamic attention model for visual question answering. In: CoRR. arXiv:abs\/1604.01485"},{"key":"5539_CR18","unstructured":"Kim JH, Jun J, Zhang BT (2018) Bilinear attention networks. arXiv preprint arXiv:1805.07932"},{"key":"5539_CR19","unstructured":"Kim JH, Woon K, Lim W, Kim J, Ha JW, Zhang BT (2017) Hadamard product for low-rank bilinear pooling. In: ICLR 2017"},{"key":"5539_CR20","unstructured":"Kingma DP, Ba J (2014) Adam: a method for stochastic optimization. arXiv preprint arXiv:1412.6980"},{"issue":"1","key":"5539_CR21","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","volume":"123","author":"R Krishna","year":"2017","unstructured":"Krishna R, Zhu YK, Groth O, Johnson J, Hata K, Kravitz J, Chen S, Kalantidis Y, Li LJ, Shamma DA (2017) Visual genome: connecting language and vision using crowdsourced dense image annotations. Int J Comput Vision 123(1):32\u201373","journal-title":"Int J Comput Vision"},{"key":"5539_CR22","unstructured":"Lei BJ, Kiros JR, Hinton GE (2016) Layer normalization. arXiv preprint arXiv:1607.06450"},{"key":"5539_CR23","doi-asserted-by":"crossref","unstructured":"Li S, Xiao T, Li HS, Yang W, Wang XG (2017) Identity-aware textual-visual matching with latent co-attention. In: Computer vision (ICCV), 2017 IEEE international conference on, pp 1908\u20131917","DOI":"10.1109\/ICCV.2017.209"},{"key":"5539_CR24","doi-asserted-by":"crossref","unstructured":"Lin TY, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Doll' ar P, Zitnick CL (2014 )Microsoft CoCo: common objects in context. In: Proceedings of the European conference on computer vision, pp 740\u2013755. Springer","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"5539_CR25","unstructured":"Lu J, Yang JW, Batra D, Parikh D (2016a) Hierarchical question-image co-attention for visual question answering. In: Advances in neural information processing systems, pp 289\u2013297"},{"key":"5539_CR26","first-page":"289","volume":"29","author":"J Lu","year":"2016","unstructured":"Lu J, Yang JW, Batra D, Parikh D (2016b) Hierarchical question-image co-attention for visual question answering. NIPS 29:289\u2013297","journal-title":"NIPS"},{"key":"5539_CR27","doi-asserted-by":"crossref","unstructured":"Ma L, Lu ZD, Li H (2016) Learning to answer questions from image using convolutional neural network. In: AAAI, pp 3567\u20133573","DOI":"10.1609\/aaai.v30i1.10442"},{"key":"5539_CR28","doi-asserted-by":"crossref","unstructured":"Malinowski M, Rohrbach M, Fritz M (2015) Ask your neurons: a neural-based approach to answering questions about images. In: ICCV, pp 1\u20139","DOI":"10.1109\/ICCV.2015.9"},{"key":"5539_CR29","unstructured":"Mao JH , Xu W, Yang Y, Wang J, Yuille AL (2015) Deep captioning with multimodal recurrent neural networks (m-RNN). In: ICLR"},{"key":"5539_CR30","unstructured":"Nam H, Ha JW, Kim J (2017) Dual attention networks for multi-modal reasoning and matching. In: CVPR, pp 2156\u20132164"},{"key":"5539_CR31","unstructured":"Nguyen DK, Okatani T (2018) Improved fusion of visual and language representations by dense symmetric co-attention for visual question answering. In: CVPR, pp 6087\u20136096"},{"key":"5539_CR32","doi-asserted-by":"crossref","unstructured":"Pennington J, Socher R, Manning C (2014) Glove: global vectors for word representation. In: The conference on empirical methods in natural language processing, pp 1532\u20131543","DOI":"10.3115\/v1\/D14-1162"},{"key":"5539_CR33","unstructured":"Ren SQ, He KM, Girshick R, Sun J (2015a) Faster R-CNN: towards real-time object detection with region proposal networks. In: Advances in neural information processing systems, pp 91\u201399"},{"key":"5539_CR34","first-page":"2953","volume":"28","author":"M Ren","year":"2015","unstructured":"Ren M, Kiros R, Zemel R (2015b) Exploring models and data for image question answering. NIPS 28:2953\u20132961","journal-title":"NIPS"},{"key":"5539_CR35","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409-1416"},{"key":"5539_CR36","unstructured":"Sun SY, Pang JM, Shi JP, Yi S, Ouyang WL (2018) Fishnet: a versatile backbone for image, region, and pixel-level prediction. In: Advances in neural information processing systems, pp 760\u2013770"},{"key":"5539_CR37","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser \u0141, Polosukhin I (2017) Attention is all you need. In: Advances in neural information processing systems, pp 5998\u20136008"},{"issue":"1","key":"5539_CR38","first-page":"105","volume":"21","author":"T-H Weng","year":"2020","unstructured":"Weng T-H, Chiu C-C, Hsieh M-Y, Lu H, Li K-C (2020) Parallelisation of practical shared sampling alpha matting with OpenMP. Int J Comput Sci Eng 21(1):105\u2013115","journal-title":"Int J Comput Sci Eng"},{"key":"5539_CR39","doi-asserted-by":"crossref","unstructured":"Wu Q , Shen CH , Liu LQ, Dick AR, Hengel A (2016) What value do explicit high-level concepts have in vision to language problems? In: CVPR, pp. 203\u2013212.","DOI":"10.1109\/CVPR.2016.29"},{"key":"5539_CR40","unstructured":"Xiong CM, Zhong V, Socher R (2017) Dynamic co-attention networks for question answering. In: International conference on learning representations"},{"key":"5539_CR41","first-page":"451","volume":"7","author":"HJ Xu","year":"2016","unstructured":"Xu HJ, Saenko K (2016) Ask, attend and answer. exploring question-guided spatial attention for visual question answering. ECCV 7:451\u2013466","journal-title":"ECCV"},{"key":"5539_CR42","doi-asserted-by":"crossref","unstructured":"Yang ZC, He XD, Gao JF, Deng L, J. Smola (2016) Stacked attention networks for image question answering. In: CVPR, pp. 21\u201329","DOI":"10.1109\/CVPR.2016.10"},{"key":"5539_CR43","doi-asserted-by":"crossref","unstructured":"Yu Z, Yu J, Fan JP, Tao DC (2017) Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. In: ICCV, pp 1839\u20131848","DOI":"10.1109\/ICCV.2017.202"},{"issue":"12","key":"5539_CR44","doi-asserted-by":"publisher","first-page":"5947","DOI":"10.1109\/TNNLS.2018.2817340","volume":"29","author":"Z Yu","year":"2018","unstructured":"Yu Z, Yu J, Xiang CC, Fan JP, Tao DC (2018) beyond bilinear: generalized multi-modal factorized high-order pooling for visual question answering. IEEE Trans Neural Netw Learn Syst 29(12):5947\u20135959","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"key":"5539_CR45","unstructured":"Zhang Y, Hare JS (2018) Adam Pr\u00fcgel-Bennett. Learning to count objects in natural images for visual question answering. In: ICLR"},{"issue":"1","key":"5539_CR46","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1609\/aimag.v37i1.2647","volume":"37","author":"CL Zitnick","year":"2016","unstructured":"Zitnick CL, Agrawal A, Antol S, Mitchell M, Batra D, Parikh D (2016) Measuring machine intelligence through visual question answering. AI Maga 37(1):63\u201372","journal-title":"AI Maga"}],"container-title":["Soft Computing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00500-020-05539-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00500-020-05539-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00500-020-05539-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,10]],"date-time":"2022-12-10T15:54:58Z","timestamp":1670687698000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00500-020-05539-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,1,5]]},"references-count":46,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2021,4]]}},"alternative-id":["5539"],"URL":"https:\/\/doi.org\/10.1007\/s00500-020-05539-7","relation":{},"ISSN":["1432-7643","1433-7479"],"issn-type":[{"value":"1432-7643","type":"print"},{"value":"1433-7479","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,1,5]]},"assertion":[{"value":"5 January 2021","order":1,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Compliance with ethical standards"}},{"value":"The author declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"This article does not contain any studies with human participants or animals performed by any of the authors.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}}]}}