{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T02:33:50Z","timestamp":1778812430836,"version":"3.51.4"},"reference-count":53,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2018,8,2]],"date-time":"2018-08-02T00:00:00Z","timestamp":1533168000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2019,2]]},"DOI":"10.1007\/s11042-018-6389-3","type":"journal-article","created":{"date-parts":[[2018,8,2]],"date-time":"2018-08-02T08:12:39Z","timestamp":1533197559000},"page":"3843-3858","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":29,"title":["Word-to-region attention network for visual question answering"],"prefix":"10.1007","volume":"78","author":[{"given":"Liang","family":"Peng","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5070-4511","authenticated-orcid":false,"given":"Yang","family":"Yang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yi","family":"Bin","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ning","family":"Xie","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fumin","family":"Shen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yanli","family":"Ji","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xing","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,8,2]]},"reference":[{"key":"6389_CR1","unstructured":"Anderson P, He X, Buehler C, Teney D, Johnson M, Gould S, Zhang L (2017) Bottom-up and top-down attention for image captioning and visual question answering. arXiv:\n                    1707.07998"},{"key":"6389_CR2","doi-asserted-by":"crossref","unstructured":"Antol S, Agrawal A, Lu J, Mitchell M, Batra D, Lawrence Zitnick C, Parikh D (2015) Vqa: visual question answering. In: IEEE international conference on computer vision, pp 2425\u20132433","DOI":"10.1109\/ICCV.2015.279"},{"key":"6389_CR3","unstructured":"Bahdanau D, Cho K, Bengio Y (2014) Neural machine translation by jointly learning to align and translate. arXiv:\n                    1409.0473"},{"key":"6389_CR4","doi-asserted-by":"publisher","unstructured":"Bin Y, Yang Y, Shen F, Xie N, Shen HT, Li X (2018) Describing video with attention based bidirectional LSTM. IEEE Trans Cybern. \n                    https:\/\/doi.org\/10.1109\/TCYB.2018.2831447","DOI":"10.1109\/TCYB.2018.2831447"},{"key":"6389_CR5","doi-asserted-by":"crossref","unstructured":"Cho K, Van Merri\u00ebnboer B, Bahdanau D, Bengio Y (2014) On the properties of neural machine translation: Encoder-decoder approaches. arXiv:\n                    1409.1259","DOI":"10.3115\/v1\/W14-4012"},{"key":"6389_CR6","doi-asserted-by":"crossref","unstructured":"Fukui A, Park DH, Yang D, Rohrbach A, Darrell T, Rohrbach M (2016) Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv:\n                    1606.01847","DOI":"10.18653\/v1\/D16-1044"},{"key":"6389_CR7","doi-asserted-by":"crossref","unstructured":"Goyal Y, Khot T, Summers-Stay D, Batra D, Parikh D (2017) Making the v in VQA matter: elevating the role of image understanding in visual question answering. In: IEEE conference on computer vision and pattern recognition, pp 6325\u20136334","DOI":"10.1109\/CVPR.2017.670"},{"key":"6389_CR8","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: IEEE conference on computer vision and pattern recognition, pp 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"6389_CR9","unstructured":"Hedi B-Y, R\u00e9mi C, Nicolas T, Matthieu C (2017) Mutan: multimodal tucker fusion for visual question answering. In: IEEE international conference on computer vision, pp 2631\u20132639"},{"issue":"8","key":"6389_CR10","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"issue":"10","key":"6389_CR11","doi-asserted-by":"publisher","first-page":"4871","DOI":"10.1109\/TIP.2017.2717185","volume":"26","author":"M Hu","year":"2017","unstructured":"Hu M, Yang Y, Shen F, Zhang L, Shen HT, Li X (2017) Robust web image annotation via exploring multi-facet and structural knowledge. IEEE Trans Image Process 26(10):4871\u20134884","journal-title":"IEEE Trans Image Process"},{"issue":"2","key":"6389_CR12","doi-asserted-by":"publisher","first-page":"545","DOI":"10.1109\/TIP.2017.2749147","volume":"27","author":"M Hu","year":"2018","unstructured":"Hu M, Yang Y, Shen F, Xie N, Shen HT (2018) Hashing with angular reconstructive embeddings. IEEE Trans Image Process 27(2):545\u2013555","journal-title":"IEEE Trans Image Process"},{"key":"6389_CR13","unstructured":"Ilievski I, Feng J (2017) Multimodal learning and reasoning for visual question answering. In: Conference and workshop on neural information processing systems, pp 551\u2013562"},{"key":"6389_CR14","unstructured":"Ioffe S, Szegedy C (2015) Batch normalization: accelerating deep network training by reducing internal covariate shift. In: International conference on machine learning, pp 448\u2013456"},{"issue":"11","key":"6389_CR15","doi-asserted-by":"publisher","first-page":"1254","DOI":"10.1109\/34.730558","volume":"20","author":"L Itti","year":"1998","unstructured":"Itti L, Koch C, Niebur E (1998) A model of saliency-based visual attention for rapid scene analysis. IEEE Trans Pattern Anal Mach Intell 20(11):1254\u20131259","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"6389_CR16","unstructured":"Kazemi V, Elqursh A (2017) Show, ask, attend, and answer: a strong baseline for visual question answering. arXiv:\n                    1704.03162"},{"key":"6389_CR17","unstructured":"Kim J-H, Lee S-W, Kwak D, Heo M-O, Kim J, Ha J-W, Zhang B-T (2016) Multimodal residual learning for visual qa. In: Conference and workshop on neural information processing systems, pp 361\u2013369"},{"key":"6389_CR18","unstructured":"Kim J-H, On K-W, Kim J, Ha J-W, Zhang B-T (2016) Hadamard product for low-rank bilinear pooling. arXiv:\n                    1610.04325"},{"key":"6389_CR19","unstructured":"Kingma D, Ba J (2014) Adam: a method for stochastic optimization. arXiv:\n                    1412.6980"},{"key":"6389_CR20","unstructured":"Kiros R, Zhu Y, Salakhutdinov RR, Zemel R, Urtasun R, Torralba A, Fidler S (2015) Skip-thought vectors. In: Conference and workshop on neural information processing systems, pp 3294\u20133302"},{"key":"6389_CR21","doi-asserted-by":"crossref","unstructured":"Krishna R, Zhu Y, Groth O, Johnson J, Hata K, Kravitz J, Chen S, Kalantidis Y, Li L-J, Shamma DA et al (2017) Visual genome: connecting language and vision using crowdsourced dense image annotations. Int J Comput Vision 123(1):32\u201373","DOI":"10.1007\/s11263-016-0981-7"},{"key":"6389_CR22","unstructured":"Li R, Jia J (2016) Visual question answering with question representation update (QRU). In: Conference and workshop on neural information processing systems, pp 4655\u20134663"},{"key":"6389_CR23","unstructured":"Lin T-Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Doll\u00e1r P, Zitnick CL (2014) Microsoft coco: common objects in context. In: European conference on computer vision, pp 740\u2013755"},{"key":"6389_CR24","unstructured":"Lu J, Yang J, Batra D, Parikh D (2016) Hierarchical co-attention for visual question answering. In: Conference and workshop on neural information processing systems, pp 289\u2013297"},{"key":"6389_CR25","unstructured":"Lu P, Li H, Zhang W, Wang J, Wang X (2017) Co-attending free-form regions and detections with multi-modal multiplicative feature embedding for visual question answering. arXiv:\n                    1711.06794"},{"key":"6389_CR26","unstructured":"Nam H, Ha J-W, Kim J (2016) Dual attention networks for multimodal reasoning and matching. arXiv:\n                    1611.00471"},{"key":"6389_CR27","unstructured":"Ren S, He K, Girshick R, Sun J (2015) Faster R-CNN: towards real-time object detection with region proposal networks. In: Conference and workshop on neural information processing systems, pp 91\u201399"},{"key":"6389_CR28","doi-asserted-by":"crossref","unstructured":"Rush AM, Chopra S, Weston J (2015) A neural attention model for abstractive sentence summarization. arXiv:\n                    1509.00685","DOI":"10.18653\/v1\/D15-1044"},{"issue":"12","key":"6389_CR29","doi-asserted-by":"publisher","first-page":"5610","DOI":"10.1109\/TIP.2016.2612883","volume":"25","author":"F Shen","year":"2016","unstructured":"Shen F, Zhou X, Yang Y, Song J, Shen HT, Tao D (2016) A fast optimization method for general binary code learning. IEEE Trans Image Process 25(12):5610\u20135621","journal-title":"IEEE Trans Image Process"},{"issue":"9","key":"6389_CR30","doi-asserted-by":"publisher","first-page":"2022","DOI":"10.1109\/TMM.2017.2699863","volume":"19","author":"F Shen","year":"2017","unstructured":"Shen F, Yang Y, Liu L, Liu W, Tao D, Shen HT (2017) Asymmetric binary coding for image search. IEEE Trans Multimed 19(9):2022\u20132032","journal-title":"IEEE Trans Multimed"},{"key":"6389_CR31","doi-asserted-by":"publisher","unstructured":"Shen F, Xu Y, Liu L, Yang Y, Huang Z, Shen HT (2018) Unsupervised deep hashing with similarity-adaptive and discrete optimization. IEEE Trans Pattern Anal Mach Intell. \n                    https:\/\/doi.org\/10.1109\/TPAMI.2018.2789887","DOI":"10.1109\/TPAMI.2018.2789887"},{"key":"6389_CR32","doi-asserted-by":"crossref","unstructured":"Shih KJ, Singh S, Hoiem D (2016) Where to look: focus regions for visual question answering. In: IEEE conference on computer vision and pattern recognition, pp 4613\u20134621","DOI":"10.1109\/CVPR.2016.499"},{"key":"6389_CR33","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv:\n                    1409.1556"},{"key":"6389_CR34","unstructured":"Teney D, Anderson P, He X, Hengel AD (2017) Tips and tricks for visual question answering: learnings from the 2017 challenge. arXiv:\n                    1708.02711"},{"issue":"5","key":"6389_CR35","doi-asserted-by":"publisher","first-page":"2494","DOI":"10.1109\/TIP.2017.2676345","volume":"26","author":"XU Xing","year":"2017","unstructured":"Xing XU, Shen F, Yang Y, Shen HT, Li X (2017) Learning discriminative binary codes for large-scale cross-modal retrieval. IEEE Trans Image Process 26(5):2494\u20132507","journal-title":"IEEE Trans Image Process"},{"issue":"5","key":"6389_CR36","doi-asserted-by":"publisher","first-page":"1083","DOI":"10.1109\/TCYB.2014.2344015","volume":"45","author":"Y Yang","year":"2015","unstructured":"Yang Y, Ma Z, Yang Y, Nie F, Shen HT (2015) Multitask spectral clustering by exploring intertask correlation. IEEE Trans Cybern 45(5):1083\u20131094","journal-title":"IEEE Trans Cybern"},{"key":"6389_CR37","doi-asserted-by":"crossref","unstructured":"Yang Z, He X, Gao J, Deng L, Smola A (2016) Stacked attention networks for image question answering. In: IEEE conference on computer vision and pattern recognition, pp 21\u201329","DOI":"10.1109\/CVPR.2016.10"},{"issue":"9","key":"6389_CR38","doi-asserted-by":"publisher","first-page":"1834","DOI":"10.1109\/TKDE.2017.2701825","volume":"29","author":"Y Yang","year":"2017","unstructured":"Yang Y, Shen F, Huang Z, Shen H T, Li X (2017) Discrete nonnegative spectral clustering. IEEE Trans Knowl Data Eng 29(9):1834\u20131845","journal-title":"IEEE Trans Knowl Data Eng"},{"key":"6389_CR39","doi-asserted-by":"publisher","unstructured":"Yang Y, Duan Y, Wang X, Huang Z, Xie N, Shen HT (2018) Hierarchical multi-clue modelling for POI popularity prediction with heterogeneous tourist information. IEEE Trans Knowl Data Eng. \n                    https:\/\/doi.org\/10.1109\/TKDE.2018.2842190","DOI":"10.1109\/TKDE.2018.2842190"},{"key":"6389_CR40","doi-asserted-by":"publisher","unstructured":"Yang Y, Zhou J, Ai J, Bin Y, Hanjalic A, Shen H T (2018) Video captioning by adversarial LSTM. IEEE Trans Image Process. \n                    https:\/\/doi.org\/10.1109\/TIP.2018.2855422","DOI":"10.1109\/TIP.2018.2855422"},{"key":"6389_CR41","doi-asserted-by":"crossref","unstructured":"Yu D, Fu J, Mei T, Rui Y (2017) Multi-level attention networks for visual question answering. In: IEEE conference on computer vision and pattern recognition, pp 4187\u20134195","DOI":"10.1109\/CVPR.2017.446"},{"key":"6389_CR42","doi-asserted-by":"crossref","unstructured":"Yu Z, Yu J, Fan J, Tao D (2017) Beyond bilinear: generalized multi-modal factorized high-order pooling for visual question answering. IEEE Trans Neural Netw Learn Syst","DOI":"10.1109\/TNNLS.2018.2817340"},{"key":"6389_CR43","doi-asserted-by":"crossref","unstructured":"Yu Z, Yu J, Fan J, Tao D (2017) Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. In: IEEE international conference on computer vision, pp 1839\u2013 1848","DOI":"10.1109\/ICCV.2017.202"},{"key":"6389_CR44","doi-asserted-by":"crossref","unstructured":"Zhang H, Kyaw Z, Chang SF, Chua TS (2017) Visual translation embedding network for visual relation detection. In The IEEE conference on computer vision and pattern recognition, pp 3107\u20133115","DOI":"10.1109\/CVPR.2017.331"},{"key":"6389_CR45","doi-asserted-by":"crossref","unstructured":"Zhang M, Yang Y, Zhang H, Ji Y, Xie N, Shen HT (2017) Deep semantic indexing using convolutional localization network with region-based visual attention for image database. In: Australasian database conference, pp 261\u2013272","DOI":"10.1007\/978-3-319-68155-9_20"},{"key":"6389_CR46","doi-asserted-by":"publisher","unstructured":"Zhang W, Yu X, He X (2017) Learning bidirectional temporal cues for video-based person re-identification. IEEE Trans Circ Syst Video Technol. \n                    https:\/\/doi.org\/10.1109\/TCSVT.2017.2718188","DOI":"10.1109\/TCSVT.2017.2718188"},{"key":"6389_CR47","doi-asserted-by":"publisher","first-page":"781","DOI":"10.1016\/j.neucom.2017.09.012","volume":"275","author":"W Zhang","year":"2018","unstructured":"Zhang W, Chen Q, Zhang W, He X (2018) Long-range terrain perception using convolutional neural networks. Neurocomputing 275:781\u2013787","journal-title":"Neurocomputing"},{"key":"6389_CR48","doi-asserted-by":"crossref","unstructured":"Zhang H, Niu Y, Chang SF (2018) Grounding referring expressions in images by variational context. In: The IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2018.00437"},{"issue":"5","key":"6389_CR49","doi-asserted-by":"publisher","first-page":"1774","DOI":"10.1109\/TNNLS.2017.2673241","volume":"29","author":"S Zhang","year":"2018","unstructured":"Zhang S, Li X, Zong M, Zhu X, Wang R (2018) Efficient knn classification with different numbers of nearest neighbors. IEEE Trans Neural Netw Learn Syst 29(5):1774\u20131785","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"key":"6389_CR50","doi-asserted-by":"publisher","unstructured":"Zhou J T, Zhao H, Peng X, Fang M, Qin Z, Goh RSM (2018) Transfer hashing: from shallow to deep. IEEE Trans Neural Netw Learn Syst. \n                    https:\/\/doi.org\/10.1109\/TNNLS.2018.2827036","DOI":"10.1109\/TNNLS.2018.2827036"},{"issue":"9","key":"6389_CR51","doi-asserted-by":"publisher","first-page":"2033","DOI":"10.1109\/TMM.2017.2703636","volume":"19","author":"X Zhu","year":"2017","unstructured":"Zhu X, Li X, Zhang S, Xu Z, Yu L, Wang C (2017) Graph pca hashing for similarity search. IEEE Trans Multimed 19(9):2033\u20132044","journal-title":"IEEE Trans Multimed"},{"issue":"6","key":"6389_CR52","doi-asserted-by":"publisher","first-page":"2609","DOI":"10.1109\/TIP.2018.2806279","volume":"27","author":"H Zhu","year":"2018","unstructured":"Zhu H, Vial R, Lu S, Peng X, Fu H, Tian Y, Cao X (2018) YoTube: searching action proposal via recurrent and static regression networks. IEEE Trans Image Process 27(6):2609","journal-title":"IEEE Trans Image Process"},{"issue":"3","key":"6389_CR53","doi-asserted-by":"publisher","first-page":"517","DOI":"10.1109\/TKDE.2017.2763618","volume":"30","author":"X Zhu","year":"2018","unstructured":"Zhu X, Zhang S, Hu R, Zhu Y, et al (2018) Local and global structure preservation for robust unsupervised spectral feature selection. IEEE Trans Knowl Data Eng 30(3):517\u2013529","journal-title":"IEEE Trans Knowl Data Eng"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-018-6389-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-018-6389-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-018-6389-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,8,1]],"date-time":"2019-08-01T19:19:20Z","timestamp":1564687160000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-018-6389-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,8,2]]},"references-count":53,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2019,2]]}},"alternative-id":["6389"],"URL":"https:\/\/doi.org\/10.1007\/s11042-018-6389-3","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,8,2]]},"assertion":[{"value":"10 April 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 June 2018","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"5 July 2018","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 August 2018","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}