{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T15:17:36Z","timestamp":1774451856149,"version":"3.50.1"},"reference-count":40,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2020,3,20]],"date-time":"2020-03-20T00:00:00Z","timestamp":1584662400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2020,3,20]],"date-time":"2020-03-20T00:00:00Z","timestamp":1584662400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"crossref","award":["61502477"],"award-info":[{"award-number":["61502477"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"name":"National Key Research and Development Program of China","award":["2016QY03D0505"],"award-info":[{"award-number":["2016QY03D0505"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2021,5]]},"DOI":"10.1007\/s11042-020-08790-0","type":"journal-article","created":{"date-parts":[[2020,3,20]],"date-time":"2020-03-20T05:13:14Z","timestamp":1584681194000},"page":"16247-16265","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":32,"title":["Object-difference drived graph convolutional networks for visual question answering"],"prefix":"10.1007","volume":"80","author":[{"given":"Xi","family":"Zhu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhendong","family":"Mao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhineng","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yangyang","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhaohui","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bin","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2020,3,20]]},"reference":[{"key":"8790_CR1","first-page":"6077","volume-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","author":"P Anderson","year":"2018","unstructured":"Anderson P, He X, Buehler C, Teney D, Johnson M, Gould S, Zhang L (2018) Bottom-up and top-down attention for image captioning and visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6077\u20136086"},{"key":"8790_CR2","first-page":"2425","volume-title":"Proceedings of the IEEE international conference on computer vision","author":"S Antol","year":"2015","unstructured":"Antol S, Agrawal A, Lu J, Mitchell M, Batra D, Lawrence Zitnick C, Parikh D (2015) Vqa: visual question answering. In: Proceedings of the IEEE international conference on computer vision, pp 2425\u20132433"},{"key":"8790_CR3","first-page":"2787","volume-title":"Advances in neural information processing systems","author":"A Bordes","year":"2013","unstructured":"Bordes A, Usunier N, Garcia-Duran A, Weston J, Yakhnenko O (2013) Translating embeddings for modeling multi-relational data. In: Advances in neural information processing systems, pp 2787\u20132795"},{"key":"8790_CR4","first-page":"3748","volume-title":"IJCAI","author":"Z Cheng","year":"2018","unstructured":"Cheng Z, Ding Y, He X, Zhu L, Song X, Kankanhalli MS (2018) A\u02c6 3ncf: an adaptive aspect attention model for rating prediction. In: IJCAI, pp 3748\u20133754"},{"issue":"2","key":"8790_CR5","first-page":"16","volume":"37","author":"Z Cheng","year":"2019","unstructured":"Cheng Z, Chang X, Zhu L, Kanjirathinkal RC, Kankanhalli M (2019) Mmalfm: explainable recommendation by leveraging reviews and images. ACM Trans Inform Syst (TOIS) 37(2):16","journal-title":"ACM Trans Inform Syst (TOIS)"},{"key":"8790_CR6","doi-asserted-by":"crossref","unstructured":"Cho K, Van Merri\u00ebnboer B, Bahdanau D, Bengio Y (2014) On the properties of neural machine translation: encoder-decoder app.roaches. arXiv:https:\/\/arxiv.org\/abs\/14091259","DOI":"10.3115\/v1\/W14-4012"},{"key":"8790_CR7","first-page":"6904","volume-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","author":"Y Goyal","year":"2017","unstructured":"Goyal Y, Khot T, Summers-Stay D, Batra D, Parikh D (2017) Making the v in vqa matter: elevating the role of image understanding in visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6904\u20136913"},{"key":"8790_CR8","unstructured":"Ilievski I, Feng J (2017) Multimodal learning and reasoning for visual question answering. In: Advances in neural information processing systems, pp 551\u2013562"},{"key":"8790_CR9","unstructured":"Kazemi V, Elqursh A (2017) Show, ask, attend, and answer: a strong baseline for visual question answering. arXiv:https:\/\/arxiv.org\/abs\/170403162"},{"key":"8790_CR10","unstructured":"Kim JH, Lee SW, Kwak D, Heo MO, Kim J, Ha JW, Zhang BT (2016) Multimodal residual learning for visual qa. In: Advances in neural information processing systems, pp 361\u2013369"},{"key":"8790_CR11","unstructured":"Kingma DP, Ba J (2014) Adam: a method for stochastic optimization. arXiv:https:\/\/arxiv.org\/abs\/14126980"},{"key":"8790_CR12","unstructured":"Kipf TN, Welling M (2016) Semi-supervised classification with graph convolutional networks. arXiv:https:\/\/arxiv.org\/abs\/160902907"},{"key":"8790_CR13","unstructured":"Li G, Su H, Zhu W (2017) Incorporating external knowledge to answer open-domain visual questions with dynamic memory networks. arXiv:https:\/\/arxiv.org\/abs\/171200733"},{"key":"8790_CR14","doi-asserted-by":"crossref","unstructured":"Liao L, Ma Y, He X, Hong R, Chua Ts (2018) Knowledge-aware multimodal dialogue systems. In: 2018 ACM Multimedia conference on multimedia conference. ACM, pp 801\u2013809","DOI":"10.1145\/3240508.3240605"},{"issue":"5","key":"8790_CR15","doi-asserted-by":"publisher","first-page":"2103","DOI":"10.1109\/TIP.2016.2540802","volume":"25","author":"AA Liu","year":"2016","unstructured":"Liu AA, Nie WZ, Gao Y, Su YT (2016) Multi-modal clique-graph matching for view-based 3d model retrieval. IEEE Trans Image Process 25(5):2103\u20132116","journal-title":"IEEE Trans Image Process"},{"issue":"1","key":"8790_CR16","doi-asserted-by":"publisher","first-page":"102","DOI":"10.1109\/TPAMI.2016.2537337","volume":"39","author":"AA Liu","year":"2017","unstructured":"Liu AA, Su YT, Nie WZ, Kankanhalli M (2017) Hierarchical clustering multi-task learning for joint human action grouping and recognition. IEEE Trans Pattern Anal Mach Intell 39(1):102\u2013114","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"3","key":"8790_CR17","doi-asserted-by":"crossref","first-page":"916","DOI":"10.1109\/TCYB.2017.2664503","volume":"48","author":"AA Liu","year":"2018","unstructured":"Liu AA, Nie WZ, Gao Y, Su YT (2018) View-based 3-d model retrieval: a benchmark. IEEE Trans Cybern 48(3):916\u2013928","journal-title":"IEEE Trans Cybern"},{"issue":"10","key":"8790_CR18","doi-asserted-by":"publisher","first-page":"4860","DOI":"10.1109\/TIP.2018.2803306","volume":"27","author":"J Liu","year":"2018","unstructured":"Liu J, Zhai G, Liu A, Yang X, Zhao X, Chen CW (2018) Ipad: intensity potential for adaptive de-quantization. IEEE Trans Image Process 27(10):4860\u20134872","journal-title":"IEEE Trans Image Process"},{"key":"8790_CR19","unstructured":"Lu J, Yang J, Batra D, Parikh D (2016) Hierarchical co-attention for visual question answering. Advances in Neural Information Processing Systems (NIPS), 2"},{"key":"8790_CR20","doi-asserted-by":"crossref","unstructured":"Malinowski M, Rohrbach M, Fritz M (2015) Ask your neurons: a neural-based approach to answering questions about images. In: Proceedings of the IEEE international conference on computer vision, pp 1\u20139","DOI":"10.1109\/ICCV.2015.9"},{"key":"8790_CR21","doi-asserted-by":"crossref","unstructured":"Nam H, Ha JW, Kim J (2017) Dual attention networks for multimodal reasoning and matching. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 299\u2013307","DOI":"10.1109\/CVPR.2017.232"},{"key":"8790_CR22","unstructured":"Narasimhan M, Lazebnik S, Schwing A (2018) Out of the box: reasoning with graph convolution nets for factual visual question answering. In: Advances in neural information processing systems, pp 2654\u20132665"},{"key":"8790_CR23","unstructured":"Norcliffe-Brown W, Vafeias S, Parisot S (2018) Learning conditioned graph structures for interpretable visual question answering. In: Advances in neural information processing systems, pp 8334\u20138343"},{"key":"8790_CR24","doi-asserted-by":"crossref","unstructured":"Pennington J, Socher R, Manning C (2014) Glove: global vectors for word representation. In: Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pp 1532\u20131543","DOI":"10.3115\/v1\/D14-1162"},{"key":"8790_CR25","unstructured":"Ren S, He K, Girshick R, Sun J (2015) Faster r-cnn: towards real-time object detection with region proposal networks. In: Advances in neural information processing systems, pp 91\u201399"},{"key":"8790_CR26","unstructured":"Shang C, Liu Q, Chen KS, Sun J, Lu J, Yi J, Bi J (2018) Edge attention-based multi-relational graph convolutional networks. arXiv:https:\/\/arxiv.org\/abs\/180204944"},{"key":"8790_CR27","doi-asserted-by":"crossref","unstructured":"Shih KJ, Singh S, Hoiem D (2016) Where to look: focus regions for visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4613\u20134621","DOI":"10.1109\/CVPR.2016.499"},{"issue":"9","key":"8790_CR28","doi-asserted-by":"publisher","first-page":"2105","DOI":"10.1109\/TMM.2017.2729786","volume":"19","author":"S Tang","year":"2017","unstructured":"Tang S, Li Y, Deng L, Zhang Y (2017) Object localization based on proposal fusion. IEEE Trans Multimed 19(9):2105\u20132116","journal-title":"IEEE Trans Multimed"},{"key":"8790_CR29","doi-asserted-by":"crossref","unstructured":"Teney D, Liu L, van den Hengel A (2017) Graph-structured representations for visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1\u20139","DOI":"10.1109\/CVPR.2017.344"},{"key":"8790_CR30","doi-asserted-by":"crossref","unstructured":"Teney D, Anderson P, He X, van den Hengel A (2018) Tips and tricks for visual question answering: learnings from the 2017 challenge. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4223\u20134232","DOI":"10.1109\/CVPR.2018.00444"},{"issue":"10","key":"8790_CR31","doi-asserted-by":"publisher","first-page":"2413","DOI":"10.1109\/TPAMI.2017.2754246","volume":"40","author":"P Wang","year":"2018","unstructured":"Wang P, Wu Q, Shen C, Dick A, van den Hengel A (2018) Fvqa: fact-based visual question answering. IEEE Trans Pattern Anal Mach Intell 40(10):2413\u20132427","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"8790_CR32","doi-asserted-by":"crossref","unstructured":"Wu Q, Wang P, Shen C, Dick A, van den Hengel A (2016) Ask me anything: free-form visual question answering based on knowledge from external sources. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4622\u20134630","DOI":"10.1109\/CVPR.2016.500"},{"key":"8790_CR33","doi-asserted-by":"publisher","first-page":"21","DOI":"10.1016\/j.cviu.2017.05.001","volume":"163","author":"Q Wu","year":"2017","unstructured":"Wu Q, Teney D, Wang P, Shen C, Dick A, van den Hengel A (2017) Visual question answering: a survey of methods and datasets. Comput Vis Image Underst 163:21\u201340","journal-title":"Comput Vis Image Underst"},{"issue":"6","key":"8790_CR34","doi-asserted-by":"publisher","first-page":"1367","DOI":"10.1109\/TPAMI.2017.2708709","volume":"40","author":"Q Wu","year":"2018","unstructured":"Wu Q, Shen C, Wang P, Dick A, van den Hengel A (2018) Image captioning and visual question answering based on attributes and external knowledge. IEEE Trans Pattern Anal Mach Intell 40(6):1367\u20131381","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"8790_CR35","doi-asserted-by":"crossref","unstructured":"Wu C, Liu J, Wang X, Dong X (2018) Object-difference attention: a simple relational attention for visual question answering. In: 2018 ACM Multimedia conference on multimedia conference. ACM, pp 519\u2013527","DOI":"10.1145\/3240508.3240513"},{"key":"8790_CR36","doi-asserted-by":"crossref","unstructured":"Yan S, Xiong Y, Lin D (2018) Spatial temporal graph convolutional networks for skeleton-based action recognition. In: Thirty-Second AAAI conference on artificial intelligence","DOI":"10.1609\/aaai.v32i1.12328"},{"key":"8790_CR37","doi-asserted-by":"crossref","unstructured":"Yang Z, He X, Gao J, Deng L, Smola A (2016) Stacked attention networks for image question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 21\u201329","DOI":"10.1109\/CVPR.2016.10"},{"key":"8790_CR38","unstructured":"Yang Z, Yu J, Yang C, Qin Z, Hu Y (2018) Multi-modal learning with prior visual relation reasoning. arXiv:https:\/\/arxiv.org\/abs\/181209681"},{"key":"8790_CR39","doi-asserted-by":"crossref","unstructured":"Yang X, Zhang H, Cai J (2018) Shuffle-then-assemble: learning object-agnostic visual relationship features. In: Proceedings of the European conference on computer vision (ECCV), pp 36\u201352","DOI":"10.1007\/978-3-030-01258-8_3"},{"key":"8790_CR40","unstructured":"Zhang Y, Hare J, Pr\u00fcgel-Bennett A (2018) Learning to count objects in natural images for visual question answering. arXiv:https:\/\/arxiv.org\/abs\/180205766"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-020-08790-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-020-08790-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-020-08790-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,19]],"date-time":"2022-10-19T07:48:58Z","timestamp":1666165738000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-020-08790-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,3,20]]},"references-count":40,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2021,5]]}},"alternative-id":["8790"],"URL":"https:\/\/doi.org\/10.1007\/s11042-020-08790-0","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020,3,20]]},"assertion":[{"value":"23 April 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 December 2019","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 February 2020","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 March 2020","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}