{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T04:29:19Z","timestamp":1750220959912,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":25,"publisher":"ACM","license":[{"start":{"date-parts":[[2019,6,5]],"date-time":"2019-06-05T00:00:00Z","timestamp":1559692800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2019,6,5]]},"DOI":"10.1145\/3323873.3325044","type":"proceedings-article","created":{"date-parts":[[2019,6,10]],"date-time":"2019-06-10T12:10:58Z","timestamp":1560168658000},"page":"207-211","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":16,"title":["Stacked Self-Attention Networks for Visual Question Answering"],"prefix":"10.1145","author":[{"given":"Qiang","family":"Sun","sequence":"first","affiliation":[{"name":"Fundan University &amp; ZheJiang Xin ZaiLing Technology Co. LTD, Shanghai, China"}]},{"given":"Yanwei","family":"Fu","sequence":"additional","affiliation":[{"name":"Fundan University &amp; ZheJiang Xin ZaiLing Technology Co. LTD, Shanghai, China"}]}],"member":"320","published-online":{"date-parts":[[2019,6,5]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"crossref","unstructured":"Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould and Lei Zhang. 2018. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR .  Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould and Lei Zhang. 2018. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR .","DOI":"10.1109\/CVPR.2018.00636"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"e_1_3_2_1_3_1","volume-title":"Mutan: Multimodal tucker fusion for visual question answering. In ICCV .","author":"Ben-Younes Hedi","year":"2017","unstructured":"Hedi Ben-Younes , R\u00e9mi Cadene , Matthieu Cord , and Nicolas Thome . 2017 . Mutan: Multimodal tucker fusion for visual question answering. In ICCV . Hedi Ben-Younes, R\u00e9mi Cadene, Matthieu Cord, and Nicolas Thome. 2017. Mutan: Multimodal tucker fusion for visual question answering. In ICCV ."},{"key":"e_1_3_2_1_4_1","volume-title":"Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805","author":"Devlin Jacob","year":"2018","unstructured":"Jacob Devlin , Ming-Wei Chang , Kenton Lee , and Kristina Toutanova . 2018 . Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018). Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018)."},{"key":"e_1_3_2_1_5_1","volume-title":"Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach.","author":"Fukui Akira","year":"2016","unstructured":"Akira Fukui , Dong Huk Park , Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach. 2016 . Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv preprint arXiv:1606.01847 (2016). Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach. 2016. Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv preprint arXiv:1606.01847 (2016)."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"crossref","unstructured":"Yash Goyal Tejas Khot Douglas Summers-Stay Dhruv Batra and Devi Parikh. 2017. Making the V in VQA matter: Elevating the role of image understanding in Visual Question Answering. In CVPR .  Yash Goyal Tejas Khot Douglas Summers-Stay Dhruv Batra and Devi Parikh. 2017. Making the V in VQA matter: Elevating the role of image understanding in Visual Question Answering. In CVPR .","DOI":"10.1109\/CVPR.2017.670"},{"key":"e_1_3_2_1_7_1","volume-title":"A Strong Baseline For Visual Question Answering. arXiv preprint arXiv:1704.03162","author":"Kazemi Vahid","year":"2017","unstructured":"Vahid Kazemi and Ali Elqursh . 2017. Show, Ask, Attend, and Answer : A Strong Baseline For Visual Question Answering. arXiv preprint arXiv:1704.03162 ( 2017 ). Vahid Kazemi and Ali Elqursh. 2017. Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering. arXiv preprint arXiv:1704.03162 (2017)."},{"key":"e_1_3_2_1_8_1","volume-title":"Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang.","author":"Kim Jin-Hwa","year":"2017","unstructured":"Jin-Hwa Kim , Kyoung Woon On , Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang. 2017 . Hadamard Product for Low-rank Bilinear Pooling . In ICLR . Jin-Hwa Kim, Kyoung Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang. 2017. Hadamard Product for Low-rank Bilinear Pooling . In ICLR ."},{"key":"e_1_3_2_1_9_1","unstructured":"Tsung-Yi Lin Michael Maire Serge Belongie James Hays Pietro Perona Deva Ramanan Piotr Doll\u00e1r and C Lawrence Zitnick. 2014. Microsoft coco: Common objects in context. In ECCV .  Tsung-Yi Lin Michael Maire Serge Belongie James Hays Pietro Perona Deva Ramanan Piotr Doll\u00e1r and C Lawrence Zitnick. 2014. Microsoft coco: Common objects in context. In ECCV ."},{"key":"e_1_3_2_1_10_1","unstructured":"Jiasen Lu Jianwei Yang Dhruv Batra and Devi Parikh. 2016. Hierarchical question-image co-attention for visual question answering. In NIPS .   Jiasen Lu Jianwei Yang Dhruv Batra and Devi Parikh. 2016. Hierarchical question-image co-attention for visual question answering. In NIPS ."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"crossref","unstructured":"Lin Ma Zhengdong Lu and Hang Li. 2016. Learning to Answer Questions from Image Using Convolutional Neural Network.. In AAAI .   Lin Ma Zhengdong Lu and Hang Li. 2016. Learning to Answer Questions from Image Using Convolutional Neural Network.. In AAAI .","DOI":"10.1609\/aaai.v30i1.10442"},{"key":"e_1_3_2_1_12_1","unstructured":"Hyeonseob Nam Jung-Woo Ha and Jeonghee Kim. 2017. Dual attention networks for multimodal reasoning and matching. In ICCV .  Hyeonseob Nam Jung-Woo Ha and Jeonghee Kim. 2017. Dual attention networks for multimodal reasoning and matching. In ICCV ."},{"key":"e_1_3_2_1_13_1","unstructured":"Shaoqing Ren Kaiming He Ross Girshick and Jian Sun. 2015. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In NIPS .   Shaoqing Ren Kaiming He Ross Girshick and Jian Sun. 2015. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In NIPS ."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Kevin J Shih Saurabh Singh and Derek Hoiem. 2016. Where to look: Focus regions for visual question answering. In CVPR .  Kevin J Shih Saurabh Singh and Derek Hoiem. 2016. Where to look: Focus regions for visual question answering. In CVPR .","DOI":"10.1109\/CVPR.2016.499"},{"key":"e_1_3_2_1_15_1","volume-title":"Tips and tricks for visual question answering: Learnings from the 2017 challenge. arXiv preprint arXiv:1708.02711","author":"Teney Damien","year":"2017","unstructured":"Damien Teney , Peter Anderson , Xiaodong He , and Anton van den Hengel . 2017. Tips and tricks for visual question answering: Learnings from the 2017 challenge. arXiv preprint arXiv:1708.02711 ( 2017 ). Damien Teney, Peter Anderson, Xiaodong He, and Anton van den Hengel. 2017. Tips and tricks for visual question answering: Learnings from the 2017 challenge. arXiv preprint arXiv:1708.02711 (2017)."},{"key":"e_1_3_2_1_16_1","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N Gomez \u0141ukasz Kaiser and Illia Polosukhin. 2017. Attention is all you need. In NIPS .   Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N Gomez \u0141ukasz Kaiser and Illia Polosukhin. 2017. Attention is all you need. In NIPS ."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Peng Wang Qi Wu Chunhua Shen Anthony Dick and Anton Van Den Henge. 2017. Explicit knowledge-based reasoning for visual question answering. In IJCAI .  Peng Wang Qi Wu Chunhua Shen Anthony Dick and Anton Van Den Henge. 2017. Explicit knowledge-based reasoning for visual question answering. In IJCAI .","DOI":"10.24963\/ijcai.2017\/179"},{"key":"e_1_3_2_1_18_1","unstructured":"Chenfei Wu Jinlai Liu Xiaojie Wang and Xuan Dong. 2018. Chain of Reasoning for Visual Question Answering. In NIPS .   Chenfei Wu Jinlai Liu Xiaojie Wang and Xuan Dong. 2018. Chain of Reasoning for Visual Question Answering. In NIPS ."},{"key":"e_1_3_2_1_19_1","volume-title":"Visual question answering: A survey of methods and datasets. CVIU","author":"Wu Qi","year":"2017","unstructured":"Qi Wu , Damien Teney , Peng Wang , Chunhua Shen , Anthony Dick , and Anton van den Hengel . 2017. Visual question answering: A survey of methods and datasets. CVIU ( 2017 ). Qi Wu, Damien Teney, Peng Wang, Chunhua Shen, Anthony Dick, and Anton van den Hengel. 2017. Visual question answering: A survey of methods and datasets. CVIU (2017)."},{"key":"e_1_3_2_1_20_1","unstructured":"Kelvin Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhudinov Rich Zemel and Yoshua Bengio. 2015. Show attend and tell: Neural image caption generation with visual attention. In ICML .   Kelvin Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhudinov Rich Zemel and Yoshua Bengio. 2015. Show attend and tell: Neural image caption generation with visual attention. In ICML ."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"crossref","unstructured":"Zichao Yang Xiaodong He Jianfeng Gao Li Deng and Alex Smola. 2016. Stacked attention networks for image question answering. In CVPR .  Zichao Yang Xiaodong He Jianfeng Gao Li Deng and Alex Smola. 2016. Stacked attention networks for image question answering. In CVPR .","DOI":"10.1109\/CVPR.2016.10"},{"key":"e_1_3_2_1_22_1","volume-title":"Yanwei Fu, Yu-Gang Jiang, and Xiangyang Xue.","author":"Zhang Bing","year":"2018","unstructured":"Bing Zhang , Chengming Xu , Chang Mao Cheng , Yanwei Fu, Yu-Gang Jiang, and Xiangyang Xue. 2018 . Learning to score and summarize figure skating sport videos. arXiv preprint arXiv:1802.02774 (2018). Bing Zhang, Chengming Xu, Chang Mao Cheng, Yanwei Fu, Yu-Gang Jiang, and Xiangyang Xue. 2018. Learning to score and summarize figure skating sport videos. arXiv preprint arXiv:1802.02774 (2018)."},{"key":"e_1_3_2_1_23_1","volume-title":"Simple baseline for visual question answering. arXiv preprint arXiv:1512.02167","author":"Zhou Bolei","year":"2015","unstructured":"Bolei Zhou , Yuandong Tian , Sainbayar Sukhbaatar , Arthur Szlam , and Rob Fergus . 2015. Simple baseline for visual question answering. arXiv preprint arXiv:1512.02167 ( 2015 ). Bolei Zhou, Yuandong Tian, Sainbayar Sukhbaatar, Arthur Szlam, and Rob Fergus. 2015. Simple baseline for visual question answering. arXiv preprint arXiv:1512.02167 (2015)."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"crossref","unstructured":"Chen Zhu Yanpeng Zhao Shuaiyi Huang Kewei Tu and Yi Ma. 2017. Structured attentions for visual question answering. In ICCV .  Chen Zhu Yanpeng Zhao Shuaiyi Huang Kewei Tu and Yi Ma. 2017. Structured attentions for visual question answering. In ICCV .","DOI":"10.1109\/ICCV.2017.145"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"crossref","unstructured":"Yuke Zhu Oliver Groth Michael Bernstein and Li Fei-Fei. 2016. Visual7w: Grounded question answering in images. In CVPR .  Yuke Zhu Oliver Groth Michael Bernstein and Li Fei-Fei. 2016. Visual7w: Grounded question answering in images. In CVPR .","DOI":"10.1109\/CVPR.2016.540"}],"event":{"name":"ICMR '19: International Conference on Multimedia Retrieval","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Ottawa ON Canada","acronym":"ICMR '19"},"container-title":["Proceedings of the 2019 on International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3323873.3325044","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3323873.3325044","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T23:54:12Z","timestamp":1750204452000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3323873.3325044"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,6,5]]},"references-count":25,"alternative-id":["10.1145\/3323873.3325044","10.1145\/3323873"],"URL":"https:\/\/doi.org\/10.1145\/3323873.3325044","relation":{},"subject":[],"published":{"date-parts":[[2019,6,5]]},"assertion":[{"value":"2019-06-05","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}