{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T15:26:30Z","timestamp":1758122790038,"version":"3.28.0"},"reference-count":60,"publisher":"IEEE","license":[{"start":{"date-parts":[[2020,3,1]],"date-time":"2020-03-01T00:00:00Z","timestamp":1583020800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,3,1]],"date-time":"2020-03-01T00:00:00Z","timestamp":1583020800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,3,1]],"date-time":"2020-03-01T00:00:00Z","timestamp":1583020800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2020,3]]},"DOI":"10.1109\/wacv45572.2020.9093295","type":"proceedings-article","created":{"date-parts":[[2020,5,14]],"date-time":"2020-05-14T23:41:09Z","timestamp":1589499669000},"page":"1566-1575","source":"Crossref","is-referenced-by-count":16,"title":["Robust Explanations for Visual Question Answering"],"prefix":"10.1109","author":[{"given":"Badri N.","family":"Patro","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shivansh","family":"Patel","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Vinay P.","family":"Namboodiri","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"year":"2019","author":"patro","article-title":"Explanation vs attention: A two-player game to obtain attention for vqa","key":"ref39"},{"doi-asserted-by":"publisher","key":"ref38","DOI":"10.1109\/CVPR.2018.00801"},{"key":"ref33","article-title":"A multi-world approach to question answering about real-world scenes based on uncertain input","author":"malinowski","year":"2014","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref32","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v30i1.10442","article-title":"Learning to answer questions from image using convolutional neural network","author":"ma","year":"2016","journal-title":"THIRTIETH AAAI Conference on Artificial Intelligence"},{"key":"ref31","first-page":"289","article-title":"Hierarchical question-image co-attention for visual question answering","author":"lu","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref30","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"lin","year":"2014","journal-title":"European Conference on Computer Vision"},{"key":"ref37","first-page":"311","article-title":"Bleu: a method for automatic evaluation of machine translation","author":"papineni","year":"2002","journal-title":"Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02"},{"doi-asserted-by":"publisher","key":"ref36","DOI":"10.1109\/CVPR.2016.11"},{"doi-asserted-by":"publisher","key":"ref35","DOI":"10.18653\/v1\/P16-1170"},{"year":"2014","author":"mirza","article-title":"Conditional generative adversarial nets","key":"ref34"},{"key":"ref60","first-page":"4995","article-title":"Visual7w: Grounded question answering in images","author":"zhu","year":"2016","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"doi-asserted-by":"publisher","key":"ref28","DOI":"10.1109\/ICCV.2017.364"},{"key":"ref27","first-page":"4655","article-title":"Visual question answering with question representation update (qru)","author":"li","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref29","article-title":"Rouge: A package for automatic evaluation of summaries","author":"lin","year":"2004","journal-title":"Text Summarization Branches Out Proceedings of the ACL-04 Workshop"},{"key":"ref2","article-title":"Cross-modal scene networks","author":"aytar","year":"2017","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"doi-asserted-by":"publisher","key":"ref1","DOI":"10.1109\/ICCV.2015.279"},{"doi-asserted-by":"publisher","key":"ref20","DOI":"10.1109\/CVPR.2018.00915"},{"doi-asserted-by":"publisher","key":"ref22","DOI":"10.1109\/CVPR.2016.494"},{"doi-asserted-by":"publisher","key":"ref21","DOI":"10.1109\/CVPR.2017.575"},{"doi-asserted-by":"publisher","key":"ref24","DOI":"10.1109\/CVPR.2011.5995466"},{"doi-asserted-by":"publisher","key":"ref23","DOI":"10.1109\/CVPR.2015.7298932"},{"doi-asserted-by":"publisher","key":"ref26","DOI":"10.18653\/v1\/D17-1230"},{"key":"ref25","article-title":"Explainable artificial intelligence for training and tutoring","author":"lane","year":"2005","journal-title":"Technical report UNIVERSITY OF SOUTHERN CALIFORNIA MARINA DEL REY CA INST FOR CREATIVE"},{"year":"2016","author":"vijayakumar","article-title":"Diverse beam search: Decoding diverse solutions from neural sequence models","key":"ref50"},{"doi-asserted-by":"publisher","key":"ref51","DOI":"10.1109\/CVPR.2015.7298935"},{"year":"2014","author":"zhou","article-title":"Object detectors emerge in deep scene cnns","key":"ref59"},{"year":"2017","author":"zhang","article-title":"Adversarial feature matching for text generation","key":"ref58"},{"key":"ref57","first-page":"818","article-title":"Visualizing and understanding convolutional networks","author":"zeiler","year":"2014","journal-title":"European Conference on Computer Vision"},{"key":"ref56","first-page":"2852","article-title":"Seqgan: Sequence generative adversarial nets with policy gradient","author":"yu","year":"2017","journal-title":"AAAI"},{"doi-asserted-by":"publisher","key":"ref55","DOI":"10.1109\/ICCV.2015.283"},{"doi-asserted-by":"publisher","key":"ref54","DOI":"10.1007\/978-3-319-46493-0_47"},{"key":"ref53","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"2015","journal-title":"International Conference on Machine Learning"},{"key":"ref52","first-page":"451","article-title":"Ask, attend and answer: Exploring question-guided spatial attention for visual question answering","author":"xu","year":"2016","journal-title":"European Conference on Computer Vision"},{"doi-asserted-by":"publisher","key":"ref10","DOI":"10.1109\/CVPR.2015.7298730"},{"doi-asserted-by":"publisher","key":"ref11","DOI":"10.1109\/CVPR.2015.7298754"},{"doi-asserted-by":"publisher","key":"ref40","DOI":"10.18653\/v1\/D18-1434"},{"key":"ref12","first-page":"15","article-title":"Every picture tells a story: Generating sentences from images","author":"farhadi","year":"2010","journal-title":"European Conference on Computer Vision"},{"key":"ref13","first-page":"2","article-title":"Janes v0. 4: Korpus slovenskih spletnih uporabni&#x0161;kih vsebin","volume":"2","author":"fi\u0161er","year":"2016","journal-title":"Sloven&#x0161;?ina"},{"doi-asserted-by":"publisher","key":"ref14","DOI":"10.18653\/v1\/D16-1044"},{"key":"ref15","first-page":"2296","article-title":"Are you talking to a machine&#x0192; dataset and methods for multilingual image question","author":"gao","year":"2015","journal-title":"Advances in neural information processing systems"},{"key":"ref16","first-page":"2672","article-title":"Generative adversarial nets","author":"goodfellow","year":"2014","journal-title":"Advances in neural information processing systems"},{"doi-asserted-by":"publisher","key":"ref17","DOI":"10.1109\/CVPR.2017.670"},{"year":"2017","author":"guo","article-title":"Long text generation via adversarial training with leaked information","key":"ref18"},{"key":"ref19","first-page":"1587","article-title":"Toward controlled generation of text","author":"hu","year":"2017","journal-title":"International Conference on Machine Learning"},{"key":"ref4","article-title":"Matching Words and Pictures","author":"barnard","year":"2003","journal-title":"JMLR"},{"key":"ref3","first-page":"65","article-title":"Meteor: An automatic metric for mt evaluation with improved correlation with human judgments","volume":"29","author":"banerjee","year":"2005","journal-title":"Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization"},{"key":"ref6","first-page":"2422","article-title":"Mind&#x2019;s eye: A recurrent visual representation for image caption generation","author":"chen","year":"2015","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"doi-asserted-by":"publisher","key":"ref5","DOI":"10.1109\/ICCV.2013.9"},{"key":"ref8","first-page":"1","article-title":"Statistical comparisons of classifiers over multiple data sets","volume":"7","author":"dem\u0161ar","year":"2006","journal-title":"Journal of Machine Learning Research"},{"doi-asserted-by":"publisher","key":"ref7","DOI":"10.1109\/ICCV.2017.321"},{"doi-asserted-by":"publisher","key":"ref49","DOI":"10.1109\/SSCI.2016.7849978"},{"doi-asserted-by":"publisher","key":"ref9","DOI":"10.1145\/2185520.2185597"},{"doi-asserted-by":"publisher","key":"ref46","DOI":"10.1016\/0025-5564(75)90047-4"},{"doi-asserted-by":"publisher","key":"ref45","DOI":"10.1109\/CVPR.2016.499"},{"doi-asserted-by":"publisher","key":"ref48","DOI":"10.1109\/CVPR.2015.7299087"},{"doi-asserted-by":"publisher","key":"ref47","DOI":"10.1162\/tacl_a_00177"},{"year":"2015","author":"radford","article-title":"Unsupervised representation learning with deep convolutional generative adversarial networks","key":"ref42"},{"doi-asserted-by":"publisher","key":"ref41","DOI":"10.1109\/ICCV.2019.00754"},{"key":"ref44","first-page":"2953","article-title":"Exploring models and data for image question answering","author":"ren","year":"2015","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"year":"2016","author":"reed","article-title":"Generative adversarial text to image synthesis","key":"ref43"}],"event":{"name":"2020 IEEE Winter Conference on Applications of Computer Vision (WACV)","start":{"date-parts":[[2020,3,1]]},"location":"Snowmass Village, CO, USA","end":{"date-parts":[[2020,3,5]]}},"container-title":["2020 IEEE Winter Conference on Applications of Computer Vision (WACV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9087828\/9093261\/09093295.pdf?arnumber=9093295","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,23]],"date-time":"2022-10-23T15:43:14Z","timestamp":1666539794000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9093295\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,3]]},"references-count":60,"URL":"https:\/\/doi.org\/10.1109\/wacv45572.2020.9093295","relation":{},"subject":[],"published":{"date-parts":[[2020,3]]}}}