{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T07:28:12Z","timestamp":1740122892655,"version":"3.37.3"},"reference-count":21,"publisher":"Springer Science and Business Media LLC","issue":"19","license":[{"start":{"date-parts":[[2022,1,8]],"date-time":"2022-01-08T00:00:00Z","timestamp":1641600000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,8]],"date-time":"2022-01-08T00:00:00Z","timestamp":1641600000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2022,8]]},"DOI":"10.1007\/s11042-021-11546-z","type":"journal-article","created":{"date-parts":[[2022,1,8]],"date-time":"2022-01-08T20:02:40Z","timestamp":1641672160000},"page":"26889-26913","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Fine-tuning your answers: a bag of tricks for improving VQA models"],"prefix":"10.1007","volume":"81","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2649-0477","authenticated-orcid":false,"given":"Roberto","family":"Arroyo","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sergio","family":"\u00c1lvarez","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Aitor","family":"Aller","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Luis M.","family":"Bergasa","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Miguel E.","family":"Ortiz","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,1,8]]},"reference":[{"key":"11546_CR1","doi-asserted-by":"crossref","unstructured":"Anderson P, He X, Buehler C, Teney D, Johnson M, Gould S, Zhang L (2018) Bottom-up and top-down attention for image captioning and visual question answering. In: Conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"11546_CR2","doi-asserted-by":"crossref","unstructured":"Antol S, Agrawal A, Lu J, Mitchell M, Batra D, Zitnick CL, Parikh D (2015) VQA: visual question answering. In: International conference on computer vision (ICCV)","DOI":"10.1109\/ICCV.2015.279"},{"key":"11546_CR3","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Conference on computer vision and pattern recognition (CVPR), pp 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"11546_CR4","unstructured":"Jiang Y, Natarajan V, Chen X, Rohrbach M, Batra D, Parikh D (2018) Pythia v0.1: the winning entry to the VQA challenge 2018. arXiv preprint, arXiv:180709956"},{"key":"11546_CR5","doi-asserted-by":"crossref","unstructured":"Johnson J, Hariharan B, van\u00a0der Maaten L, Fei-Fei L, Lawrence\u00a0Zitnick C, Girshick R (2017) CLEVR: a diagnostic dataset for compositional language and elementary visual reasoning. In: Conference on computer vision and pattern recognition (CVPR), pp 2901\u20132910","DOI":"10.1109\/CVPR.2017.215"},{"key":"11546_CR6","doi-asserted-by":"crossref","unstructured":"Kervadec C, Antipov G, Baccouche M, Wolf C (2021) Roses are red, violets are blue... But should VQA expect them to? In: Conference on computer vision and pattern recognition (CVPR), pp 2776\u20132785","DOI":"10.1109\/CVPR46437.2021.00280"},{"key":"11546_CR7","doi-asserted-by":"crossref","unstructured":"Kervadec C, Jaunet T, Antipov G, Baccouche M, Vuillemot R, Wolf C (2021) How transferable are reasoning patterns in VQA? In: Conference on computer vision and pattern recognition (CVPR), pp 4207\u20134216","DOI":"10.1109\/CVPR46437.2021.00419"},{"key":"11546_CR8","unstructured":"Kingma DP, Ba J (2014) Adam: a method for atochastic optimization. arXiv preprint, arXiv:14126980"},{"key":"11546_CR9","doi-asserted-by":"crossref","unstructured":"Liang J, Jiang L, Cao L, Li LJ, Hauptmann AG (2018) Focal visual-text attention for visual question answering. In: Conference on computer vision and pattern recognition (CVPR), pp 6135\u20136143","DOI":"10.1109\/CVPR.2018.00642"},{"key":"11546_CR10","doi-asserted-by":"crossref","unstructured":"Lin T, Maire M, Belongie SJ, Bourdev LD, Girshick RB, Hays J, Perona P, Ramanan D, Doll\u00e1r P, Zitnick CL (2014) Microsoft COCO: Common Objects in Context. arXiv preprint, arXiv:14050312","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"11546_CR11","unstructured":"Malinowski M, Fritz M (2014) A multi-world approach to question answering about real-world scenes based on uncertain input. In: Conference and workshop on neural information processing systems (NeurIPS), pp 1682\u20131690"},{"key":"11546_CR12","doi-asserted-by":"crossref","unstructured":"Ortiz ME, Bergasa LM, Arroyo R, \u00c1lvarez S, Aller A (2020) Towards fine-tuning of VQA models in public datasets. In: Workshop of physical agents (WAF), pp 256\u2013273","DOI":"10.1007\/978-3-030-62579-5_18"},{"key":"11546_CR13","first-page":"1532","volume":"14","author":"J Pennington","year":"2014","unstructured":"Pennington J, Socher R, Manning CD (2014) GloVe: global vectors for word representation. Conference on Empirical Methods in Natural Language Processing (EMNLP) 14:1532\u20131543","journal-title":"Conference on Empirical Methods in Natural Language Processing (EMNLP)"},{"key":"11546_CR14","doi-asserted-by":"crossref","unstructured":"Singh A, Natarajan V, Shah M, Jiang Y, Chen X, Batra D, Parikh D, Rohrbach M (2019) Towards VQA models that can read. In: Conference on computer vision and pattern recognition (CVPR), pp 8317\u20138326","DOI":"10.1109\/CVPR.2019.00851"},{"key":"11546_CR15","doi-asserted-by":"crossref","unstructured":"Teney D, Anderson P, He X, Van Den\u00a0Hengel A (2018) Tips and tricks for visual question answering: learnings from the 2017 challenge. In: Conference on computer vision and pattern recognition (CVPR), pp 4223\u20134232","DOI":"10.1109\/CVPR.2018.00444"},{"key":"11546_CR16","doi-asserted-by":"publisher","first-page":"8997","DOI":"10.1609\/aaai.v33i01.33018997","volume":"33","author":"C Wu","year":"2019","unstructured":"Wu C, Liu J, Wang X, Li R (2019) Differential networks for visual question answering. AAAI Conference on Artificial Intelligence (AAAI) 33:8997\u20139004","journal-title":"AAAI Conference on Artificial Intelligence (AAAI)"},{"key":"11546_CR17","doi-asserted-by":"crossref","unstructured":"Xie S, Girshick R, Doll\u00e1r P, Tu Z, He K (2017) Aggregated residual transformations for deep neural networks. In: Conference on computer vision and pattern recognition (CVPR), pp 1492\u20131500","DOI":"10.1109\/CVPR.2017.634"},{"key":"11546_CR18","doi-asserted-by":"crossref","unstructured":"Yang Z, He X, Gao J, Deng L, Smola A (2016) Stacked attention networks for image question answering. In: Conference on computer vision and pattern recognition (CVPR), pp 21\u201329","DOI":"10.1109\/CVPR.2016.10"},{"key":"11546_CR19","unstructured":"Yi K, Wu J, Gan C, Torralba A, Kohli P, Tenenbaum J (2018) Neural-symbolic VQA: disentangling reasoning from vision and language understanding. In: Conference and workshop on neural information processing systems (NeurIPS), pp 1031\u20131042"},{"key":"11546_CR20","doi-asserted-by":"crossref","unstructured":"Yuan Y, Wang S, Jiang M, Chen TY (2021) Perception matters: detecting perception failures of VQA models using metamorphic testing. In: Conference on computer vision and pattern recognition (CVPR), pp 16908\u201316917","DOI":"10.1109\/CVPR46437.2021.01663"},{"key":"11546_CR21","doi-asserted-by":"crossref","unstructured":"Zhang M, Maidment T, Diab A, Kovashka A, Hwa R (2021) Domain-robust VQA with diverse datasets and methods but no target labels. In: Conference on computer vision and pattern recognition (CVPR), pp 7046\u20137056","DOI":"10.1109\/CVPR46437.2021.00697"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-021-11546-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-021-11546-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-021-11546-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,19]],"date-time":"2022-07-19T07:15:24Z","timestamp":1658214924000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-021-11546-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,1,8]]},"references-count":21,"journal-issue":{"issue":"19","published-print":{"date-parts":[[2022,8]]}},"alternative-id":["11546"],"URL":"https:\/\/doi.org\/10.1007\/s11042-021-11546-z","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"type":"print","value":"1380-7501"},{"type":"electronic","value":"1573-7721"}],"subject":[],"published":{"date-parts":[[2022,1,8]]},"assertion":[{"value":"1 February 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"23 August 2021","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 September 2021","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"8 January 2022","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}