{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T04:44:25Z","timestamp":1781585065773,"version":"3.54.5"},"publisher-location":"Cham","reference-count":57,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030660956","type":"print"},{"value":"9783030660963","type":"electronic"}],"license":[{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2020]]},"DOI":"10.1007\/978-3-030-66096-3_8","type":"book-chapter","created":{"date-parts":[[2021,1,2]],"date-time":"2021-01-02T07:03:14Z","timestamp":1609570994000},"page":"92-108","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":44,"title":["A Dataset and Baselines for Visual Question Answering on Art"],"prefix":"10.1007","author":[{"given":"Noa","family":"Garcia","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chentao","family":"Ye","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zihua","family":"Liu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qingtao","family":"Hu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mayu","family":"Otani","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chenhui","family":"Chu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuta","family":"Nakashima","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Teruko","family":"Mitamura","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2021,1,3]]},"reference":[{"key":"8_CR1","doi-asserted-by":"crossref","unstructured":"Anderson, P., et al.: Bottom-up and top-down attention for image captioning and visual question answering. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"8_CR2","doi-asserted-by":"crossref","unstructured":"Antol, S., et al.: VQA: visual question answering. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.279"},{"key":"8_CR3","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"143","DOI":"10.1007\/978-3-642-33765-9_11","volume-title":"Computer Vision \u2013 ECCV 2012","author":"G Carneiro","year":"2012","unstructured":"Carneiro, G., da Silva, N.P., Del Bue, A., Costeira, J.P.: Artistic image classification: an analysis on the PRINTART database. In: Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C. (eds.) ECCV 2012. LNCS, vol. 7575, pp. 143\u2013157. Springer, Heidelberg (2012). https:\/\/doi.org\/10.1007\/978-3-642-33765-9_11"},{"key":"8_CR4","doi-asserted-by":"crossref","unstructured":"Crowley, E., Zisserman, A.: The state of the art: object retrieval in paintings using discriminative regions. In: BMVC (2014)","DOI":"10.5244\/C.28.38"},{"key":"8_CR5","doi-asserted-by":"crossref","unstructured":"Crowley, E.J., Parkhi, O.M., Zisserman, A.: Face painting: querying art with photos. In: BMVC (2015)","DOI":"10.5244\/C.29.65"},{"key":"8_CR6","unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: pre-training of deep bidirectional transformers for language understanding. In: NAACL-HLT (2019)"},{"key":"8_CR7","doi-asserted-by":"crossref","unstructured":"Du, X., Cardie, C.: Harvesting paragraph-level question-answer pairs from Wikipedia. In: ACL (2018)","DOI":"10.18653\/v1\/P18-1177"},{"key":"8_CR8","doi-asserted-by":"crossref","unstructured":"Du, X., Shao, J., Cardie, C.: Learning to ask: neural question generation for reading comprehension. In: ACL (2017)","DOI":"10.18653\/v1\/P17-1123"},{"key":"8_CR9","doi-asserted-by":"crossref","unstructured":"Duan, N., Tang, D., Chen, P., Zhou, M.: Question generation for question answering. In: EMNLP (2017)","DOI":"10.18653\/v1\/D17-1090"},{"issue":"2","key":"8_CR10","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C.K.I., Winn, J., Zisserman, A.: The Pascal Visual Object Classes (VOC) challenge. IJCV 88(2), 303\u2013338 (2010)","journal-title":"IJCV"},{"key":"8_CR11","unstructured":"Fan, Z., Wei, Z., Wang, S., Liu, Y., Huang, X.: A reinforcement learning framework for natural question generation using bi-discriminators. In: COLING (2018)"},{"key":"8_CR12","doi-asserted-by":"crossref","unstructured":"Garcia, N., Otani, M., Chu, C., Nakashima, Y.: KnowIT VQA: answering knowledge-based questions about videos. In: AAAI (2020)","DOI":"10.1609\/aaai.v34i07.6713"},{"key":"8_CR13","doi-asserted-by":"crossref","unstructured":"Garcia, N., Renoust, B., Nakashima, Y.: Context-aware embeddings for automatic art analysis. In: ICMR (2019)","DOI":"10.1145\/3323873.3325028"},{"key":"8_CR14","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"676","DOI":"10.1007\/978-3-030-11012-3_52","volume-title":"Computer Vision \u2013 ECCV 2018 Workshops","author":"N Garcia","year":"2019","unstructured":"Garcia, N., Vogiatzis, G.: How to read paintings: semantic art understanding with multi-modal retrieval. In: Leal-Taix\u00e9, L., Roth, S. (eds.) ECCV 2018. LNCS, vol. 11130, pp. 676\u2013691. Springer, Cham (2019). https:\/\/doi.org\/10.1007\/978-3-030-11012-3_52"},{"key":"8_CR15","doi-asserted-by":"crossref","unstructured":"Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., Parikh, D.: Making the V in VQA matter: elevating the role of image understanding in visual question answering. In: Proceedings of CVPR (2017)","DOI":"10.1109\/CVPR.2017.670"},{"key":"8_CR16","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"8_CR17","unstructured":"Heilman, M., Smith, N.A.: Good question! Statistical ranking for question generation. In: NAACL (2010)"},{"key":"8_CR18","doi-asserted-by":"crossref","unstructured":"Huckle, N., Garcia, N., Vogiatzis, G.: Demographic influences on contemporary art with unsupervised style embeddings. In: ECCV workshops (2020)","DOI":"10.1007\/978-3-030-66096-3_10"},{"key":"8_CR19","doi-asserted-by":"publisher","first-page":"189","DOI":"10.1007\/s11263-007-0039-y","volume":"75","author":"K Ikeuchi","year":"2007","unstructured":"Ikeuchi, K., et al.: The great Buddha project: digitally archiving restoring, and analyzing cultural heritage objects. IJCV 75, 189\u2013208 (2007)","journal-title":"IJCV"},{"key":"8_CR20","doi-asserted-by":"crossref","unstructured":"Jain, U., Zhang, Z., Schwing, A.G.: Creativity: generating diverse questions using variational autoencoders. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.575"},{"key":"8_CR21","doi-asserted-by":"crossref","unstructured":"Jang, Y., Song, Y., Yu, Y., Kim, Y., Kim, G.: TGIF-QA: toward spatio-temporal reasoning in visual question answering. In: Proceedings of CVPR (2017)","DOI":"10.1109\/CVPR.2017.149"},{"issue":"4","key":"8_CR22","doi-asserted-by":"publisher","first-page":"37","DOI":"10.1109\/MSP.2008.923513","volume":"25","author":"CR Johnson","year":"2008","unstructured":"Johnson, C.R., et al.: Image processing for artist identification. IEEE Signal Process. Mag. 25(4), 37\u201348 (2008)","journal-title":"IEEE Signal Process. Mag."},{"key":"8_CR23","doi-asserted-by":"crossref","unstructured":"Johnson, J., Hariharan, B., van der Maaten, L., Fei-Fei, L., Zitnick, C.L., Girshick, R.: CLEVR: a diagnostic dataset for compositional language and elementary visual reasoning. In: Proceedings of CVPR (2017)","DOI":"10.1109\/CVPR.2017.215"},{"key":"8_CR24","unstructured":"Kim, J.H., Jun, J., Zhang, B.T.: Bilinear attention networks. In: NeurIPS (2018)"},{"key":"8_CR25","doi-asserted-by":"crossref","unstructured":"Kim, K.M., Heo, M.O., Choi, S.H., Zhang, B.T.: DeepStory: video story QA by deep embedded memory networks. In: Proceedings of IJCAI (2017)","DOI":"10.24963\/ijcai.2017\/280"},{"key":"8_CR26","doi-asserted-by":"crossref","unstructured":"Kim, Y., Lee, H., Shin, J., Jung, K.: Improving neural question generation using answer separation. In: AAAI (2019)","DOI":"10.1609\/aaai.v33i01.33016602"},{"key":"8_CR27","doi-asserted-by":"crossref","unstructured":"Krishna, R., Bernstein, M., Fei-Fei, L.: Information maximizing visual question generation. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00211"},{"key":"8_CR28","doi-asserted-by":"crossref","unstructured":"Labutov, I., Basu, S., Vanderwende, L.: Deep questions without deep understanding. In: ACL-IJCNLP (2015)","DOI":"10.3115\/v1\/P15-1086"},{"key":"8_CR29","unstructured":"Lewis, M., Fan, A.: Generative question answering: learning to answer the whole question. In: ICLR (2019)"},{"key":"8_CR30","doi-asserted-by":"crossref","unstructured":"Li, Y., et al.: Visual question generation as dual task of visual question answering. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00640"},{"key":"8_CR31","doi-asserted-by":"crossref","unstructured":"Ma, D., et al.: From part to whole: who is behind the painting? In: ACMMM (2017)","DOI":"10.1145\/3123266.3123325"},{"key":"8_CR32","doi-asserted-by":"crossref","unstructured":"Maharaj, T., Ballas, N., Rohrbach, A., Courville, A., Pal, C.: A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.778"},{"key":"8_CR33","unstructured":"Malinowski, M., Fritz, M.: A multi-world approach to question answering about real-world scenes based on uncertain input. In: Proceedings of NIPS (2014)"},{"key":"8_CR34","doi-asserted-by":"crossref","unstructured":"Marino, K., Rastegari, M., Farhadi, A., Mottaghi, R.: OK-VQA: a visual question answering benchmark requiring external knowledge. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00331"},{"key":"8_CR35","doi-asserted-by":"crossref","unstructured":"Mazidi, K., Nielsen, R.D.: Linguistic considerations in automatic question generation. In: ACL (2014)","DOI":"10.3115\/v1\/P14-2053"},{"key":"8_CR36","doi-asserted-by":"crossref","unstructured":"Misra, I., Girshick, R., Fergus, R., Hebert, M., Gupta, A., van der Maaten, L.: Learning by asking questions. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00009"},{"key":"8_CR37","doi-asserted-by":"crossref","unstructured":"Mostafazadeh, N., Misra, I., Devlin, J., Mitchell, M., He, X., Vanderwende, L.: Generating natural questions about an image. In: ACL (2016)","DOI":"10.18653\/v1\/P16-1170"},{"key":"8_CR38","doi-asserted-by":"crossref","unstructured":"Mun, J., Hongsuck Seo, P., Jung, I., Han, B.: MarioQA: answering questions by watching gameplay videos. In: Proceedings of ICCV (2017)","DOI":"10.1109\/ICCV.2017.312"},{"key":"8_CR39","unstructured":"Pan, L., Lei, W., Chua, T., Kan, M.: Recent advances in neural question generation. CoRR abs\/1905.08949 (2019)"},{"key":"8_CR40","doi-asserted-by":"crossref","unstructured":"Plummer, B.A., Wang, L., Cervantes, C.M., Caicedo, J.C., Hockenmaier, J., Lazebnik, S.: Flickr30k Entities: collecting region-to-phrase correspondences for richer image-to-sentence models. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.303"},{"key":"8_CR41","unstructured":"Ren, M., Kiros, R., Zemel, R.S.: Exploring models and data for image question answering. In: NeurIPS (2015)"},{"key":"8_CR42","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/1670671.1670672","volume":"7","author":"L Shamir","year":"2010","unstructured":"Shamir, L., Macura, T., Orlov, N., Eckley, D.M., Goldberg, I.G.: Impressionism, expressionism, surrealism: automated recognition of painters and schools of art. ACM Trans. Appl. Percept. 7, 1\u201317 (2010)","journal-title":"ACM Trans. Appl. Percept."},{"key":"8_CR43","doi-asserted-by":"crossref","unstructured":"Sun, X., Liu, J., Lyu, Y., He, W., Ma, Y., Wang, S.: Answer-focused and position-aware neural question generation. In: EMNLP (2018)","DOI":"10.18653\/v1\/D18-1427"},{"key":"8_CR44","doi-asserted-by":"crossref","unstructured":"Tan, W.R., Chan, C.S., Aguirre, H.E., Tanaka, K.: Ceci n\u2019est pas une pipe: a deep convolutional network for fine-art paintings classification. In: ICIP (2016)","DOI":"10.1109\/ICIP.2016.7533051"},{"key":"8_CR45","doi-asserted-by":"crossref","unstructured":"Tapaswi, M., Zhu, Y., Stiefelhagen, R., Torralba, A., Urtasun, R., Fidler, S.: MovieQA: understanding stories in movies through question-answering. In: Proceedings of CVPR (2016)","DOI":"10.1109\/CVPR.2016.501"},{"key":"8_CR46","doi-asserted-by":"crossref","unstructured":"Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298935"},{"issue":"10","key":"8_CR47","doi-asserted-by":"publisher","first-page":"2413","DOI":"10.1109\/TPAMI.2017.2754246","volume":"40","author":"P Wang","year":"2018","unstructured":"Wang, P., Wu, Q., Shen, C., Dick, A., van den Hengel, A.: FVQA: fact-based visual question answering. TPAMI 40(10), 2413\u20132427 (2018)","journal-title":"TPAMI"},{"key":"8_CR48","doi-asserted-by":"crossref","unstructured":"Wang, P., Wu, Q., Shen, C., Dick, A., Van Den Henge, A.: Explicit knowledge-based reasoning for visual question answering. In: IJCAI, pp. 1290\u20131296 (2017)","DOI":"10.24963\/ijcai.2017\/179"},{"key":"8_CR49","first-page":"1","volume":"163","author":"Q Wu","year":"2017","unstructured":"Wu, Q., Teney, D., Wang, P., Shen, C., Dick, A., van den Hengel, A.: Visual question answering: a survey of methods and datasets. CVIU 163, 1\u201320 (2017)","journal-title":"CVIU"},{"key":"8_CR50","doi-asserted-by":"crossref","unstructured":"Wu, Q., Wang, P., Shen, C., Dick, A., van den Hengel, A.: Ask me anything: free-form visual question answering based on knowledge from external sources. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.500"},{"key":"8_CR51","unstructured":"Yang, J., Lu, J., Lee, S., Dhruv Batra, D.P.: Visual curiosity: learning to ask questions to learn visual recognition. In: CoRL (2018)"},{"key":"8_CR52","unstructured":"Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R.R., Le, Q.V.: XLNet: generalized autoregressive pretraining for language understanding. In: NeurIPS (2019)"},{"key":"8_CR53","doi-asserted-by":"crossref","unstructured":"Zellers, R., Bisk, Y., Farhadi, A., Choi, Y.: From recognition to cognition: visual commonsense reasoning. In: Proceedings of CVPR (2019)","DOI":"10.1109\/CVPR.2019.00688"},{"key":"8_CR54","doi-asserted-by":"crossref","unstructured":"Zhang, S., Qu, L., You, S., Yang, Z., Zhang, J.: Automatic generation of grounded visual questions. In: IJCAI, pp. 4235\u20134243 (2017)","DOI":"10.24963\/ijcai.2017\/592"},{"key":"8_CR55","doi-asserted-by":"crossref","unstructured":"Zhao, Y., Ni, X., Ding, Y., Ke, Q.: Paragraph-level neural question generation with maxout pointer and gated self-attention networks. In: EMNLP (2018)","DOI":"10.18653\/v1\/D18-1424"},{"issue":"3","key":"8_CR56","doi-asserted-by":"publisher","first-page":"409","DOI":"10.1007\/s11263-017-1033-7","volume":"124","author":"L Zhu","year":"2017","unstructured":"Zhu, L., Xu, Z., Yang, Y., Hauptmann, A.G.: Uncovering the temporal context for video question answering. IJCV 124(3), 409\u2013421 (2017)","journal-title":"IJCV"},{"key":"8_CR57","doi-asserted-by":"crossref","unstructured":"Zhu, Y., Groth, O., Bernstein, M.S., Fei-Fei, L.: Visual7W: grounded question answering in images. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.540"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2020 Workshops"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-66096-3_8","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,2]],"date-time":"2025-01-02T00:06:43Z","timestamp":1735776403000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-030-66096-3_8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020]]},"ISBN":["9783030660956","9783030660963"],"references-count":57,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-66096-3_8","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020]]},"assertion":[{"value":"3 January 2021","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Glasgow","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"United Kingdom","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2020","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 August 2020","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28 August 2020","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2020","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2020.eu\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"OpenReview","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"5025","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"1360","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"27% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"7","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"The conference was held virtually due to the COVID-19 pandemic. From the ECCV Workshops 249 full papers, 18 short papers, and 21 further contributions were published out of a total of 467 submissions.","order":10,"name":"additional_info_on_review_process","label":"Additional Info on Review Process","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}