{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,21]],"date-time":"2026-02-21T18:30:59Z","timestamp":1771698659451,"version":"3.50.1"},"publisher-location":"Cham","reference-count":100,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031200588","type":"print"},{"value":"9783031200595","type":"electronic"}],"license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022]]},"DOI":"10.1007\/978-3-031-20059-5_5","type":"book-chapter","created":{"date-parts":[[2022,10,28]],"date-time":"2022-10-28T16:02:50Z","timestamp":1666972970000},"page":"76-94","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":12,"title":["Video Question Answering with\u00a0Iterative Video-Text Co-tokenization"],"prefix":"10.1007","author":[{"given":"AJ","family":"Piergiovanni","sequence":"first","affiliation":[]},{"given":"Kairo","family":"Morton","sequence":"additional","affiliation":[]},{"given":"Weicheng","family":"Kuo","sequence":"additional","affiliation":[]},{"given":"Michael S.","family":"Ryoo","sequence":"additional","affiliation":[]},{"given":"Anelia","family":"Angelova","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,10,29]]},"reference":[{"key":"5_CR1","unstructured":"Abu-El-Haija, S., et al.: Youtube-8m: a large-scale video classification benchmark. arXiv preprint arXiv:1609.08675 (2016)"},{"key":"5_CR2","unstructured":"Agrawal, A., et al.: VQA: visual question answering. In: ICCV (2015)"},{"key":"5_CR3","doi-asserted-by":"crossref","unstructured":"Alamri, H., et al.: Audio-visual scene-aware dialog. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00774"},{"issue":"1","key":"5_CR4","doi-asserted-by":"publisher","first-page":"94","DOI":"10.1007\/s11263-016-0987-1","volume":"123","author":"A Rohrbach","year":"2017","unstructured":"Rohrbach, A., et al.: Movie description. Int. J. Comput. Vis. 123(1), 94\u2013120 (2017). https:\/\/doi.org\/10.1007\/s11263-016-0987-1","journal-title":"Int. J. Comput. Vis."},{"key":"5_CR5","doi-asserted-by":"crossref","unstructured":"Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lucic, M., Schmid, C.: Vivit: a video vision transformer. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"5_CR6","doi-asserted-by":"crossref","unstructured":"Bain, M., Nagrani, A., Varol, G., Zisserman, A.: Frozen in time: a joint video and image encoder for end-to-end retrieval. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"5_CR7","unstructured":"Bellver, M., et al.: Refvos: a closer look at referring expressions for video object segmentation (2020). https:\/\/arxiv.org\/abs\/2010.00263"},{"key":"5_CR8","unstructured":"Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? (2021)"},{"key":"5_CR9","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? a new model and the kinetics dataset. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"5_CR10","unstructured":"Chadha, A., Arora, G., Kaloty, N.: iPerceive: applying common-sense reasoning to multi-modal dense video captioning and video question answering. In: WACV (2021)"},{"key":"5_CR11","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"104","DOI":"10.1007\/978-3-030-58577-8_7","volume-title":"Computer Vision \u2013 ECCV 2020","author":"Y-C Chen","year":"2020","unstructured":"Chen, Y.-C., et al.: UNITER: UNiversal image-TExt representation learning. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12375, pp. 104\u2013120. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58577-8_7"},{"key":"5_CR12","doi-asserted-by":"crossref","unstructured":"Chen, Z., Ma, L., Luo, W., Wong, K.Y.K.: Weakly-supervised spatio-temporally grounding natural sentence in video. In: Proceedings 57th Annual Meeting of the Association for Computational Linguistics (2019)","DOI":"10.18653\/v1\/P19-1183"},{"key":"5_CR13","unstructured":"Chowdhury, M.I.H., Nguyen, K., Sridharan, S., Fookes, C.: Hierarchical relational attention for video question answering. In: 25th IEEE International Conference on Image Processing (ICIP)"},{"key":"5_CR14","doi-asserted-by":"crossref","unstructured":"Das, A., et al.: Visual dialog. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.121"},{"key":"5_CR15","doi-asserted-by":"crossref","unstructured":"Deng, C., Chen, S., Chen, D., He, Y., Wu, Q.: Sketch, ground, and refine: top-down dense video captioning. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00030"},{"key":"5_CR16","doi-asserted-by":"crossref","unstructured":"Donahue, J., et al.: Long-term recurrent convolutional networks for visual recognition and description. In: CVPR (2015)","DOI":"10.21236\/ADA623249"},{"key":"5_CR17","doi-asserted-by":"crossref","unstructured":"Dong, J., et al.: Dual encoding for zero-example video retrieval. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00957"},{"key":"5_CR18","doi-asserted-by":"crossref","unstructured":"Fan, C., Zhang, X., Zhang, S., Wang, W., Zhang, C., Huang, H.: Heterogeneous memory enhanced multimodal attention model for video question answering. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00210"},{"key":"5_CR19","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C.: X3D: expanding architectures for efficient video recognition. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00028"},{"key":"5_CR20","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Fan, H., Malik, J., He, K.: Slowfast networks for video recognition. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00630"},{"key":"5_CR21","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"214","DOI":"10.1007\/978-3-030-58548-8_13","volume-title":"Computer Vision \u2013 ECCV 2020","author":"V Gabeur","year":"2020","unstructured":"Gabeur, V., Sun, C., Alahari, K., Schmid, C.: Multi-modal transformer for video retrieval. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12349, pp. 214\u2013229. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58548-8_13"},{"key":"5_CR22","doi-asserted-by":"crossref","unstructured":"Gao, J., Ge, R., Chen, K., Nevatia, R.: Motion appearance co-memory networks for video question answering. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00688"},{"key":"5_CR23","doi-asserted-by":"crossref","unstructured":"Gao, J., Sun, C., Yang, Z., Nevatia, R.: Tall: temporal activity localization via language query. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.563"},{"key":"5_CR24","doi-asserted-by":"crossref","unstructured":"Garcia, N., Otani, M., Chu, C., Nakashima, Y.: Knowit VQA: answering knowledge-based questions about videos. In: AAAI (2020)","DOI":"10.1609\/aaai.v34i07.6713"},{"key":"5_CR25","doi-asserted-by":"crossref","unstructured":"Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., Parikh, D.: Making the V in VQA matter: elevating the role of image understanding in visual question answering. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.670"},{"key":"5_CR26","doi-asserted-by":"crossref","unstructured":"Hendricks, L.A., Wang, O., Shechtman, E., Sivic, J., Darrell, T., Russell, B.: Localizing moments in video with natural language. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.618"},{"key":"5_CR27","doi-asserted-by":"crossref","unstructured":"Hori, C., et al.: End-to-end audio visual scene-aware dialog using multimodal attention-based video features. In: ICASSP (2019)","DOI":"10.1109\/ICASSP.2019.8682583"},{"key":"5_CR28","unstructured":"Huang, G., Pang, B., Zhu, Z., Rivera, C., Soricut, R.: Multimodal pretraining for dense video captioning. In: AACL-IJCNLP (2020)"},{"key":"5_CR29","doi-asserted-by":"crossref","unstructured":"Hussein, N., Gavves, E., Smeulders, A.W.: Timeception for complex action recognition. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00034"},{"key":"5_CR30","doi-asserted-by":"crossref","unstructured":"Jang, Y., Song, Y., Yu, Y., Kim, Y., Kim, G.: TGIF-QA: toward spatio-temporal reasoning in visual question answering. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.149"},{"key":"5_CR31","doi-asserted-by":"crossref","unstructured":"Ji, S., Xu, W., Yang, M., Yu, K.: 3D convolutional neural networks for human action recognition 35(1), 221\u2013231 (2013)","DOI":"10.1109\/TPAMI.2012.59"},{"key":"5_CR32","doi-asserted-by":"crossref","unstructured":"Jianfeng Dong, X.L., Xu, C., Yang, X., Yang, G., Wang, X., Wang, M.: Dual encoding for video retrieval by text. In: T-PAMI (2021)","DOI":"10.1109\/TPAMI.2021.3059295"},{"key":"5_CR33","doi-asserted-by":"crossref","unstructured":"Jiang, H., Misra, I., Rohrbach, M., Learned-Miller, E., Chen, X.: In defense of grid features for visual question answering. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01028"},{"key":"5_CR34","doi-asserted-by":"crossref","unstructured":"Jiang, P., Han, Y.: Reasoning with heterogeneous graph alignment for video question answering. In: AAAI (2020)","DOI":"10.1609\/aaai.v34i07.6767"},{"key":"5_CR35","doi-asserted-by":"crossref","unstructured":"Xu, J., Mei, T., Yao, T., Rui, Y.: MSR-VTT: a large video description dataset for bridging video and language. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.571"},{"key":"5_CR36","unstructured":"Kay, W., et al.: The Kinetics human action video dataset. arXiv preprint arXiv:1705.06950 (2017)"},{"key":"5_CR37","doi-asserted-by":"crossref","unstructured":"Khoreva, A., Rohrbach, A., Schiele, B.: Video object segmentation with language referring expressions. In: 14th Asian Conference on Computer Vision (ACCV) (2018)","DOI":"10.1007\/978-3-030-11018-5_2"},{"key":"5_CR38","doi-asserted-by":"crossref","unstructured":"Kim, J., Ma, M., Pham, T., Kim, K., Yoo, C.D.: Modality shifting attention network for multi-modal video question answering. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01012"},{"key":"5_CR39","doi-asserted-by":"crossref","unstructured":"Kim, K.M., Choi, S.H., Kim, J.H., Zhang, B.T.: Multimodal dual attention memory for video story question answering. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01267-0_41"},{"key":"5_CR40","doi-asserted-by":"crossref","unstructured":"Korbar, B., Tran, D., Torresani, L.: Scsampler: sampling salient clips from video for efficient action recognition. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00633"},{"key":"5_CR41","doi-asserted-by":"crossref","unstructured":"Krishna, R., Hata, K., Ren, F., Fei-Fei, L., Niebles, J.C.: Dense-captioning events in videos. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.83"},{"key":"5_CR42","doi-asserted-by":"crossref","unstructured":"Kim, K.M., Heo, M.O., Choi, S.H., Zhang, B.T.: Deepstory: video story QA by deep embedded memory networks. In: IJCAI (2017)","DOI":"10.24963\/ijcai.2017\/280"},{"key":"5_CR43","doi-asserted-by":"crossref","unstructured":"Le, T.M., Le, V., Venkatesh, S., Tran, T.: Hierarchical conditional relation networks for video question answering. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00999"},{"key":"5_CR44","doi-asserted-by":"crossref","unstructured":"Lea, C., Flynn, M.D., Vidal, R., Reiter, A., Hager, G.D.: Temporal convolutional networks for action segmentation and detection. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.113"},{"key":"5_CR45","doi-asserted-by":"crossref","unstructured":"Lei, J., et al.: Less is more: clipbert for video-and-language learning via sparse sampling. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00725"},{"key":"5_CR46","doi-asserted-by":"crossref","unstructured":"Lei, J., Yu, L., Bansal, M., Berg, T.L.: TVQA: localized, compositional video question answering. In: EMNLP (2018)","DOI":"10.18653\/v1\/D18-1167"},{"key":"5_CR47","doi-asserted-by":"crossref","unstructured":"Li, L., Chen, Y.C., Cheng, Y., Gan, Z., Yu, L., Liu, J.: Hero: hierarchical encoder for video+ language omni-representation pre-training. In: EMNLP (2020)","DOI":"10.18653\/v1\/2020.emnlp-main.161"},{"key":"5_CR48","unstructured":"Li, L., et al.: Value: a multi-task benchmark for video-and-language understanding evaluation. In: 35th Conference on Neural Information Processing Systems (NeurIPS 2021) Track on Datasets and Benchmarks (2021)"},{"key":"5_CR49","doi-asserted-by":"crossref","unstructured":"Li, X., et al.: Beyondrnns: positional self-attention with co-attention for video question answering. In: AAAI (2020)","DOI":"10.1609\/aaai.v33i01.33018658"},{"key":"5_CR50","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"121","DOI":"10.1007\/978-3-030-58577-8_8","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X Li","year":"2020","unstructured":"Li, X., et al.: Oscar: object-semantics aligned pre-training for vision-language tasks. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12375, pp. 121\u2013137. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58577-8_8"},{"key":"5_CR51","doi-asserted-by":"crossref","unstructured":"Lin, J., Gan, C., Han, S.: TSM: temporal shift module for efficient video understanding. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00718"},{"key":"5_CR52","doi-asserted-by":"crossref","unstructured":"Lin, X., Bertasius, G., Wang, J., Chang, S.F., Parikh, D.: Vx2text: end-to-end learning of video-based text generation from multimodal inputs. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00693"},{"key":"5_CR53","doi-asserted-by":"crossref","unstructured":"Dang, L.H., Le, T.M., Le, V., Tran, T.: Object-centric representation learning for video question answering. In: IJCNN (2021)","DOI":"10.1109\/IJCNN52387.2021.9533961"},{"key":"5_CR54","unstructured":"Lu, J., Batra, D., Parikh, D., Lee, S.: Vilbert: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In: CVPR (2019)"},{"key":"5_CR55","doi-asserted-by":"crossref","unstructured":"Maharaj, T., Ballas, N., Rohrbach, A., Courville, A., Pal, C.: A dataset and exploration of models for understanding video data through fill-in-the blank question-answering. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.778"},{"key":"5_CR56","doi-asserted-by":"crossref","unstructured":"Miech, A., Alayrac, J.B., Laptev, I., Sivic, J., Zisserman, A.: Thinking fast and slow: efficient text-to-visual retrieval with transformers. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00970"},{"key":"5_CR57","doi-asserted-by":"crossref","unstructured":"Miech, A., Alayrac, J.B., Smaira, L., Laptev, I., Sivic, J., Zisserman, A.: End-to-end learning of visual representations from uncurated instructional videos. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00990"},{"key":"5_CR58","doi-asserted-by":"crossref","unstructured":"Miech, A., Zhukov, D., Alayrac, J.B., Tapaswi, M., Laptev, I., Sivic, J.: Howto100m: learning a text-video embedding by watching hundred million narrated video clips. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00272"},{"key":"5_CR59","doi-asserted-by":"crossref","unstructured":"Park, J., Lee, J., Sohn, K.: Bridge to answer: structure-aware graph interaction network for video question answering. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.01527"},{"issue":"140","key":"5_CR60","first-page":"1","volume":"21","author":"C Raffel","year":"2020","unstructured":"Raffel, C., et al.: Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res. 21(140), 1\u201367 (2020)","journal-title":"J. Mach. Learn. Res."},{"key":"5_CR61","doi-asserted-by":"crossref","unstructured":"Rohrbach, A., Rohrbach, M., Tandon, N., Schiele, B.: A dataset for movie description. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298940"},{"key":"5_CR62","doi-asserted-by":"crossref","unstructured":"Rohrbach, M., Amin, S., Andriluka, M., Schiele, B.: A database for fine grained activity detection of cooking activities. In: CVPR (2012)","DOI":"10.1109\/CVPR.2012.6247801"},{"key":"5_CR63","unstructured":"Ryoo, M.S., Piergiovanni, A., Arnab, A., Dehghani, M., Angelova, A.: Tokenlearner: adaptive space-time tokenization for videos (2021)"},{"key":"5_CR64","unstructured":"Ryoo, M.S., Piergiovanni, A., Tan, M., Angelova, A.: AssembleNet: searching for multi-stream neural connectivity in video architectures. In: ICLR (2020)"},{"key":"5_CR65","unstructured":"Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In: NeurIPS, pp. 568\u2013576 (2014)"},{"key":"5_CR66","doi-asserted-by":"crossref","unstructured":"Sun, C., Myers, A., Vondrick, C., Murphy, K., Schmid, C.: Videobert: a joint model for video and language representation learning. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00756"},{"key":"5_CR67","doi-asserted-by":"crossref","unstructured":"Tan, H., Bansal, M.: Lxmert: learning cross-modality encoder representations from transformers. In: EMNLP (2019)","DOI":"10.18653\/v1\/D19-1514"},{"key":"5_CR68","doi-asserted-by":"crossref","unstructured":"Tapaswi, M., Zhu, Y., Rainer Stiefelhagen, A.T., Urtasun, R., Fidler, S.: MovieQA: understanding stories in movies through questionanswering. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.501"},{"key":"5_CR69","doi-asserted-by":"crossref","unstructured":"Le, T.M., Le, V., Venkatesh, S., Tran, T.: Neural reasoning, fast and slow, for video question answering. In: IJCNN (2020)","DOI":"10.1109\/IJCNN48605.2020.9207580"},{"key":"5_CR70","unstructured":"Tran, D., Bourdev, L.D., Fergus, R., Torresani, L., Paluri, M.: C3D: generic features for video analysis. CoRR, abs\/1412.0767 2(7), 8 (2014)"},{"key":"5_CR71","doi-asserted-by":"crossref","unstructured":"Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., Paluri, M.: A closer look at spatiotemporal convolutions for action recognition. In: CVPR, pp. 6450\u20136459 (2018)","DOI":"10.1109\/CVPR.2018.00675"},{"key":"5_CR72","doi-asserted-by":"crossref","unstructured":"Tsai, Y.H.H., Divvala, S., Morency, L.P., Salakhutdinov, R., Farhadi, A.: Video relationship reasoning using gated spatio-temporal energy graph. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.01067"},{"key":"5_CR73","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS (2017)"},{"key":"5_CR74","doi-asserted-by":"crossref","unstructured":"Wang, J., Ma, L., Jiang, W.: Temporally grounding language queries in videos by contextual boundary-aware prediction. In: AAAI (2020)","DOI":"10.1609\/aaai.v34i07.6897"},{"key":"5_CR75","doi-asserted-by":"crossref","unstructured":"Wang, X., Wu, J., Chen, J., Li, L., Wang, Y.F., Wang, W.Y.: Vatex: a large-scale, high-quality multilingual dataset for video-and-language research. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00468"},{"key":"5_CR76","doi-asserted-by":"crossref","unstructured":"Wang, Z., Wu, Y., Narasimhan, K., Russakovsky, O.: Multi-query video retrieval. In: ArXiv:2201.03639 (2022)","DOI":"10.1007\/978-3-031-19781-9_14"},{"key":"5_CR77","unstructured":"Su, W., et al.: Vl-bert: pre-training of generic visual-linguistic representations. In: ICLR (2020)"},{"key":"5_CR78","doi-asserted-by":"crossref","unstructured":"Wiseman, S., Rush, A.M.: Sequence-to-sequence learning as beam-search optimization. In: EMNLP (2016)","DOI":"10.18653\/v1\/D16-1137"},{"key":"5_CR79","doi-asserted-by":"crossref","unstructured":"Wu, C.Y., Krahenbuhl, P.: Towards long-form video understanding. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00192"},{"key":"5_CR80","doi-asserted-by":"crossref","unstructured":"Xiao, J., Shang, X., Yao, A., Chua, T.S.: NExT-QA: next phase of question-answering to explaining temporal actions. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00965"},{"key":"5_CR81","doi-asserted-by":"crossref","unstructured":"Xie, S., Sun, C., Huang, J., Tu, Z., Murphy, K.: Rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classification. In: ECCV, pp. 305\u2013321 (2018)","DOI":"10.1007\/978-3-030-01267-0_19"},{"key":"5_CR82","doi-asserted-by":"crossref","unstructured":"Xu, D., et al.: Video question answering via gradually refined attention over appearance and motion. In: ACM Multimedia (2017)","DOI":"10.1145\/3123266.3123427"},{"key":"5_CR83","doi-asserted-by":"crossref","unstructured":"Xu, L., Huang, H., Liu, J.: SUTD-TrafficQA: a question answering benchmark and an efficient network for video reasoning over traffic events. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00975"},{"key":"5_CR84","doi-asserted-by":"crossref","unstructured":"Xu, R., Xiong, C., Chen, W., Corso, J.J.: Jointly modeling deep video and compositional text to bridge vision and language in a unified framework. In: AAAI (2015)","DOI":"10.1609\/aaai.v29i1.9512"},{"key":"5_CR85","doi-asserted-by":"crossref","unstructured":"Xue, H., Chu, W., Zhao, Z., Cai, D.: A better way to attend: attention with trees for video question answering. In: IEEE Transactions on Image Processing (2018)","DOI":"10.1109\/TIP.2018.2859820"},{"key":"5_CR86","doi-asserted-by":"crossref","unstructured":"Yang, A., Miech, A., Sivic, J., Laptev, I., Schmid, C.: Just ask: learning to answer questions from millions of narrated videos. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00171"},{"key":"5_CR87","first-page":"26462","volume":"34","author":"W Yu","year":"2021","unstructured":"Yu, W., et al.: Learning from inside: self-driven siamese sampling and reasoning for video question answering. Adv. Neural. Inf. Process. Syst. 34, 26462\u201326474 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"5_CR88","doi-asserted-by":"crossref","unstructured":"Yu, Y., Kim, J., Kim, G.: A joint sequence fusion model for video question answering and retrieval. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01234-2_29"},{"key":"5_CR89","doi-asserted-by":"crossref","unstructured":"Yu, Z., et al.: Activitynet-QA: a dataset for understanding complex web videos via question answering. In: AAAI (2019)","DOI":"10.1609\/aaai.v33i01.33019127"},{"key":"5_CR90","doi-asserted-by":"crossref","unstructured":"Yu, Z., Yu, J., Cui, Y., Tao, D., Tian, Q.: Deep modular co-attention networks for visual question answering. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00644"},{"key":"5_CR91","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"529","DOI":"10.1007\/978-3-319-10593-2_35","volume-title":"Computer Vision \u2013 ECCV 2014","author":"Y Gong","year":"2014","unstructured":"Gong, Y., Wang, L., Hodosh, M., Hockenmaier, J., Lazebnik, S.: Improving image-sentence embeddings using large weakly annotated photo collections. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8692, pp. 529\u2013545. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10593-2_35"},{"key":"5_CR92","doi-asserted-by":"crossref","unstructured":"Zadeh, A., Chan, M., Liang, P.P., Tong, E., Morency, L.P.: Social-IQ: a question answering benchmark for artificial social intelligence. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00901"},{"key":"5_CR93","unstructured":"Zellers, R., et al.: Merlot: multimodal neural script knowledge models (2021)"},{"key":"5_CR94","doi-asserted-by":"crossref","unstructured":"Zhou, B., Andonian, A., Oliva, A., Torralba, A.: Temporal relational reasoning in videos. In: ECCV, pp. 803\u2013818 (2018)","DOI":"10.1007\/978-3-030-01246-5_49"},{"key":"5_CR95","unstructured":"Zhou, L., Xu, C., Corso, J.J.: Towards automatic learning of procedures from web instructional videos. In: AAAI"},{"key":"5_CR96","doi-asserted-by":"crossref","unstructured":"Zhou, L., Zhou, Y., Corso, J.J., Socher, R., Xiong, C.: End-to-end dense video captioning with masked transformer. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00911"},{"key":"5_CR97","unstructured":"Zhu, L., Xu, Z., Yan, Y., Hauptmann, A.G.: Uncovering the temporal context for video question answering. In: IJCV (2018)"},{"key":"5_CR98","doi-asserted-by":"crossref","unstructured":"Zhu, L., Yang, Y.: Actbert: learning global-local video-text representations. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00877"},{"key":"5_CR99","doi-asserted-by":"crossref","unstructured":"Zhukov, D., Alayrac, J.B., Cinbis, R.G., Fouhey, D., Laptev, I., Sivic, J.: Cross-task weakly supervised learning from instructional videos. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00365"},{"key":"5_CR100","doi-asserted-by":"crossref","unstructured":"Zolfaghari, M., Singh, K., Brox, T.: Eco: efficient convolutional network for online video understanding. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01216-8_43"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2022"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-20059-5_5","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,28]],"date-time":"2022-10-28T16:03:39Z","timestamp":1666973019000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-20059-5_5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"ISBN":["9783031200588","9783031200595"],"references-count":100,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-20059-5_5","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022]]},"assertion":[{"value":"29 October 2022","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Tel Aviv","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Israel","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2022","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 October 2022","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 October 2022","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2022","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2022.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"CMT","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"5804","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"1645","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"28% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.21","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.91","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}