{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,4,17]],"date-time":"2025-04-17T06:32:05Z","timestamp":1744871525316,"version":"3.37.3"},"reference-count":36,"publisher":"IEEE","funder":[{"DOI":"10.13039\/501100001691","name":"JSPS KAKENHI","doi-asserted-by":"publisher","award":["JP18KK0284"],"award-info":[{"award-number":["JP18KK0284"]}],"id":[{"id":"10.13039\/501100001691","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001695","name":"JST CREST","doi-asserted-by":"publisher","award":["JP-MJCR15E2"],"award-info":[{"award-number":["JP-MJCR15E2"]}],"id":[{"id":"10.13039\/501100001695","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,8,23]]},"DOI":"10.23919\/eusipco54536.2021.9616257","type":"proceedings-article","created":{"date-parts":[[2021,12,8]],"date-time":"2021-12-08T21:55:53Z","timestamp":1639000553000},"page":"706-710","source":"Crossref","is-referenced-by-count":3,"title":["Watch, Listen, and Answer: Open-Ended VideoQA with Modulated Multi-Stream 3D ConvNets"],"prefix":"10.23919","author":[{"given":"Taiki","family":"Miyanishi","sequence":"first","affiliation":[]},{"given":"Motoaki","family":"Kawanabe","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01028"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00630"},{"journal-title":"Gaussian error linear units (gelus)","year":"2016","author":"hendrycks","key":"ref31"},{"key":"ref30","first-page":"12695","article-title":"What makes training multimodal classification networks hard?","author":"wang","year":"2020","journal-title":"CVPR"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.149"},{"key":"ref35","article-title":"On the variance of the adaptive learning rate and beyond","author":"liu","year":"2020","journal-title":"ICLRE"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2020.3030497"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/3366710"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref12","first-page":"3942","article-title":"Film: Visual reasoning with a general conditioning layer","author":"perez","year":"2018","journal-title":"AAAI"},{"key":"ref13","first-page":"5998","article-title":"Attention is all you need","author":"vaswani","year":"2017","journal-title":"NeurIPS"},{"key":"ref14","article-title":"Two-stream spatiotemporal compositional attention network for videoqa","author":"miyanishi","year":"2020","journal-title":"BMVC"},{"key":"ref15","article-title":"Neural machine translation by jointly learning to align and translate","author":"bahdanau","year":"2015","journal-title":"ICLRE"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123427"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2019\/609"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6767"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00688"},{"key":"ref28","first-page":"4171","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"devlin","year":"2019","journal-title":"NAACL-HLT"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2940677"},{"key":"ref27","article-title":"Compositional attention networks for machine reasoning","author":"hudson","year":"2018","journal-title":"ICLRE"},{"key":"ref3","first-page":"9972","article-title":"Hier-archical conditional relation networks for video question answering","author":"le","year":"2020","journal-title":"CVPR"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_35"},{"journal-title":"Layer normalization","year":"2016","author":"ba","key":"ref29"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00210"},{"key":"ref8","article-title":"A better use of audio-visual cues: Dense video captioning with bi-modal transformer","author":"iashin","year":"2020","journal-title":"BMVC"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00182"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33019127"},{"journal-title":"Audiovisual slowfast networks for video recognition","year":"2020","author":"xiao","key":"ref9"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58548-8_13"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682583"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00900"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00685"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01283"},{"key":"ref26","first-page":"5533","article-title":"Learning spatio-temporal representation with pseudo-3d residual networks","author":"qiu","year":"2017","journal-title":"ICCV"},{"key":"ref25","first-page":"448","article-title":"Batch normalization: Accelerating deep network training by reducing internal covariate shift","author":"ioffe","year":"2015","journal-title":"ICML"}],"event":{"name":"2021 29th European Signal Processing Conference (EUSIPCO)","start":{"date-parts":[[2021,8,23]]},"location":"Dublin, Ireland","end":{"date-parts":[[2021,8,27]]}},"container-title":["2021 29th European Signal Processing Conference (EUSIPCO)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9615915\/9615917\/09616257.pdf?arnumber=9616257","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,2,15]],"date-time":"2022-02-15T06:44:14Z","timestamp":1644907454000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9616257\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,8,23]]},"references-count":36,"URL":"https:\/\/doi.org\/10.23919\/eusipco54536.2021.9616257","relation":{},"subject":[],"published":{"date-parts":[[2021,8,23]]}}}