{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,13]],"date-time":"2025-10-13T09:12:48Z","timestamp":1760346768798,"version":"3.37.3"},"reference-count":52,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"12","license":[{"start":{"date-parts":[[2019,12,1]],"date-time":"2019-12-01T00:00:00Z","timestamp":1575158400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,12,1]],"date-time":"2019-12-01T00:00:00Z","timestamp":1575158400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,12,1]],"date-time":"2019-12-01T00:00:00Z","timestamp":1575158400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61602405","61751209","61836002"],"award-info":[{"award-number":["61602405","61751209","61836002"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Joint Research Program of ZJU"},{"name":"Hikvision Research Institute"},{"name":"Alibaba Innovative Research"},{"DOI":"10.13039\/100006112","name":"Microsoft Research","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100006112","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Image Process."],"published-print":{"date-parts":[[2019,12]]},"DOI":"10.1109\/tip.2019.2922062","type":"journal-article","created":{"date-parts":[[2019,6,17]],"date-time":"2019-06-17T19:31:16Z","timestamp":1560799876000},"page":"5939-5952","source":"Crossref","is-referenced-by-count":32,"title":["Long-Form Video Question Answering via Dynamic Hierarchical Reinforced Networks"],"prefix":"10.1109","volume":"28","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6121-0384","authenticated-orcid":false,"given":"Zhou","family":"Zhao","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4195-5770","authenticated-orcid":false,"given":"Zhu","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2876-6601","authenticated-orcid":false,"given":"Shuwen","family":"Xiao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhenxin","family":"Xiao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaohui","family":"Yan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1922-7283","authenticated-orcid":false,"given":"Jun","family":"Yu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Deng","family":"Cai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fei","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2902106"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2846664"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2746267"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00688"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.501"},{"key":"ref30","article-title":"Video fill in the blank with merging LSTMs","author":"mazaheri","year":"2016","journal-title":"arXiv 1610 04062"},{"key":"ref37","first-page":"1","article-title":"Movie question answering: Remembering the textual cues for layered visual contents","author":"wang","year":"2018","journal-title":"Proc AAAI"},{"key":"ref36","first-page":"108","article-title":"Spatio-temporal context networks for video question answering","author":"gao","year":"2017","journal-title":"Proc Pacific Rim Conf Multimedia"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/3077136.3080655"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123364"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2817340"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2017.05.001"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-017-1033-7"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/492"},{"key":"ref1","first-page":"4334","article-title":"Leveraging video descriptions to learn video question answering","author":"zeng","year":"2017","journal-title":"Proc AAAI"},{"key":"ref20","first-page":"4655","article-title":"Visual question answering with question representation update (QRU)","author":"li","year":"2016","journal-title":"Proc NIPS"},{"key":"ref22","first-page":"289","article-title":"Hierarchical question-image co-attention for visual question answering","author":"lu","year":"2016","journal-title":"Proc NIPS"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.499"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.121"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00801"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.3115\/981732.981751"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/7287.001.0001"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.131"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D16-1127"},{"key":"ref11","first-page":"37","article-title":"Hierarchical reinforcement learning for adaptive text generation","author":"dethlefs","year":"2010","journal-title":"Proc INLG"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/512"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2014.2311377"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2016.2591583"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.540"},{"key":"ref17","first-page":"2953","article-title":"Exploring models and data for image question answering","author":"ren","year":"2015","journal-title":"Proc NIPS"},{"key":"ref18","first-page":"1682","article-title":"A multi-world approach to question answering about real-world scenes based on uncertain input","author":"malinowski","year":"2014","journal-title":"Proc NIPS"},{"key":"ref19","first-page":"361","article-title":"Multimodal residual learning for visual QA","author":"kim","year":"2016","journal-title":"Proc NIPS"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.149"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123427"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/2504730.2504748"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.6044588"},{"key":"ref8","article-title":"Estimating or propagating gradients through stochastic neurons for conditional computation","author":"bengio","year":"2013","journal-title":"arXiv 1308 3432"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.117"},{"key":"ref49","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2014","journal-title":"arXiv 1412 6980"},{"key":"ref9","article-title":"Highway networks","author":"srivastava","year":"2015","journal-title":"arXiv 1505 00387"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"ref48","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"2014","journal-title":"arXiv 1409 1556"},{"key":"ref47","article-title":"Efficient estimation of word representations in vector space","author":"mikolov","year":"2013","journal-title":"arXiv 1301 3781 [cs]"},{"key":"ref42","first-page":"5998","article-title":"Attention is all you need","author":"vaswani","year":"2017","journal-title":"Proc NIPS"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.512"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.128"},{"key":"ref43","article-title":"An actor-critic algorithm for sequence prediction","author":"bahdanau","year":"2016","journal-title":"arXiv 1607 07086"}],"container-title":["IEEE Transactions on Image Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/83\/8821493\/08737880.pdf?arnumber=8737880","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,13]],"date-time":"2022-07-13T20:48:54Z","timestamp":1657745334000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8737880\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,12]]},"references-count":52,"journal-issue":{"issue":"12"},"URL":"https:\/\/doi.org\/10.1109\/tip.2019.2922062","relation":{},"ISSN":["1057-7149","1941-0042"],"issn-type":[{"type":"print","value":"1057-7149"},{"type":"electronic","value":"1941-0042"}],"subject":[],"published":{"date-parts":[[2019,12]]}}}