{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T12:34:52Z","timestamp":1780317292114,"version":"3.54.1"},"reference-count":42,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"11","license":[{"start":{"date-parts":[[2018,11,1]],"date-time":"2018-11-01T00:00:00Z","timestamp":1541030400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61751307"],"award-info":[{"award-number":["61751307"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61602405"],"award-info":[{"award-number":["61602405"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Youth Top-notch Talent Support Program"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Image Process."],"published-print":{"date-parts":[[2018,11]]},"DOI":"10.1109\/tip.2018.2859820","type":"journal-article","created":{"date-parts":[[2018,7,25]],"date-time":"2018-07-25T18:54:08Z","timestamp":1532544848000},"page":"5563-5574","source":"Crossref","is-referenced-by-count":28,"title":["A Better Way to Attend: Attention With Trees for Video Question Answering"],"prefix":"10.1109","volume":"27","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3161-3566","authenticated-orcid":false,"given":"Hongyang","family":"Xue","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0816-7975","authenticated-orcid":false,"given":"Wenqing","family":"Chu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhou","family":"Zhao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Deng","family":"Cai","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.496"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.503"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46478-7_28"},{"key":"ref32","author":"xiong","year":"2016","journal-title":"Dynamic memory networks for visual and textual question answering"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.3115\/981732.981751"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.515"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2964288"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.512"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"ref34","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","volume":"14","author":"xu","year":"2015","journal-title":"Proc ICML"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2967242"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.283"},{"key":"ref11","first-page":"1693","article-title":"Teaching machines to read and comprehend","author":"hermann","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref12","author":"ilievski","year":"2016","journal-title":"A focused dynamic attention model for visual question answering"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1070"},{"key":"ref14","first-page":"127","article-title":"Tree-structured reinforcement learning for sequential object localization","author":"jie","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref15","author":"kingma","year":"2014","journal-title":"Adam A method for stochastic optimization"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.3115\/1075096.1075150"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D15-1278"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.502"},{"key":"ref19","first-page":"289","article-title":"Hierarchical question-image co-attention for visual question answering","author":"lu","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref28","author":"teng","year":"2016","journal-title":"Bidirectional tree-structured LSTM with head lexicalization"},{"key":"ref4","author":"chen","year":"2015","journal-title":"ABC-CNN An attention based convolutional neural network for visual question answering"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.501"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.3758\/s13428-013-0403-5"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D16-1092"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"42","DOI":"10.1109\/MMUL.2014.29","article-title":"Joint video and text parsing for understanding events and answering queries","volume":"21","author":"tu","year":"2014","journal-title":"IEEE Multimedia"},{"key":"ref5","author":"chen","year":"2016","journal-title":"Enhancing and combining sequential and tree lstm for natural language inference"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1078"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1162\/NECO_a_00312"},{"key":"ref2","author":"bird","year":"2009","journal-title":"Natural Language Processing with Python Analyzing Text with the Natural Language Toolkit"},{"key":"ref9","doi-asserted-by":"crossref","DOI":"10.7551\/mitpress\/7287.001.0001","author":"fellbaum","year":"1998","journal-title":"WordNet"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"ref20","author":"mazaheri","year":"2016","journal-title":"Video fill in the blank with merging LSTMs"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref21","first-page":"2204","article-title":"Recurrent models of visual attention","author":"mnih","year":"2014","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.540"},{"key":"ref24","author":"simonyan","year":"2014","journal-title":"Very Deep Convolutional Networks for Large-scale Image Recognition"},{"key":"ref41","first-page":"4334","article-title":"Leveraging video descriptions to learn video question answering","author":"zeng","year":"2017","journal-title":"Proc AAAI"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.499"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-1150"},{"key":"ref25","first-page":"2440","article-title":"End-to-end memory networks","author":"sukhbaatar","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst"}],"container-title":["IEEE Transactions on Image Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/83\/8421670\/08419716.pdf?arnumber=8419716","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:29:28Z","timestamp":1642004968000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8419716\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,11]]},"references-count":42,"journal-issue":{"issue":"11"},"URL":"https:\/\/doi.org\/10.1109\/tip.2018.2859820","relation":{},"ISSN":["1057-7149","1941-0042"],"issn-type":[{"value":"1057-7149","type":"print"},{"value":"1941-0042","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,11]]}}}