{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,30]],"date-time":"2026-06-30T15:34:11Z","timestamp":1782833651265,"version":"3.54.5"},"reference-count":66,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2023YFF1205001"],"award-info":[{"award-number":["2023YFF1205001"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62250008"],"award-info":[{"award-number":["62250008"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62222209"],"award-info":[{"award-number":["62222209"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62102222"],"award-info":[{"award-number":["62102222"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U23A20320"],"award-info":[{"award-number":["U23A20320"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Central Funds on Local Science and Technology Development Fund of Shandong Province, China","award":["YDZX2022028"],"award-info":[{"award-number":["YDZX2022028"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Image Process."],"published-print":{"date-parts":[[2024]]},"DOI":"10.1109\/tip.2024.3411448","type":"journal-article","created":{"date-parts":[[2024,7,2]],"date-time":"2024-07-02T19:52:32Z","timestamp":1719949952000},"page":"4145-4158","source":"Crossref","is-referenced-by-count":21,"title":["Dynamic Spatio-Temporal Graph Reasoning for VideoQA With Self-Supervised Event Recognition"],"prefix":"10.1109","volume":"33","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4952-7666","authenticated-orcid":false,"given":"Jie","family":"Nie","sequence":"first","affiliation":[{"name":"College of Information Science and Engineering, Ocean University of China, Qingdao, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0351-2939","authenticated-orcid":false,"given":"Xin","family":"Wang","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Technology, BNRist, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9697-7996","authenticated-orcid":false,"given":"Runze","family":"Hou","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Technology, BNRist, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guohao","family":"Li","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Technology, BNRist, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0943-2286","authenticated-orcid":false,"given":"Hong","family":"Chen","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Technology, BNRist, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2236-9290","authenticated-orcid":false,"given":"Wenwu","family":"Zhu","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Technology, BNRist, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.12"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01261-8_7"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502"},{"key":"ref4","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018","journal-title":"arXiv:1810.04805"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298878"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00210"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01419"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00688"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01113"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-short.122"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00288"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.93"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6737"},{"key":"ref16","first-page":"5903","article-title":"Learning by abstraction: The neural state machine","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Hudson"},{"key":"ref17","article-title":"Compositional attention networks for machine reasoning","author":"Hudson","year":"2018","journal-title":"arXiv:1803.03067"},{"key":"ref18","first-page":"1","article-title":"GQA: A new dataset for compositional question answering over real-world images","volume-title":"Proc. Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Hudson"},{"key":"ref19","article-title":"Batch normalization: Accelerating deep network training by reducing internal covariate shift","author":"Ioffe","year":"2015","journal-title":"arXiv:1502.03167"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.59"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3076556"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.2992393"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.215"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.325"},{"key":"ref25","first-page":"1564","article-title":"Bilinear attention networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Kim"},{"key":"ref26","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv:1412.6980"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1609.02907"},{"key":"ref28","first-page":"275","article-title":"A spatio-temporal descriptor based on 3D-gradients","volume-title":"Proc. BMVC","author":"Klaser"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_35"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00999"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3350922"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/tkde.2021.3090866"},{"key":"ref34","first-page":"13","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. 33rd Int. Conf. Neural Inf. Process. Syst.","author":"Lu"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00519"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00113"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58526-6_5"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.312"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.278"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01240-3_25"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.590"},{"key":"ref43","article-title":"Improving language understanding by generative pre-training","author":"Radford","year":"2018"},{"key":"ref44","first-page":"91","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Ren"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1145\/1291233.1291311"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.481"},{"key":"ref47","first-page":"568","article-title":"Two-stream convolutional networks for action recognition in videos","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"27","author":"Simonyan"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1145\/3265987.3265996"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00756"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00675"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01429"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.441"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3097171"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01228-1_25"},{"key":"ref57","first-page":"1","article-title":"Star: A benchmark for situated reasoning in real-world videos","volume-title":"Proc. 34th Conf. Neural Inf. Process. Syst. Datasets Benchmarks Track","author":"Wu"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.634"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123427"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"ref61","article-title":"Modeling semantic composition with syntactic hypergraph for video question answering","author":"Xu","year":"2022","journal-title":"arXiv:2205.06530"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/3077136.3080655"},{"key":"ref63","article-title":"CLEVRER: Collision events for video representation and reasoning","author":"Yi","year":"2019","journal-title":"arXiv:1910.01442"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299101"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01021"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/151"}],"container-title":["IEEE Transactions on Image Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/83\/10346232\/10582849.pdf?arnumber=10582849","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,6]],"date-time":"2024-09-06T07:09:01Z","timestamp":1725606541000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10582849\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":66,"URL":"https:\/\/doi.org\/10.1109\/tip.2024.3411448","relation":{},"ISSN":["1057-7149","1941-0042"],"issn-type":[{"value":"1057-7149","type":"print"},{"value":"1941-0042","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]}}}