{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,29]],"date-time":"2025-12-29T22:09:21Z","timestamp":1767046161068,"version":"3.37.3"},"reference-count":71,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"9","license":[{"start":{"date-parts":[[2020,9,1]],"date-time":"2020-09-01T00:00:00Z","timestamp":1598918400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,9,1]],"date-time":"2020-09-01T00:00:00Z","timestamp":1598918400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,9,1]],"date-time":"2020-09-01T00:00:00Z","timestamp":1598918400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"publisher","award":["61672089","61273274","61572064"],"award-info":[{"award-number":["61672089","61273274","61572064"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002858","name":"China Postdoctoral Science Foundation","doi-asserted-by":"publisher","award":["2019M650469"],"award-info":[{"award-number":["2019M650469"]}],"id":[{"id":"10.13039\/501100002858","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Key Technology R&D Program of China","award":["2012BAH01F03"],"award-info":[{"award-number":["2012BAH01F03"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Circuits Syst. Video Technol."],"published-print":{"date-parts":[[2020,9]]},"DOI":"10.1109\/tcsvt.2019.2919064","type":"journal-article","created":{"date-parts":[[2019,5,27]],"date-time":"2019-05-27T23:22:37Z","timestamp":1558999357000},"page":"2984-2999","source":"Crossref","is-referenced-by-count":5,"title":["Spatio-Temporal Deep Q-Networks for Human Activity Localization"],"prefix":"10.1109","volume":"30","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2206-5051","authenticated-orcid":false,"given":"Wanru","family":"Xu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jian","family":"Yu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhenjiang","family":"Miao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9520-5425","authenticated-orcid":false,"given":"Lili","family":"Wan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4302-2889","authenticated-orcid":false,"given":"Qiang","family":"Ji","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"doi-asserted-by":"publisher","key":"ref71","DOI":"10.1109\/ICCV.2017.619"},{"doi-asserted-by":"publisher","key":"ref70","DOI":"10.1109\/ICCV.2017.317"},{"doi-asserted-by":"publisher","key":"ref39","DOI":"10.1109\/CVPR.2008.4587727"},{"key":"ref38","first-page":"91","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","author":"ren","year":"2015","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref33","article-title":"Massively parallel methods for deep reinforcement learning","author":"nair","year":"2015","journal-title":"arXiv 1507 04296"},{"key":"ref32","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"mnih","year":"2015","journal-title":"Nature"},{"key":"ref31","article-title":"Playing atari with deep reinforcement learning","author":"mnih","year":"2013","journal-title":"arXiv 1312 5602"},{"doi-asserted-by":"publisher","key":"ref30","DOI":"10.1007\/978-3-319-46454-1_27"},{"doi-asserted-by":"publisher","key":"ref37","DOI":"10.1109\/TPAMI.2016.2577031"},{"doi-asserted-by":"publisher","key":"ref36","DOI":"10.1109\/TCSVT.2013.2276700"},{"doi-asserted-by":"publisher","key":"ref35","DOI":"10.1109\/ICCV.2015.508"},{"doi-asserted-by":"publisher","key":"ref34","DOI":"10.1007\/978-3-319-46493-0_45"},{"doi-asserted-by":"publisher","key":"ref60","DOI":"10.1109\/CVPR.2014.334"},{"doi-asserted-by":"publisher","key":"ref62","DOI":"10.1109\/CVPR.2016.293"},{"key":"ref61","article-title":"A pursuit of temporal accuracy in general activity detection","author":"xiong","year":"2017","journal-title":"arXiv 1703 02716"},{"doi-asserted-by":"publisher","key":"ref63","DOI":"10.1109\/CVPR.2015.7298735"},{"key":"ref28","article-title":"Temporal convolution based action proposal: Submission to activitynet 2017","author":"lin","year":"2017","journal-title":"arXiv 1707 06750"},{"doi-asserted-by":"publisher","key":"ref64","DOI":"10.1109\/TCSVT.2014.2319594"},{"key":"ref27","first-page":"384","article-title":"Searching action proposals via spatial actionness estimation and temporal path inference and tracking","author":"li","year":"2016","journal-title":"Proc Asian Conf Comput Vis"},{"key":"ref65","first-page":"2442","article-title":"Discriminative subvolume search for efficient action detection","author":"yuan","year":"2009","journal-title":"Proc IEEE Conf Comput Vis Pattern Recognit (CVPR)"},{"doi-asserted-by":"publisher","key":"ref66","DOI":"10.1109\/TPAMI.2011.38"},{"doi-asserted-by":"publisher","key":"ref29","DOI":"10.1109\/ICCV.2013.341"},{"doi-asserted-by":"publisher","key":"ref67","DOI":"10.1109\/CVPR.2017.148"},{"key":"ref68","article-title":"Deep reinforcement learning for visual object tracking in videos","author":"zhang","year":"2017","journal-title":"arXiv 1701 08936"},{"doi-asserted-by":"publisher","key":"ref69","DOI":"10.1109\/TPAMI.2013.33"},{"key":"ref2","article-title":"Hierarchical object detection with deep reinforcement learning","author":"bellver","year":"2016","journal-title":"arXiv 1611 03718"},{"key":"ref1","article-title":"Deep action-and context-aware sequence learning for activity recognition and anticipation","author":"aliakbarian","year":"2016","journal-title":"arXiv 1611 05520"},{"doi-asserted-by":"publisher","key":"ref20","DOI":"10.1109\/CVPR.2014.100"},{"key":"ref22","first-page":"127","article-title":"Tree-structured reinforcement learning for sequential object localization","author":"jie","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst"},{"doi-asserted-by":"publisher","key":"ref21","DOI":"10.1109\/ICCV.2013.396"},{"key":"ref24","first-page":"1","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2015","journal-title":"Proc Int Conf Learn Represent"},{"doi-asserted-by":"publisher","key":"ref23","DOI":"10.1109\/ICCV.2017.472"},{"key":"ref26","first-page":"2003","article-title":"Discriminative figure-centric models for joint action localization and recognition","author":"lan","year":"2011","journal-title":"Proc IEEE Int Conf Comput Vis (ICCV)"},{"doi-asserted-by":"publisher","key":"ref25","DOI":"10.1109\/CVPR.2017.748"},{"key":"ref50","first-page":"2094","article-title":"Deep reinforcement learning with double Q-learning","author":"van hasselt","year":"2016","journal-title":"Proc 13th AAAI Conf Artif Intell"},{"key":"ref51","first-page":"3551","article-title":"Action recognition with improved trajectories","author":"wang","year":"2014","journal-title":"Proc IEEE Int Conf Comput Vis"},{"key":"ref59","article-title":"Human action localization with sparse spatial supervision","author":"weinzaepfel","year":"2016","journal-title":"arXiv 1605 05197"},{"doi-asserted-by":"publisher","key":"ref58","DOI":"10.1109\/ICCV.2015.362"},{"doi-asserted-by":"publisher","key":"ref57","DOI":"10.1109\/TPAMI.2016.2616308"},{"doi-asserted-by":"publisher","key":"ref56","DOI":"10.1109\/TCSVT.2013.2276856"},{"key":"ref55","article-title":"UTS at activitynet 2016","author":"wang","year":"2016","journal-title":"ActivityNet Large Scale Activity Recognition Challenge"},{"doi-asserted-by":"publisher","key":"ref54","DOI":"10.1109\/CVPR.2017.783"},{"doi-asserted-by":"publisher","key":"ref53","DOI":"10.1109\/CVPR.2015.7299059"},{"doi-asserted-by":"publisher","key":"ref52","DOI":"10.1007\/978-3-319-10602-1_37"},{"doi-asserted-by":"publisher","key":"ref10","DOI":"10.1109\/ICCV.2017.610"},{"doi-asserted-by":"publisher","key":"ref11","DOI":"10.1007\/s11263-009-0275-4"},{"doi-asserted-by":"publisher","key":"ref40","DOI":"10.5244\/C.30.58"},{"doi-asserted-by":"publisher","key":"ref12","DOI":"10.1109\/TPAMI.2013.65"},{"doi-asserted-by":"publisher","key":"ref13","DOI":"10.5244\/C.29.177"},{"doi-asserted-by":"publisher","key":"ref14","DOI":"10.1109\/ICCV.2015.169"},{"doi-asserted-by":"publisher","key":"ref15","DOI":"10.1109\/ICCV.2015.129"},{"doi-asserted-by":"publisher","key":"ref16","DOI":"10.1109\/CVPR.2015.7298676"},{"doi-asserted-by":"publisher","key":"ref17","DOI":"10.1109\/ICCV.2015.516"},{"doi-asserted-by":"publisher","key":"ref18","DOI":"10.1109\/CVPR.2017.338"},{"doi-asserted-by":"publisher","key":"ref19","DOI":"10.1162\/neco.1997.9.8.1735"},{"doi-asserted-by":"publisher","key":"ref4","DOI":"10.1109\/CVPR.2015.7298698"},{"doi-asserted-by":"publisher","key":"ref3","DOI":"10.1109\/CVPR.2016.211"},{"doi-asserted-by":"publisher","key":"ref6","DOI":"10.1109\/CVPR.2017.180"},{"doi-asserted-by":"publisher","key":"ref5","DOI":"10.1109\/ICCV.2015.286"},{"doi-asserted-by":"publisher","key":"ref8","DOI":"10.1109\/ICCV.2017.620"},{"doi-asserted-by":"publisher","key":"ref7","DOI":"10.1109\/CVPR.2017.502"},{"key":"ref49","first-page":"350","article-title":"Max-margin structured output regression for spatio-temporal action localization","author":"tran","year":"2012","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref9","article-title":"Real-time visual tracking by deep reinforced decision making","author":"choi","year":"2017","journal-title":"arXiv 1702 06291"},{"key":"ref46","article-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"soomro","year":"2012","journal-title":"arXiv 1212 0402"},{"key":"ref45","article-title":"Online real-time multiple spatiotemporal action localisation and prediction","author":"singh","year":"2016","journal-title":"arXiv 1611 08563"},{"doi-asserted-by":"publisher","key":"ref48","DOI":"10.1109\/CVPR.2013.341"},{"key":"ref47","first-page":"1929","article-title":"Dropout: A simple way to prevent neural networks from overfitting","volume":"15","author":"srivastava","year":"2014","journal-title":"J Mach Learn Res"},{"doi-asserted-by":"publisher","key":"ref42","DOI":"10.1109\/CVPR.2017.155"},{"doi-asserted-by":"publisher","key":"ref41","DOI":"10.1109\/CVPR.2011.5995707"},{"key":"ref44","first-page":"568","article-title":"Two-stream convolutional networks for action recognition in videos","volume":"1","author":"simonyan","year":"2014","journal-title":"Proc Adv Neural Inf Process Syst"},{"doi-asserted-by":"publisher","key":"ref43","DOI":"10.1109\/CVPR.2016.119"}],"container-title":["IEEE Transactions on Circuits and Systems for Video Technology"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/76\/9185141\/08723163.pdf?arnumber=8723163","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,4,27]],"date-time":"2022-04-27T14:39:52Z","timestamp":1651070392000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8723163\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,9]]},"references-count":71,"journal-issue":{"issue":"9"},"URL":"https:\/\/doi.org\/10.1109\/tcsvt.2019.2919064","relation":{},"ISSN":["1051-8215","1558-2205"],"issn-type":[{"type":"print","value":"1051-8215"},{"type":"electronic","value":"1558-2205"}],"subject":[],"published":{"date-parts":[[2020,9]]}}}