{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T14:49:30Z","timestamp":1773154170147,"version":"3.50.1"},"reference-count":56,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"973 Basic Research Program of China","award":["2014CB349303"],"award-info":[{"award-number":["2014CB349303"]}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U1636218"],"award-info":[{"award-number":["U1636218"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61472420"],"award-info":[{"award-number":["61472420"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61472063"],"award-info":[{"award-number":["61472063"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61370185"],"award-info":[{"award-number":["61370185"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61472421"],"award-info":[{"award-number":["61472421"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61672519"],"award-info":[{"award-number":["61672519"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["2017YFB1002801"],"award-info":[{"award-number":["2017YFB1002801"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61100099"],"award-info":[{"award-number":["61100099"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002367","name":"Strategic Priority Research Program of Chinese Academy of Science","doi-asserted-by":"publisher","award":["XDB02070003"],"award-info":[{"award-number":["XDB02070003"]}],"id":[{"id":"10.13039\/501100002367","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002367","name":"Chinese Academy of Science External Cooperation Key Project","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002367","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Image Process."],"published-print":{"date-parts":[[2020]]},"DOI":"10.1109\/tip.2020.2984904","type":"journal-article","created":{"date-parts":[[2020,4,7]],"date-time":"2020-04-07T22:00:17Z","timestamp":1586296817000},"page":"5783-5793","source":"Crossref","is-referenced-by-count":75,"title":["STA-CNN: Convolutional Spatial-Temporal Attention Learning for Action Recognition"],"prefix":"10.1109","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3590-4491","authenticated-orcid":false,"given":"Hao","family":"Yang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2219-4961","authenticated-orcid":false,"given":"Chunfeng","family":"Yuan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Li","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yunda","family":"Sun","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9237-8825","authenticated-orcid":false,"given":"Weiming","family":"Hu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2113-9119","authenticated-orcid":false,"given":"Stephen J.","family":"Maybank","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.316"},{"key":"ref33","first-page":"14","article-title":"Multiple object recognition with visual attention","author":"ba","year":"2015","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref32","first-page":"2204","article-title":"Recurrent models of visual attention","author":"mnih","year":"2014","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref31","first-page":"1","article-title":"Neural machine translation by jointly learning to align and translate","author":"bahdanau","year":"2015","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2712608"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2016.7477589"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2017.368"},{"key":"ref35","first-page":"1","article-title":"Focused attention for action recognition","author":"vladyslav","year":"2019","journal-title":"Proc Brit Mach Vis Conf"},{"key":"ref34","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"2015","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.59"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-012-9356-9"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2590322"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2868668"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.319"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.213"},{"key":"ref24","first-page":"1","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"2015","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref23","first-page":"1","article-title":"Object detectors emerge in deep scene CNNs","author":"bolei","year":"2015","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2877936"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2912357"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.643"},{"key":"ref55","first-page":"1","article-title":"Distilling the knowledge in a neural network","author":"hinton","year":"2014","journal-title":"Proc Adv Neural Inf Process Syst Workshop"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00716"},{"key":"ref53","article-title":"MobileNets: Efficient convolutional neural networks for mobile vision applications","author":"howard","year":"2017","journal-title":"arXiv 1704 04861"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2599174"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2017.10.011"},{"key":"ref11","first-page":"3218","article-title":"P-CNN: Pose-based CNN features for action recognition","author":"cheron","year":"2015","journal-title":"Proc IEEE Int Conf Comput Vis (ICCV)"},{"key":"ref40","article-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"soomro","year":"2012","journal-title":"arXiv 1212 0402"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.402"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2017.77"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.129"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46448-0_25"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00189"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref18","first-page":"568","article-title":"Two-stream convolutional networks for action recognition in videos","author":"simonyan","year":"2014","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref19","article-title":"Towards good practices for very deep two-stream ConvNets","author":"wang","year":"2015","journal-title":"ArXiv 1507 02159"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ROBIO.2016.7866317"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472168"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref5","first-page":"1097","article-title":"ImageNet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref8","first-page":"1","article-title":"Action recognition using visual attention","author":"sharma","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst Workshops"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00155"},{"key":"ref9","article-title":"Hierarchical attention network for action recognition in videos","author":"wang","year":"2016","journal-title":"arXiv 1607 06416"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00685"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00054"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00631"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.219"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2018.2808685"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00817"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01270-0_23"}],"container-title":["IEEE Transactions on Image Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/83\/8835130\/09058999.pdf?arnumber=9058999","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,4,27]],"date-time":"2022-04-27T14:38:49Z","timestamp":1651070329000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9058999\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020]]},"references-count":56,"URL":"https:\/\/doi.org\/10.1109\/tip.2020.2984904","relation":{},"ISSN":["1057-7149","1941-0042"],"issn-type":[{"value":"1057-7149","type":"print"},{"value":"1941-0042","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020]]}}}