{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T07:54:13Z","timestamp":1769673253375,"version":"3.49.0"},"reference-count":92,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62172022"],"award-info":[{"award-number":["62172022"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U21B2038"],"award-info":[{"award-number":["U21B2038"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100010225","name":"Beijing Outstanding Young Scientists Project","doi-asserted-by":"publisher","award":["BJJWZYJH01201910005018"],"award-info":[{"award-number":["BJJWZYJH01201910005018"]}],"id":[{"id":"10.13039\/501100010225","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Circuits Syst. Video Technol."],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1109\/tcsvt.2025.3595145","type":"journal-article","created":{"date-parts":[[2025,8,4]],"date-time":"2025-08-04T18:47:09Z","timestamp":1754333229000},"page":"1045-1060","source":"Crossref","is-referenced-by-count":0,"title":["HAhb-KG: Hierarchical Augmented Knowledge Graph for Human Behavior Assisting Cross-Modal Learning Action Detection"],"prefix":"10.1109","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-4355-3169","authenticated-orcid":false,"given":"Xiaochen","family":"Wang","sequence":"first","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Artificial Intelligence Institute, Faculty of Information Technology, Beijing University of Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7722-7172","authenticated-orcid":false,"given":"Dehui","family":"Kong","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Artificial Intelligence Institute, Faculty of Information Technology, Beijing University of Technology, Beijing, China"}]},{"given":"Jinghua","family":"Li","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Artificial Intelligence Institute, Faculty of Information Technology, Beijing University of Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7962-4091","authenticated-orcid":false,"given":"Jing","family":"Wang","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Artificial Intelligence Institute, Faculty of Information Technology, Beijing University of Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3121-1823","authenticated-orcid":false,"given":"Baocai","family":"Yin","sequence":"additional","affiliation":[{"name":"Beijing Key Laboratory of Multimedia and Intelligent Software Technology, Beijing Artificial Intelligence Institute, Faculty of Information Technology, Beijing University of Technology, Beijing, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3104226"},{"key":"ref2","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.109595","article-title":"Semantics-enhanced early action detection using dynamic dilated convolution","volume":"140","author":"Korban","year":"2023","journal-title":"Pattern Recognit."},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3125701"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00028"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3282631"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.5244\/C.35.291"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00912"},{"key":"ref8","first-page":"2373","article-title":"Decomposed cross-modal distillation for RGB-based temporal action detection","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Lee"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/WACV45572.2020.9093361"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3103677"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3284977"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3098839"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00046"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3100842"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3284474"},{"key":"ref16","first-page":"4132","article-title":"Visual knowledge graph for human action reasoning in videos","volume-title":"Proc. 30th ACM Int. Conf. Multimedia","author":"Ma"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3272891"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01796"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP42928.2021.9506257"},{"key":"ref20","doi-asserted-by":"crossref","DOI":"10.1016\/j.cviu.2023.103854","article-title":"Scene adaptive mechanism for action recognition","volume":"238","author":"Wu","year":"2024","journal-title":"Comput. Vis. Image Understand."},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3053577"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-025-02393-8"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746817"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19830-4_21"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TETC.2022.3211011"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2025.3543108"},{"key":"ref27","first-page":"47908","article-title":"Does video-text pretraining help open-vocabulary online action detection?","volume-title":"Proc. 38th Annu. Conf. Neural Inf. Process. Syst.","author":"Zhao"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2024.3378477"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00630"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00209"},{"key":"ref31","article-title":"CT-net: Channel tensorization network for video classification","author":"Li","year":"2021","journal-title":"arXiv:2106.01603"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN52387.2021.9533426"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01181"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00675"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01112"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01327"},{"key":"ref37","article-title":"Deformable DETR: Deformable transformers for end-to-end object detection","author":"Zhu","year":"2020","journal-title":"arXiv:2010.04159"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01941"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00022"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2952088"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01342"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2023.3246133"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1088\/1742-5468\/ac9830"},{"key":"ref44","first-page":"12165","article-title":"CMT: Convolutional neural networks meet vision transformers","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Guo"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00009"},{"key":"ref46","first-page":"956","article-title":"SWAT: Spatial structure within and among tokens","volume-title":"Proc. 32nd Int. Joint Conf. Artif. Intell.","author":"Kahatapitiya"},{"key":"ref47","doi-asserted-by":"crossref","first-page":"39","DOI":"10.1145\/219717.219748","article-title":"Wordnet: A lexical database for English","volume":"38","author":"Miller","year":"1995","journal-title":"Commun. ACM"},{"key":"ref48","first-page":"695","article-title":"News recommendation with topic-enriched knowledge graphs","volume-title":"Proc. 29th ACM Int. Conf. Inf. Knowl. Manage.","author":"Lee"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICBK50248.2020.00038"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICSESS.2018.8663716"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3377136"},{"issue":"5","key":"ref52","first-page":"1640","article-title":"Construction of event knowledge graph based on semantic analysis","volume":"28","author":"Song","year":"2021","journal-title":"Tehnicki Vjesnik-Technical Gazette"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2897604"},{"issue":"1","key":"ref54","first-page":"8303","article-title":"I know the relationships: Zero-shot action recognition via two-stream graph convolutional networks and knowledge graphs","volume-title":"Proc. AAAI Conf. Artif. Intell.","volume":"33","author":"Gao"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10445997"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3386339"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TBDATA.2023.3291558"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3324595"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3207228"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02112-9"},{"key":"ref61","article-title":"AAN: Attributes-aware network for temporal action detection","author":"Dai","year":"2023","journal-title":"arXiv:2309.00696"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46448-0_31"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.113"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/icassp39728.2021.9413901"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref67","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2020.107256","article-title":"Semantic-aware scene recognition","volume":"102","author":"L\u00f3pez-Cifuentes","year":"2020","journal-title":"Pattern Recognit."},{"key":"ref68","first-page":"4171","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proc. Conf. North Amer. Chapter  Assoc. Comput.","author":"Devlin"},{"key":"ref69","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2014","journal-title":"arXiv:1409.1556"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01157"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3169976"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.622"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3124671"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01729"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01757"},{"key":"ref76","first-page":"5794","article-title":"R-C3D: Region convolutional 3D network for temporal activity detection","volume-title":"Proc. IEEE Int. Conf. Comput. Vis. (ICCV)","author":"Xu"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00151"},{"key":"ref78","first-page":"5304","article-title":"Learning latent super-events to detect multiple activities in videos","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit.","author":"Piergiovanni"},{"key":"ref79","article-title":"ContextDet: Temporal action detection with adaptive context aggregation","author":"Wang","year":"2024","journal-title":"arXiv:2410.15279"},{"key":"ref80","first-page":"5152","article-title":"Temporal Gaussian mixture layer for videos","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Piergiovanni"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-024-01624-1"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/WACV48630.2021.00301"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01756"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72952-2_17"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00828"},{"key":"ref86","first-page":"1","article-title":"CTRN: Class-temporal relational network for action detection","volume-title":"Proc. Brit. Mach. Vis. Conf.","author":"Dai"},{"key":"ref87","first-page":"19070","article-title":"Token Turing machines","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Ryoo"},{"key":"ref88","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref89","first-page":"1","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR))","author":"Dosovitskiy"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2019.2909142"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3169693"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02322-1"}],"container-title":["IEEE Transactions on Circuits and Systems for Video Technology"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/76\/11365019\/11108248.pdf?arnumber=11108248","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,28]],"date-time":"2026-01-28T21:01:25Z","timestamp":1769634085000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11108248\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":92,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/tcsvt.2025.3595145","relation":{},"ISSN":["1051-8215","1558-2205"],"issn-type":[{"value":"1051-8215","type":"print"},{"value":"1558-2205","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1]]}}}