{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T17:12:34Z","timestamp":1780420354062,"version":"3.54.1"},"reference-count":55,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100003824","name":"Hunan University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003824","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,12]]},"DOI":"10.1016\/j.patcog.2026.113989","type":"journal-article","created":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T15:03:11Z","timestamp":1779721391000},"page":"113989","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PB","title":["Visual intelligence-driven hybrid feature learning with efficient dual-stage recurrent attention network for human activity recognition"],"prefix":"10.1016","volume":"180","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5062-1791","authenticated-orcid":false,"given":"Tariq","family":"Ahmad","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Weiwei","family":"Jiang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhenjun","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Asif","family":"Rahim","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kamal M.","family":"Othman","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Inam","family":"Ullah","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"issue":"6","key":"10.1016\/j.patcog.2026.113989_b1","doi-asserted-by":"crossref","first-page":"8065","DOI":"10.1109\/TITS.2025.3558085","article-title":"Human-factors-in-aviation-loop: Multimodal deep learning for pilot situation awareness analysis using gaze position and flight control data","volume":"26","author":"Xu","year":"2025","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.patcog.2026.113989_b2","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2023.127109","article-title":"A multi-message passing framework based on heterogeneous graphs in conversational emotion recognition","volume":"569","author":"Meng","year":"2024","journal-title":"Neurocomputing"},{"issue":"12","key":"10.1016\/j.patcog.2026.113989_b3","doi-asserted-by":"crossref","first-page":"14668","DOI":"10.1109\/TIE.2025.3585046","article-title":"An LSTM network with neural plasticity for driver fatigue recognition on real roads","volume":"72","author":"Li","year":"2025","journal-title":"IEEE Trans. Ind. Electron."},{"issue":"4","key":"10.1016\/j.patcog.2026.113989_b4","doi-asserted-by":"crossref","first-page":"196","DOI":"10.1016\/j.jksuci.2023.03.016","article-title":"An ensemble face recognition mechanism based on three-way decisions","volume":"35","author":"Shah","year":"2023","journal-title":"J. King Saud Univ.-Comput. Inf. Sci."},{"issue":"11","key":"10.1016\/j.patcog.2026.113989_b5","doi-asserted-by":"crossref","first-page":"16687","DOI":"10.1109\/TITS.2024.3409874","article-title":"Subjective driving risk prediction based on spatiotemporal distribution features of human driver\u2019s cognitive risk","volume":"25","author":"Song","year":"2024","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"issue":"1","key":"10.1016\/j.patcog.2026.113989_b6","doi-asserted-by":"crossref","first-page":"973","DOI":"10.1109\/TCSS.2023.3249152","article-title":"SDIGRU: Spatial and deep features integration using multilayer gated recurrent unit for human activity recognition","volume":"11","author":"Ahmad","year":"2024","journal-title":"IEEE Trans. Comput. Soc. Syst."},{"key":"10.1016\/j.patcog.2026.113989_b7","series-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"Soomro","year":"2012"},{"key":"10.1016\/j.patcog.2026.113989_b8","series-title":"2011 International Conference on Computer Vision","first-page":"2556","article-title":"HMDB: a large video database for human motion recognition","author":"Kuehne","year":"2011"},{"issue":"5","key":"10.1016\/j.patcog.2026.113989_b9","doi-asserted-by":"crossref","first-page":"971","DOI":"10.1007\/s00138-012-0450-4","article-title":"Recognizing 50 human action categories of web videos","volume":"24","author":"Reddy","year":"2013","journal-title":"Mach. Vis. Appl."},{"key":"10.1016\/j.patcog.2026.113989_b10","series-title":"2009 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1996","article-title":"Recognizing realistic actions from videos \u201cin the wild\u201d","author":"Liu","year":"2009"},{"key":"10.1016\/j.patcog.2026.113989_b11","series-title":"2009 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1948","article-title":"Recognising action as clouds of space-time interest points","author":"Bregonzio","year":"2009"},{"key":"10.1016\/j.patcog.2026.113989_b12","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111866","article-title":"Source-free domain adaptation for unsupervised radar-based human activity recognition","volume":"169","author":"Si","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113989_b13","article-title":"Frequency-aware spatio-temporal topology learning for skeleton-based human activity recognition","author":"Xia","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113989_b14","doi-asserted-by":"crossref","first-page":"33148","DOI":"10.1109\/ACCESS.2023.3263155","article-title":"Human activity recognition based on deep-temporal learning using convolution neural networks features and bidirectional gated recurrent unit with features selection","volume":"11","author":"Ahmad","year":"2023","journal-title":"IEEE Access"},{"issue":"1","key":"10.1016\/j.patcog.2026.113989_b15","doi-asserted-by":"crossref","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","article-title":"3D convolutional neural networks for human action recognition","volume":"35","author":"Ji","year":"2013","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.113989_b16","article-title":"Two-stream convolutional networks for action recognition in videos","volume":"27","author":"Simonyan","year":"2014","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2026.113989_b17","doi-asserted-by":"crossref","unstructured":"A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, L. Fei-Fei, Large-scale video classification with convolutional neural networks, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1725\u20131732.","DOI":"10.1109\/CVPR.2014.223"},{"key":"10.1016\/j.patcog.2026.113989_b18","doi-asserted-by":"crossref","unstructured":"D. Tran, L. Bourdev, R. Fergus, L. Torresani, M. Paluri, Learning spatiotemporal features with 3d convolutional networks, in: Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 4489\u20134497.","DOI":"10.1109\/ICCV.2015.510"},{"key":"10.1016\/j.patcog.2026.113989_b19","doi-asserted-by":"crossref","DOI":"10.1016\/j.asoc.2021.107102","article-title":"Efficient activity recognition using lightweight CNN and DS-GRU network for surveillance applications","volume":"103","author":"Ullah","year":"2021","journal-title":"Appl. Soft Comput."},{"key":"10.1016\/j.patcog.2026.113989_b20","doi-asserted-by":"crossref","first-page":"820","DOI":"10.1016\/j.future.2021.06.045","article-title":"Human action recognition using attention based LSTM network with dilated CNN features","volume":"125","author":"Muhammad","year":"2021","journal-title":"Future Gener. Comput. Syst."},{"key":"10.1016\/j.patcog.2026.113989_b21","doi-asserted-by":"crossref","first-page":"321","DOI":"10.1016\/j.neucom.2019.12.151","article-title":"Conflux LSTMs network: A novel approach for multi-view action recognition","volume":"435","author":"Ullah","year":"2021","journal-title":"Neurocomputing"},{"issue":"6","key":"10.1016\/j.patcog.2026.113989_b22","doi-asserted-by":"crossref","DOI":"10.1007\/s11704-021-0236-9","article-title":"ResLNet: deep residual LSTM network with longer input for action recognition","volume":"16","author":"Wang","year":"2022","journal-title":"Front. Comput. Sci."},{"issue":"3","key":"10.1016\/j.patcog.2026.113989_b23","doi-asserted-by":"crossref","first-page":"1347","DOI":"10.1109\/TIP.2017.2778563","article-title":"Recurrent spatial-temporal attention network for action recognition in videos","volume":"27","author":"Du","year":"2018","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.patcog.2026.113989_b24","series-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020"},{"key":"10.1016\/j.patcog.2026.113989_b25","doi-asserted-by":"crossref","unstructured":"A. Howard, M. Sandler, G. Chu, L.-C. Chen, B. Chen, M. Tan, W. Wang, Y. Zhu, R. Pang, V. Vasudevan, et al., Searching for mobilenetv3, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 1314\u20131324.","DOI":"10.1109\/ICCV.2019.00140"},{"issue":"12","key":"10.1016\/j.patcog.2026.113989_b26","doi-asserted-by":"crossref","first-page":"9692","DOI":"10.1109\/TIE.2018.2881943","article-title":"Activity recognition using temporal optical flow convolutional features and multilayer LSTM","volume":"66","author":"Ullah","year":"2018","journal-title":"IEEE Trans. Ind. Electron."},{"issue":"1","key":"10.1016\/j.patcog.2026.113989_b27","article-title":"Vision transformer and deep sequence learning for human activity recognition in surveillance videos","volume":"2022","author":"Hussain","year":"2022","journal-title":"Comput. Intell. Neurosci."},{"issue":"4","key":"10.1016\/j.patcog.2026.113989_b28","doi-asserted-by":"crossref","first-page":"1840","DOI":"10.1109\/TBDATA.2024.3489414","article-title":"Big data analysis for industrial activity recognition using attention-inspired sequential temporal convolution network","volume":"11","author":"Hussain","year":"2025","journal-title":"IEEE Trans. Big Data"},{"issue":"2","key":"10.1016\/j.patcog.2026.113989_b29","doi-asserted-by":"crossref","first-page":"1936","DOI":"10.1109\/TMC.2025.3608447","article-title":"WarmGait: Thermal array-based gait recognition for privacy-preserving person re-ID","volume":"25","author":"Jiang","year":"2026","journal-title":"IEEE Trans. Mob. Comput."},{"key":"10.1016\/j.patcog.2026.113989_b30","doi-asserted-by":"crossref","DOI":"10.3389\/fphys.2024.1344887","article-title":"Robust human locomotion and localization activity recognition over multisensory","volume":"15","author":"Khan","year":"2024","journal-title":"Front. Physiol."},{"issue":"2","key":"10.1016\/j.patcog.2026.113989_b31","article-title":"Robust human interaction recognition using extended Kalman filter","volume":"81","author":"Bukht","year":"2024","journal-title":"Comput. Mater. Contin."},{"issue":"9","key":"10.1016\/j.patcog.2026.113989_b32","doi-asserted-by":"crossref","first-page":"12130","DOI":"10.1109\/TNNLS.2023.3252172","article-title":"Learning heterogeneous spatial\u2013temporal context for skeleton-based action recognition","volume":"35","author":"Gao","year":"2024","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"issue":"4","key":"10.1016\/j.patcog.2026.113989_b33","doi-asserted-by":"crossref","first-page":"6800","DOI":"10.1109\/TCE.2024.3373824","article-title":"A hybrid transformer framework for efficient activity recognition using consumer electronics","volume":"70","author":"Hussain","year":"2024","journal-title":"IEEE Trans. Consum. Electron."},{"issue":"3","key":"10.1016\/j.patcog.2026.113989_b34","doi-asserted-by":"crossref","first-page":"2952","DOI":"10.1109\/TCSVT.2025.3615909","article-title":"DVFL-Net: A lightweight distilled video focal modulation network for spatio-temporal action recognition","volume":"36","author":"Ullah","year":"2026","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113989_b35","unstructured":"A. Diba, M. Fayyaz, V. Sharma, A. Hossein Karami, M. Mahdi Arzani, R. Yousefzadeh, L. Van Gool, Temporal 3d convnets using temporal transition layer, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018, pp. 1117\u20131121."},{"issue":"9","key":"10.1016\/j.patcog.2026.113989_b36","doi-asserted-by":"crossref","first-page":"5174","DOI":"10.1109\/TCSVT.2023.3250646","article-title":"Spatio-temporal adaptive network with bidirectional temporal difference for action recognition","volume":"33","author":"Li","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"8","key":"10.1016\/j.patcog.2026.113989_b37","doi-asserted-by":"crossref","first-page":"3912","DOI":"10.1109\/TCSVT.2023.3235522","article-title":"AGPN: Action granularity pyramid network for video action recognition","volume":"33","author":"Chen","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"5","key":"10.1016\/j.patcog.2026.113989_b38","doi-asserted-by":"crossref","first-page":"3050","DOI":"10.1109\/TCSVT.2021.3098839","article-title":"Multi-stream interaction networks for human action recognition","volume":"32","author":"Wang","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113989_b39","series-title":"2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"449","article-title":"MiCT: Mixed 3D\/2D convolutional tube for human action recognition","author":"Zhou","year":"2018"},{"issue":"11","key":"10.1016\/j.patcog.2026.113989_b40","article-title":"Human action recognition in video sequence using logistic regression by features fusion approach based on CNN features","author":"Ahmad","year":"2021","journal-title":"Int. J. Adv. Comput. Sci. Appl."},{"issue":"10","key":"10.1016\/j.patcog.2026.113989_b41","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s11227-025-07618-8","article-title":"E-harnet: an efficient hybrid transformer network for human activity recognition","volume":"81","author":"Iqbal","year":"2025","journal-title":"J. Supercomput."},{"issue":"12","key":"10.1016\/j.patcog.2026.113989_b42","doi-asserted-by":"crossref","first-page":"15765","DOI":"10.1109\/TCOMM.2025.3611710","article-title":"Zero-shot automatic modulation recognition using a large vision-language model","volume":"73","author":"Zhao","year":"2025","journal-title":"IEEE Trans. Commun."},{"issue":"7","key":"10.1016\/j.patcog.2026.113989_b43","doi-asserted-by":"crossref","first-page":"14867","DOI":"10.1109\/JIOT.2026.3652708","article-title":"Beyond the visible: Deep learning-powered thermal face recognition","volume":"13","author":"Jiang","year":"2026","journal-title":"IEEE Internet Things J."},{"key":"10.1016\/j.patcog.2026.113989_b44","series-title":"2023 IEEE\/CVF International Conference on Computer Vision Workshops","first-page":"721","article-title":"A hybrid visual transformer for efficient deep human activity recognition","author":"Djenouri","year":"2023"},{"key":"10.1016\/j.patcog.2026.113989_b45","doi-asserted-by":"crossref","first-page":"1155","DOI":"10.1109\/ACCESS.2017.2778011","article-title":"Action recognition in video sequences using deep bi-directional LSTM with CNN features","volume":"6","author":"Ullah","year":"2018","journal-title":"IEEE Access"},{"key":"10.1016\/j.patcog.2026.113989_b46","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"12","key":"10.1016\/j.patcog.2026.113989_b47","doi-asserted-by":"crossref","first-page":"7682","DOI":"10.1109\/TPAMI.2024.3392941","article-title":"A survey on efficient vision transformers: Algorithms, techniques, and performance benchmarking","volume":"46","author":"Papa","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.113989_b48","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.102951","article-title":"ViTs as backbones: Leveraging vision transformers for feature extraction","volume":"118","author":"Elharrouss","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.patcog.2026.113989_b49","doi-asserted-by":"crossref","DOI":"10.1016\/j.compag.2025.110824","article-title":"Designing optimal vision transformer architecture using differential evolution for tomato leaf disease classification","volume":"238","author":"Ghosh","year":"2025","journal-title":"Comput. Electron. Agric."},{"key":"10.1016\/j.patcog.2026.113989_b50","doi-asserted-by":"crossref","unstructured":"M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, L.-C. Chen, Mobilenetv2: Inverted residuals and linear bottlenecks, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4510\u20134520.","DOI":"10.1109\/CVPR.2018.00474"},{"key":"10.1016\/j.patcog.2026.113989_b51","doi-asserted-by":"crossref","unstructured":"M. Tan, B. Chen, R. Pang, V. Vasudevan, M. Sandler, A. Howard, Q.V. Le, Mnasnet: Platform-aware neural architecture search for mobile, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 2820\u20132828.","DOI":"10.1109\/CVPR.2019.00293"},{"key":"10.1016\/j.patcog.2026.113989_b52","series-title":"SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size","author":"Iandola","year":"2016"},{"key":"10.1016\/j.patcog.2026.113989_b53","article-title":"Semi-supervised action recognition with dynamic temporal information fusion","volume":"611","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.patcog.2026.113989_b54","series-title":"2023 IEEE\/CVF International Conference on Computer Vision","first-page":"13732","article-title":"Video-FocalNets: Spatio-temporal focal modulation for video action recognition","author":"Wasim","year":"2023"},{"key":"10.1016\/j.patcog.2026.113989_b55","series-title":"2023 IEEE International Conference on Systems, Man, and Cybernetics","first-page":"4852","article-title":"Human action recognition using multi-stream fusion and hybrid deep neural networks","author":"Chopra","year":"2023"}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326009544?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326009544?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T16:57:02Z","timestamp":1780419422000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326009544"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,12]]},"references-count":55,"alternative-id":["S0031320326009544"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113989","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,12]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Visual intelligence-driven hybrid feature learning with efficient dual-stage recurrent attention network for human activity recognition","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113989","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"113989"}}