{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T05:33:29Z","timestamp":1773984809608,"version":"3.50.1"},"reference-count":61,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/100005144","name":"Qualcomm","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100005144","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Applied Soft Computing"],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1016\/j.asoc.2025.114521","type":"journal-article","created":{"date-parts":[[2025,12,23]],"date-time":"2025-12-23T00:00:22Z","timestamp":1766448022000},"page":"114521","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Dynamic context learning using multiple visual scanpaths for action classification in still images"],"prefix":"10.1016","volume":"189","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-3427-3196","authenticated-orcid":false,"given":"Ashish","family":"Verma","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-9169-4061","authenticated-orcid":false,"given":"Dishant","family":"Satuley","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9756-1191","authenticated-orcid":false,"given":"Debashis","family":"Sen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"key":"10.1016\/j.asoc.2025.114521_bib0005","doi-asserted-by":"crossref","first-page":"25945","DOI":"10.1007\/s11042-023-14350-z","article-title":"Still image action recognition based on interactions between joints and objects","volume":"82","author":"Ashrafi","year":"2023","journal-title":"Multimedia Tools Appl."},{"key":"10.1016\/j.asoc.2025.114521_bib0010","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110109","article-title":"Attention cycle-consistent universal network for more universal domain adaptation","volume":"147","author":"Cai","year":"2024","journal-title":"Pattern Recogn."},{"key":"10.1016\/j.asoc.2025.114521_bib0015","doi-asserted-by":"crossref","first-page":"4623","DOI":"10.1007\/s11263-025-02401-x","article-title":"Multi-source domain adaptation by causal-guided adaptive multimodal diffusion networks","volume":"133","author":"Cai","year":"2025","journal-title":"Int. J. Comp. Vis."},{"key":"10.1016\/j.asoc.2025.114521_bib0020","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"10876","article-title":"Predicting human scanpaths in visual question answering","author":"Chen","year":"2021"},{"key":"10.1016\/j.asoc.2025.114521_bib0025","doi-asserted-by":"crossref","first-page":"2362","DOI":"10.3390\/app12052362","article-title":"The static and dynamic analyses of drivers\u2019 gaze movement using VR driving simulator","volume":"12","author":"Chung","year":"2022","journal-title":"Appl. Sci."},{"key":"10.1016\/j.asoc.2025.114521_bib0030","doi-asserted-by":"crossref","first-page":"692","DOI":"10.3758\/BRM.42.3.692","article-title":"Scanmatch: a novel method for comparing fixation sequences","volume":"42","author":"Cristino","year":"2010","journal-title":"Behav. Res. Methods"},{"key":"10.1016\/j.asoc.2025.114521_bib0035","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2022.109091","article-title":"Multi-expert human action recognition with hierarchical super-class learning","volume":"250","author":"Dehkordi","year":"2022","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.asoc.2025.114521_bib0040","series-title":"Adv. Neural Inf. Process. Syst. (NeurIPS)","first-page":"1503","article-title":"Learning person-object interactions for action recognition in still images","author":"Delaitre","year":"2011"},{"key":"10.1016\/j.asoc.2025.114521_bib0045","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"248","article-title":"Imagenet: a large-scale hierarchical image database","author":"Deng","year":"2009"},{"key":"10.1016\/j.asoc.2025.114521_bib0050","doi-asserted-by":"crossref","first-page":"1079","DOI":"10.3758\/s13428-012-0212-2","article-title":"Depends on how you look at IT: scanpath comparison in multiple dimensions with multimatch, a vector-based approach","volume":"44","author":"Dewhurst","year":"2012","journal-title":"Behav. Res. Methods"},{"key":"10.1016\/j.asoc.2025.114521_bib0055","doi-asserted-by":"crossref","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","article-title":"The Pascal Visual object classes (VOC) challenge","volume":"88","author":"Everingham","year":"2010","journal-title":"Int. J. Comp. Vis."},{"key":"10.1016\/j.asoc.2025.114521_bib0060","series-title":"Proc. Euro. Conf. Comp. Vis. (ECCV)","first-page":"51","article-title":"Pairwise body-part attention for recognizing human-object interactions","author":"Fang","year":"2018"},{"key":"10.1016\/j.asoc.2025.114521_bib0065","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. Workshops (CVPRW)","first-page":"16","article-title":"Action classification in still images using human eye movements","author":"Ge","year":"2015"},{"key":"10.1016\/j.asoc.2025.114521_bib0070","series-title":"Proc. IEEE Int. Conf. Comput. Vis. (ICCV)","first-page":"1440","article-title":"Fast r-CNN","author":"Girshick","year":"2015"},{"key":"10.1016\/j.asoc.2025.114521_bib0075","series-title":"Proc. IEEE Int. Conf. Comput. Vis. (ICCV)","first-page":"1080","article-title":"Contextual action recognition with R* CNN","author":"Gkioxari","year":"2015"},{"key":"10.1016\/j.asoc.2025.114521_bib0080","doi-asserted-by":"crossref","first-page":"3343","DOI":"10.1016\/j.patcog.2014.04.018","article-title":"A survey on still image based human action recognition","volume":"47","author":"Guo","year":"2014","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.asoc.2025.114521_bib0085","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"770","article-title":"Deep residual learning for image recognition","author":"He","year":"2016"},{"key":"10.1016\/j.asoc.2025.114521_bib0090","doi-asserted-by":"crossref","first-page":"498","DOI":"10.1016\/j.tics.2003.09.006","article-title":"Human gaze control during real-world scene perception","volume":"7","author":"Henderson","year":"2003","journal-title":"Trends Cogn. Sci."},{"key":"10.1016\/j.asoc.2025.114521_bib0095","series-title":"Proc. Asian Conf. Mach. Learn","first-page":"439","article-title":"Accumulated gradient normalization","author":"Hermans","year":"2017"},{"key":"10.1016\/j.asoc.2025.114521_bib0100","doi-asserted-by":"crossref","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","article-title":"Long short-term memory","volume":"9","author":"Hochreiter","year":"1997","journal-title":"Neural Comput."},{"key":"10.1016\/j.asoc.2025.114521_bib0105","series-title":"Proc. Int. Conf. Pattern Recogn","first-page":"1","article-title":"Recognizing actions from still images","author":"Ikizler","year":"2008"},{"key":"10.1016\/j.asoc.2025.114521_bib0110","series-title":"Proc. IEEE Conf. Pattern Recogn. (ICPR)","first-page":"1","article-title":"Recognizing actions from still images","author":"Ikizler","year":"2008"},{"key":"10.1016\/j.asoc.2025.114521_bib0115","doi-asserted-by":"crossref","first-page":"92","DOI":"10.1038\/s41597-021-00863-5","article-title":"Creation and validation of a chest x-ray dataset with eye-tracking and report dictation for AI development","volume":"8","author":"Karargyris","year":"2021","journal-title":"Sci. Data"},{"key":"10.1016\/j.asoc.2025.114521_bib0120","series-title":"Proc. Asian Conf. Comp. Vis. (ACCV)","first-page":"152","article-title":"Loss guided activation for action recognition in still images","author":"Liu","year":"2019"},{"key":"10.1016\/j.asoc.2025.114521_bib0125","series-title":"Proc. IEEE Int. Conf. Multimedia Expo (ICME)","first-page":"1","article-title":"Human-object relation network for action recognition in still images","author":"Ma","year":"2020"},{"key":"10.1016\/j.asoc.2025.114521_bib0130","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"3177","article-title":"Action recognition from a distributed representation of pose and appearance","author":"Maji","year":"2011"},{"key":"10.1016\/j.asoc.2025.114521_bib0135","doi-asserted-by":"crossref","first-page":"229","DOI":"10.1038\/nrn1348","article-title":"The role of fixational eye movements in visual perception","volume":"5","author":"Martinez-Conde","year":"2004","journal-title":"Nat. Rev. Neurosci."},{"key":"10.1016\/j.asoc.2025.114521_bib0140","series-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","first-page":"842","article-title":"Dynamic eye movement datasets and learnt saliency models for visual action recognition","author":"Mathe","year":"2012"},{"key":"10.1016\/j.asoc.2025.114521_bib0145","doi-asserted-by":"crossref","first-page":"1408","DOI":"10.1109\/TPAMI.2014.2366154","article-title":"Actions in the eye: dynamic gaze datasets and learnt saliency models for visual recognition","volume":"37","author":"Mathe","year":"2015","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.asoc.2025.114521_bib0150","doi-asserted-by":"crossref","first-page":"6760","DOI":"10.1007\/s10489-021-02760-1","article-title":"Pose-guided action recognition in static images using lie-group","volume":"52","author":"Mi","year":"2022","journal-title":"Appl. Intell."},{"key":"10.1016\/j.asoc.2025.114521_bib0155","series-title":"Proc. IEEE Wint. Conf. Appl. Comp. Vis. (WACV)","first-page":"1069","article-title":"Integrating human gaze into attention for egocentric activity recognition","author":"Min","year":"2021"},{"key":"10.1016\/j.asoc.2025.114521_bib0160","series-title":"Proc. IEEE Int. Conf. Image Process. (ICIP)","first-page":"3435","article-title":"Saccade gaze prediction using a recurrent neural network","author":"Ngo","year":"2017"},{"key":"10.1016\/j.asoc.2025.114521_bib0165","doi-asserted-by":"crossref","first-page":"308","DOI":"10.1126\/science.171.3968.308","article-title":"Scanpaths in eye movements during pattern perception","volume":"171","author":"Noton","year":"1971","journal-title":"Science"},{"key":"10.1016\/j.asoc.2025.114521_bib0170","doi-asserted-by":"crossref","first-page":"1856","DOI":"10.1109\/TCSVT.2018.2844780","article-title":"Spatial and motion saliency prediction method using eye tracker data for video summarization","volume":"29","author":"Paul","year":"2018","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.asoc.2025.114521_bib0175","doi-asserted-by":"crossref","DOI":"10.1016\/j.imavis.2025.105426","article-title":"Skeleton action recognition via group sparsity constrained variant graph auto-encoder","author":"Pei","year":"2025","journal-title":"Image Vis. Comput."},{"key":"10.1016\/j.asoc.2025.114521_bib0180","doi-asserted-by":"crossref","DOI":"10.1016\/j.asoc.2023.110536","article-title":"Multi-stream global\u2013local motion fusion network for skeleton-based action recognition","volume":"145","author":"Qi","year":"2023","journal-title":"Appl. Soft Comput."},{"key":"10.1016\/j.asoc.2025.114521_bib0185","doi-asserted-by":"crossref","first-page":"1137","DOI":"10.1109\/TPAMI.2016.2577031","article-title":"Faster r-CNN: towards real-time object detection with region proposal networks","author":"Ren","year":"2017","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.asoc.2025.114521_bib0190","series-title":"Int. Conf. Learn. Represent. (ICLR)","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2015"},{"key":"10.1016\/j.asoc.2025.114521_bib0195","series-title":"Adv. Neural Inf. Process. Syst. (NeurIPS)","article-title":"Action from still image dataset and inverse optimal control to learn task specific visual scanpaths","author":"Stefan Mathe","year":"2013"},{"key":"10.1016\/j.asoc.2025.114521_bib0200","doi-asserted-by":"crossref","first-page":"195","DOI":"10.1016\/j.imavis.2016.06.006","article-title":"Action recognition using saliency learned from recorded human gaze","volume":"52","author":"Stefic","year":"2016","journal-title":"Image Vis. Comput."},{"key":"10.1016\/j.asoc.2025.114521_bib0205","series-title":"Proc. ACM Int. Conf. Multimedia","first-page":"33","article-title":"Can computers learn from humans to see better?: inferring scene semantics from viewers\u2019 eye movements","author":"Subramanian","year":"2011"},{"key":"10.1016\/j.asoc.2025.114521_bib0210","doi-asserted-by":"crossref","first-page":"2101","DOI":"10.1109\/TPAMI.2019.2956930","article-title":"Visual scanpath prediction using IOR-ROI recurrent mixture density network","volume":"43","author":"Sun","year":"2019","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.asoc.2025.114521_bib0215","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"1","article-title":"Pose primitive based human action recognition in videos or still images","author":"Thurau","year":"2008"},{"key":"10.1016\/j.asoc.2025.114521_bib0220","doi-asserted-by":"crossref","first-page":"940","DOI":"10.1109\/TAI.2023.3278650","article-title":"Generative augmentation-driven prediction of diverse visual scanpaths in images","volume":"5","author":"Verma","year":"2024","journal-title":"IEEE Trans. Artific. Intell."},{"key":"10.1016\/j.asoc.2025.114521_bib0225","series-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","first-page":"84","article-title":"Space-variant descriptor sampling for action recognition based on saliency and eye movements","author":"Vig","year":"2012"},{"key":"10.1016\/j.asoc.2025.114521_bib0230","series-title":"Int. Conf. Multimedia Model","first-page":"154","article-title":"Pose-enhanced relation feature for action recognition in still images","author":"Wang","year":"2022"},{"key":"10.1016\/j.asoc.2025.114521_bib0235","article-title":"Leveraging uncertainty-guided spatial\u2013temporal mutuality for skeleton-based action recognition","author":"Wu","year":"2025","journal-title":"Appl. Soft Comput."},{"key":"10.1016\/j.asoc.2025.114521_bib0240","series-title":"Proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP)","first-page":"2450","article-title":"An improved deep relation network for action recognition in still images","author":"Wu","year":"2021"},{"key":"10.1016\/j.asoc.2025.114521_bib0245","series-title":"Proc. IEEE Int. Conf. Multimedia Expo (ICME)","first-page":"1042","article-title":"Entanglement loss for context-based still image action recognition","author":"Xin","year":"2019"},{"key":"10.1016\/j.asoc.2025.114521_bib0250","doi-asserted-by":"crossref","first-page":"1116","DOI":"10.1109\/TCDS.2017.2783944","article-title":"Multibranch attention networks for action recognition in still images","volume":"10","author":"Yan","year":"2017","journal-title":"IEEE Trans. Cogn. Develop. Syst."},{"key":"10.1016\/j.asoc.2025.114521_bib0255","article-title":"Hierarchical adaptive multi-scale hypergraph attention convolution network for skeleton-based action recognition","author":"Yang","year":"2025","journal-title":"Appl. Soft Comput."},{"key":"10.1016\/j.asoc.2025.114521_bib0260","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"2030","article-title":"Recognizing human actions from still images with latent poses","author":"Yang","year":"2010"},{"key":"10.1016\/j.asoc.2025.114521_bib0265","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"9","article-title":"Grouplet: a structured image representation for recognizing human and object interactions","author":"Yao","year":"2010"},{"key":"10.1016\/j.asoc.2025.114521_bib0270","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recogn. (CVPR)","first-page":"17","article-title":"Modeling mutual context of object and human pose in human-object interaction activities","author":"Yao","year":"2010"},{"key":"10.1016\/j.asoc.2025.114521_bib0275","series-title":"Proc. IEEE Int. Conf. Comput. Vis. (ICCV)","first-page":"1331","article-title":"Human action recognition by learning bases of action attributes and parts","author":"Yao","year":"2011"},{"key":"10.1016\/j.asoc.2025.114521_bib0280","series-title":"Proc. Asian Conf. Comp. Vis. (ACCV)","first-page":"50","article-title":"Discriminative orderlet mining for real-time recognition of human-object interaction","author":"Yu","year":"2015"},{"key":"10.1016\/j.asoc.2025.114521_bib0285","doi-asserted-by":"crossref","first-page":"5479","DOI":"10.1109\/TIP.2016.2605305","article-title":"Action recognition in still images with minimum annotation efforts","volume":"25","author":"Zhang","year":"2016","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.asoc.2025.114521_bib0290","doi-asserted-by":"crossref","first-page":"134","DOI":"10.1016\/j.patrec.2016.08.020","article-title":"Semantic parts based top-down pyramid for action recognition","volume":"84","author":"Zhao","year":"2016","journal-title":"Pattern Recogn. Lett."},{"key":"10.1016\/j.asoc.2025.114521_bib0295","series-title":"Proc. IEEE Int. Conf. Comput. Vis. (ICCV)","first-page":"3391","article-title":"Single image action recognition using semantic body part actions","author":"Zhao","year":"2017"},{"key":"10.1016\/j.asoc.2025.114521_bib0300","series-title":"Proc. IEEE Int. Conf. Image Process. (ICIP)","first-page":"785","article-title":"Action recognition in still images using a combination of human pose and context information","author":"Zheng","year":"2012"},{"key":"10.1016\/j.asoc.2025.114521_bib0305","doi-asserted-by":"crossref","DOI":"10.1016\/j.asoc.2022.109884","article-title":"Spatial and temporal saliency based four-stream network with multi-task learning for action recognition","volume":"132","author":"Zong","year":"2023","journal-title":"Appl. Soft Comput."}],"container-title":["Applied Soft Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1568494625018344?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1568494625018344?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T04:16:22Z","timestamp":1773980182000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1568494625018344"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":61,"alternative-id":["S1568494625018344"],"URL":"https:\/\/doi.org\/10.1016\/j.asoc.2025.114521","relation":{},"ISSN":["1568-4946"],"issn-type":[{"value":"1568-4946","type":"print"}],"subject":[],"published":{"date-parts":[[2026,3]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Dynamic context learning using multiple visual scanpaths for action classification in still images","name":"articletitle","label":"Article Title"},{"value":"Applied Soft Computing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.asoc.2025.114521","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"114521"}}