{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,7,8]],"date-time":"2025-07-08T12:51:36Z","timestamp":1751979096084,"version":"3.37.3"},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"17","license":[{"start":{"date-parts":[[2024,4,16]],"date-time":"2024-04-16T00:00:00Z","timestamp":1713225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,4,16]],"date-time":"2024-04-16T00:00:00Z","timestamp":1713225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2024,6]]},"DOI":"10.1007\/s00521-024-09655-5","type":"journal-article","created":{"date-parts":[[2024,4,16]],"date-time":"2024-04-16T19:01:27Z","timestamp":1713294087000},"page":"9945-9961","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Selective arguments representation with dual relation-aware network for video situation recognition"],"prefix":"10.1007","volume":"36","author":[{"given":"Wei","family":"Liu","sequence":"first","affiliation":[]},{"given":"Qing","family":"He","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4843-1953","authenticated-orcid":false,"given":"Chao","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Yan","family":"Peng","sequence":"additional","affiliation":[]},{"given":"Shaorong","family":"Xie","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,4,16]]},"reference":[{"key":"9655_CR1","unstructured":"Kay W, Carreira J, Simonyan K, Zhang B, Hillier C, Vijayanarasimhan S, Viola F, Green T, Back T, Natsev P, Suleyman M, Zisserman A (2017) The kinetics human action video dataset. CoRR arXiv:1705.06950"},{"issue":"26","key":"9655_CR2","doi-asserted-by":"publisher","first-page":"18999","DOI":"10.1007\/s00521-023-08741-4","volume":"35","author":"IG Aguilar","year":"2023","unstructured":"Aguilar IG, Garc\u00eda-Gonz\u00e1lez J, Baena RML, L\u00f3pez-Rubio E (2023) Object detection in traffic videos: an optimized approach using super-resolution and maximal clique algorithm. Neural Comput Appl 35(26):18999\u201319013","journal-title":"Neural Comput Appl"},{"key":"9655_CR3","doi-asserted-by":"crossref","unstructured":"Heilbron FC, Escorcia V, Ghanem B, Niebles JC (2015) Activitynet: a large-scale video benchmark for human activity understanding. In: CVPR, pp 961\u2013970","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"9655_CR4","doi-asserted-by":"crossref","unstructured":"Gu C, Sun C, Ross DA, Vondrick C, Pantofaru C, Li Y, Vijayanarasimhan S, Toderici G, Ricco S, Sukthankar R, Schmid C, Malik J (2018) AVA: a video dataset of spatio-temporally localized atomic visual actions. In: CVPR, pp 6047\u20136056","DOI":"10.1109\/CVPR.2018.00633"},{"key":"9655_CR5","doi-asserted-by":"crossref","unstructured":"Venugopalan S, Rohrbach M, Donahue J, Mooney RJ, Darrell T, Saenko K (2015) Sequence to sequence - video to text. In: ICCV, pp 4534\u20134542","DOI":"10.1109\/ICCV.2015.515"},{"key":"9655_CR6","doi-asserted-by":"crossref","unstructured":"Pan Y, Yao T, Li H, Mei T (2017) Video captioning with transferred semantic attributes. In: CVPR, pp 984\u2013992","DOI":"10.1109\/CVPR.2017.111"},{"key":"9655_CR7","doi-asserted-by":"crossref","unstructured":"Mun J, Yang L, Ren Z, Xu N, Han B (2019) Streamlined dense video captioning. In: CVPR, pp 6588\u20136597","DOI":"10.1109\/CVPR.2019.00675"},{"key":"9655_CR8","doi-asserted-by":"crossref","unstructured":"Madake J, Bhatlawande S, Purandare S, Shilaskar S, Nikhare Y (2022) Dense video captioning using bilstm encoder. In: 2022 3rd international conference for emerging technology (INCET), pp 1\u20136","DOI":"10.1109\/INCET54531.2022.9824569"},{"issue":"9","key":"9655_CR9","doi-asserted-by":"publisher","first-page":"2673","DOI":"10.1049\/ipr2.12819","volume":"17","author":"Y Qian","year":"2023","unstructured":"Qian Y, Mao Y, Chen Z, Li C, Bloh OT, Huang Q (2023) Dense video captioning based on local attention. IET Image Process 17(9):2673\u20132685","journal-title":"IET Image Process"},{"key":"9655_CR10","doi-asserted-by":"crossref","unstructured":"Sadhu A, Gupta T, Yatskar M, Nevatia R, Kembhavi A (2021) Visual semantic role labeling for video understanding. In: CVPR, pp 5589\u20135600","DOI":"10.1109\/CVPR46437.2021.00554"},{"key":"9655_CR11","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser L, Polosukhin I (2017) Attention is all you need. In: NIPS, pp 5998\u20136008"},{"key":"9655_CR12","doi-asserted-by":"crossref","unstructured":"Yang G, Li M, Zhang J, Lin X, Ji H, Chang S (2023) Video event extraction via tracking visual states of arguments. In: AAAI, pp 3136\u20133144","DOI":"10.1609\/aaai.v37i3.25418"},{"issue":"8","key":"9655_CR13","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"key":"9655_CR14","doi-asserted-by":"publisher","first-page":"203","DOI":"10.1016\/j.neunet.2020.06.006","volume":"129","author":"D Bacciu","year":"2020","unstructured":"Bacciu D, Errica F, Micheli A, Podda M (2020) A gentle introduction to deep learning for graphs. Neural Netw 129:203\u2013221","journal-title":"Neural Netw"},{"key":"9655_CR15","unstructured":"Kipf TN, Welling M (2017) Semi-supervised classification with graph convolutional networks. In: ICLR (Poster)"},{"key":"9655_CR16","doi-asserted-by":"crossref","unstructured":"Carreira J, Zisserman A (2017) Quo vadis, action recognition? A new model and the kinetics dataset. In: CVPR, pp 4724\u20134733","DOI":"10.1109\/CVPR.2017.502"},{"key":"9655_CR17","doi-asserted-by":"crossref","unstructured":"Feichtenhofer C, Fan H, Malik J, He K (2019) Slowfast networks for video recognition. In: ICCV, pp 6201\u20136210","DOI":"10.1109\/ICCV.2019.00630"},{"key":"9655_CR18","doi-asserted-by":"crossref","unstructured":"Wang L, Xiong Y, Wang Z, Qiao Y, Lin D, Tang X, Gool LV (2016) Temporal segment networks: towards good practices for deep action recognition. In: ECCV (8). Lecture notes in computer science, vol 9912, pp 20\u201336","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"9655_CR19","doi-asserted-by":"crossref","unstructured":"Efros AA, Berg AC, Mori G, Malik J (2003) Recognizing action at a distance. In: ICCV, pp 726\u2013733","DOI":"10.1109\/ICCV.2003.1238420"},{"key":"9655_CR20","doi-asserted-by":"crossref","unstructured":"Ikizler N, Forsyth DA (2007) Searching video for complex activities with finite state models. In: CVPR","DOI":"10.1109\/CVPR.2007.383168"},{"issue":"3","key":"9655_CR21","doi-asserted-by":"publisher","first-page":"337","DOI":"10.1007\/s11263-008-0142-8","volume":"80","author":"N Ikizler","year":"2008","unstructured":"Ikizler N, Forsyth DA (2008) Searching for complex human activities with no visual examples. Int J Comput Vis 80(3):337\u2013357","journal-title":"Int J Comput Vis"},{"key":"9655_CR22","doi-asserted-by":"crossref","unstructured":"Herzig R, Levi E, Xu H, Gao H, Brosh E, Wang X, Globerson A, Darrell T (2019) Spatio-temporal action graph networks. In: ICCV Workshops, pp 2347\u20132356","DOI":"10.1109\/ICCVW.2019.00288"},{"issue":"25","key":"9655_CR23","doi-asserted-by":"publisher","first-page":"18487","DOI":"10.1007\/s00521-023-08671-1","volume":"35","author":"J Kong","year":"2023","unstructured":"Kong J, Wang S, Jiang M, Liu T (2023) Multi-stream ternary enhanced graph convolutional network for skeleton-based action recognition. Neural Comput Appl 35(25):18487\u201318504","journal-title":"Neural Comput Appl"},{"key":"9655_CR24","doi-asserted-by":"crossref","unstructured":"Zeng R, Huang W, Gan C, Tan M, Rong Y, Zhao P, Huang J (2019) Graph convolutional networks for temporal action localization. In: ICCV, pp 7093\u20137102","DOI":"10.1109\/ICCV.2019.00719"},{"key":"9655_CR25","unstructured":"Cui S, Yu B, Liu T, Zhang Z, Wang X, Shi J (2020) Event detection with relation-aware graph convolutional neural networks. CoRR arXiv:2002.10757"},{"key":"9655_CR26","doi-asserted-by":"crossref","unstructured":"Xiao S, Chen L, Gao K, Wang Z, Yang Y, Zhang Z, Xiao J (2022) Rethinking multi-modal alignment in multi-choice videoqa from feature and sample perspectives. In: EMNLP, pp 8188\u20138198","DOI":"10.18653\/v1\/2022.emnlp-main.561"},{"key":"9655_CR27","doi-asserted-by":"crossref","unstructured":"Zhang Z, Lan C, Zeng W, Jin X, Chen Z (2020) Relation-aware global attention for person re-identification. In: CVPR, pp 3183\u20133192","DOI":"10.1109\/CVPR42600.2020.00325"},{"key":"9655_CR28","doi-asserted-by":"publisher","first-page":"14500","DOI":"10.1109\/ACCESS.2023.3243952","volume":"11","author":"Y Li","year":"2023","unstructured":"Li Y, Ma Y, Zhou Y, Yu X (2023) Semantic-guided selective representation for image captioning. IEEE Access 11:14500\u201314510","journal-title":"IEEE Access"},{"key":"9655_CR29","doi-asserted-by":"crossref","unstructured":"Qi S, Yang L, Li C, Huang Y (2022) Dual relation-aware synergistic attention network for image-text matching. In: 2022 11th international conference on communications, circuits and systems (ICCCAS), pp 251\u2013256","DOI":"10.1109\/ICCCAS55266.2022.9824715"},{"key":"9655_CR30","doi-asserted-by":"crossref","unstructured":"Zeng R, Huang W, Gan C, Tan M, Rong Y, Zhao P, Huang J (2019) Graph convolutional networks for temporal action localization. In: ICCV, pp 7093\u20137102","DOI":"10.1109\/ICCV.2019.00719"},{"key":"9655_CR31","unstructured":"Herdade S, Kappeler A, Boakye K, Soares J (2019) Image captioning: transforming objects into words. In: NeurIPS, pp 11135\u201311145"},{"key":"9655_CR32","doi-asserted-by":"publisher","first-page":"812","DOI":"10.1016\/j.ins.2022.12.018","volume":"623","author":"S Dubey","year":"2023","unstructured":"Dubey S, Olimov F, Rafique MA, Kim J, Jeon M (2023) Label-attention transformer with geometrically coherent objects for image captioning. Inf Sci 623:812\u2013831","journal-title":"Inf Sci"},{"key":"9655_CR33","doi-asserted-by":"crossref","unstructured":"Vedantam R, Zitnick CL, Parikh D (2015) Cider: consensus-based image description evaluation. In: CVPR, pp 4566\u20134575","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"9655_CR34","unstructured":"Lin C-Y (2004) ROUGE: a package for automatic evaluation of summaries. In: Text summarization branches Out, pp 74\u201381"},{"key":"9655_CR35","doi-asserted-by":"crossref","unstructured":"Chen Y, Cao Y, Hu H, Wang L (2020) Memory enhanced global-local aggregation for video object detection. In: CVPR, pp 10334\u201310343","DOI":"10.1109\/CVPR42600.2020.01035"},{"key":"9655_CR36","doi-asserted-by":"crossref","unstructured":"Gao K, Chen L, Huang Y, Xiao J (2021) Video relation detection via tracklet based visual transformer. In: ACM Multimedia, pp 4833\u20134837","DOI":"10.1145\/3474085.3479231"},{"key":"9655_CR37","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: CVPR, pp 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"9655_CR38","doi-asserted-by":"crossref","unstructured":"Wojke N, Bewley A, Paulus D (2017) Simple online and realtime tracking with a deep association metric. In: ICIP, pp 3645\u20133649","DOI":"10.1109\/ICIP.2017.8296962"},{"key":"9655_CR39","doi-asserted-by":"crossref","unstructured":"Gao K, Chen L, Niu Y, Shao J, Xiao J (2022) Classification-then-grounding: reformulating video scene graphs as temporal bipartite graphs. In: CVPR, pp 19475\u201319484","DOI":"10.1109\/CVPR52688.2022.01889"},{"key":"9655_CR40","doi-asserted-by":"crossref","unstructured":"Shang X, Di D, Xiao J, Cao Y, Yang X, Chua T (2019) Annotating objects and relations in user-generated videos. In: ICMR, pp 279\u2013287","DOI":"10.1145\/3323873.3325056"},{"key":"9655_CR41","unstructured":"Bertasius G, Wang H, Torresani L (2021) Is space-time attention all you need for video understanding? In: ICML. Proceedings of Machine Learning Research, vol 139, pp 813\u2013824"},{"key":"9655_CR42","doi-asserted-by":"crossref","unstructured":"Li Y, Wu C, Fan H, Mangalam K, Xiong B, Malik J, Feichtenhofer C (2022) Mvitv2: improved multiscale vision transformers for classification and detection. In: CVPR, pp 4794\u20134804","DOI":"10.1109\/CVPR52688.2022.00476"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-024-09655-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-024-09655-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-024-09655-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,5,27]],"date-time":"2024-05-27T08:17:34Z","timestamp":1716797854000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-024-09655-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,4,16]]},"references-count":42,"journal-issue":{"issue":"17","published-print":{"date-parts":[[2024,6]]}},"alternative-id":["9655"],"URL":"https:\/\/doi.org\/10.1007\/s00521-024-09655-5","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"type":"print","value":"0941-0643"},{"type":"electronic","value":"1433-3058"}],"subject":[],"published":{"date-parts":[[2024,4,16]]},"assertion":[{"value":"21 August 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 March 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 April 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no Conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}