{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,19]],"date-time":"2026-05-19T19:26:47Z","timestamp":1779218807815,"version":"3.51.4"},"reference-count":55,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2023,6,27]],"date-time":"2023-06-27T00:00:00Z","timestamp":1687824000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,6,27]],"date-time":"2023-06-27T00:00:00Z","timestamp":1687824000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2024,1]]},"DOI":"10.1007\/s11042-023-15978-7","type":"journal-article","created":{"date-parts":[[2023,6,27]],"date-time":"2023-06-27T15:18:36Z","timestamp":1687879116000},"page":"11187-11213","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":11,"title":["Video Captioning using Sentence Vector-enabled Convolutional Framework with Short-Connected LSTM"],"prefix":"10.1007","volume":"83","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8989-6282","authenticated-orcid":false,"given":"Dinesh","family":"Naik","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jaidhar","family":"C D","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,6,27]]},"reference":[{"key":"15978_CR1","doi-asserted-by":"publisher","first-page":"218386","DOI":"10.1109\/ACCESS.2020.3042484","volume":"8","author":"S Amirian","year":"2020","unstructured":"Amirian S, Rasheed K, Taha TR, Arabnia HR (2020) Automatic image and video caption generation with deep learning: A concise review and algorithmic overlap. IEEE Access. 8:218386\u2013400","journal-title":"IEEE Access."},{"issue":"8","key":"15978_CR2","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural computation. 9(8):1735\u201380","journal-title":"Neural computation."},{"issue":"6","key":"15978_CR3","doi-asserted-by":"publisher","first-page":"4159","DOI":"10.1007\/s11063-021-10588-6","volume":"53","author":"Y Su","year":"2021","unstructured":"Su Y, Xia H, Liang Q, Nie W (2021) Exposing DeepFake Videos Using Attention Based Convolutional LSTM Network. Neural Processing Letters. 53(6):4159\u201375","journal-title":"Neural Processing Letters."},{"issue":"9","key":"15978_CR4","doi-asserted-by":"publisher","first-page":"2045","DOI":"10.1109\/TMM.2017.2729019","volume":"19","author":"L Gao","year":"2017","unstructured":"Gao L, Guo Z, Zhang H, Xu X, Shen HT (2017) Video Captioning With Attention-Based LSTM and Semantic Consistency. IEEE Transactions on Multimedia. 19(9):2045\u201355","journal-title":"IEEE Transactions on Multimedia."},{"issue":"1","key":"15978_CR5","doi-asserted-by":"publisher","first-page":"103","DOI":"10.1007\/s11063-018-09973-5","volume":"50","author":"P Cao","year":"2019","unstructured":"Cao P, Yang Z, Sun L, Liang Y, Yang MQ, Guan R (2019) Image captioning with bidirectional semantic attention-based guiding of long short-term memory. Neural Processing Letters. 50(1):103\u201319","journal-title":"Neural Processing Letters."},{"key":"15978_CR6","doi-asserted-by":"crossref","unstructured":"Zoph B, Vasudevan V, Shlens J, Le QV. Learning Transferable Architectures for Scalable Image Recognition. CoRR. 2017;abs\/1707.07012","DOI":"10.1109\/CVPR.2018.00907"},{"key":"15978_CR7","doi-asserted-by":"crossref","unstructured":"Szegedy C, Ioffe S, Vanhoucke V, Alemi AA. Inception-v4, inception-resnet and the impact of residual connections on learning. In: Thirty-first AAAI conference on artificial intelligence; 2017.","DOI":"10.1609\/aaai.v31i1.11231"},{"key":"15978_CR8","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition; 2016. p. 770-8","DOI":"10.1109\/CVPR.2016.90"},{"key":"15978_CR9","unstructured":"Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. In: The 3rd International Conference on Learning Representations (ICLR2015); 2015. Available from: https:\/\/arxiv.org\/abs\/1409.1556"},{"key":"15978_CR10","unstructured":"Devlin J, Chang M, Lee K, Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR. 2018;abs\/1810.04805"},{"key":"15978_CR11","unstructured":"Peters ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K, et\u00a0al. Deep contextualized word representations. CoRR. 2018;abs\/1802.05365. Available from: http:\/\/arxiv.org\/abs\/1802.05365"},{"key":"15978_CR12","doi-asserted-by":"crossref","unstructured":"Pennington J, Socher R, Manning CD. GloVe: Global Vectors for Word Representation. In: Empirical Methods in Natural Language Processing (EMNLP); 2014. p. 1532-43. Available from: http:\/\/www.aclweb.org\/anthology\/D14-1162","DOI":"10.3115\/v1\/D14-1162"},{"key":"15978_CR13","doi-asserted-by":"crossref","unstructured":"Papineni K, Roukos S, Ward T, Zhu WJ. Bleu: a Method for Automatic Evaluation of Machine Translation. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics; 2002. p. 311-8","DOI":"10.3115\/1073083.1073135"},{"key":"15978_CR14","unstructured":"Banerjee S, Lavie A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In: Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization. Ann Arbor, Michigan: Association for Computational Linguistics; 2005. p. 65-72"},{"key":"15978_CR15","unstructured":"Lin CY. ROUGE: A Package for Automatic Evaluation of Summaries. In: Text Summarization Branches Out. Barcelona, Spain: Association for Computational Linguistics; 2004. p. 74-81. Available from: https:\/\/www.aclweb.org\/anthology\/W04-1013"},{"key":"15978_CR16","doi-asserted-by":"crossref","unstructured":"Vedantam R, Zitnick CL, Parikh D. CIDEr: Consensus-based Image Description Evaluation. CoRR. 2014;abs\/1411.5726","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"15978_CR17","doi-asserted-by":"crossref","unstructured":"Vinyals O, Toshev A, Bengio S, Erhan D. Show and Tell: A Neural Image Caption Generator. CoRR. 2014;abs\/1411.4555","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"15978_CR18","doi-asserted-by":"crossref","unstructured":"You Q, Jin H, Wang Z, Fang C, Luo J. Image Captioning with Semantic Attention. CoRR. 2016;abs\/1603.03925","DOI":"10.1109\/CVPR.2016.503"},{"key":"15978_CR19","doi-asserted-by":"crossref","unstructured":"Lin JC, Zhang CY. A New Memory Based on Sequence to Sequence Model for Video Captioning. In: 2021 International Conference on Security, Pattern Analysis, and Cybernetics SPAC); 2021. p. 470-6","DOI":"10.1109\/SPAC53836.2021.9539903"},{"key":"15978_CR20","doi-asserted-by":"publisher","first-page":"1799","DOI":"10.1109\/TMM.2020.3003592","volume":"23","author":"Z Zhang","year":"2021","unstructured":"Zhang Z, Xu D, Ouyang W, Zhou L (2021) Dense Video Captioning Using Graph-Based Sentence Summarization. IEEE Transactions on Multimedia. 23:1799\u2013810","journal-title":"IEEE Transactions on Multimedia."},{"issue":"5","key":"15978_CR21","first-page":"1112","volume":"42","author":"L Gao","year":"2020","unstructured":"Gao L, Li X, Song J, Shen HT (2020) Hierarchical LSTMs with Adaptive Attention for Visual Captioning. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42(5):1112\u201331","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence."},{"issue":"9","key":"15978_CR22","doi-asserted-by":"publisher","first-page":"3259","DOI":"10.1109\/TPAMI.2019.2940007","volume":"43","author":"S Liu","year":"2021","unstructured":"Liu S, Ren Z, Yuan J (2021) SibNet: Sibling Convolutional Encoder for Video Captioning. IEEE Transactions on Pattern Analysis and Machine Intelligence. 43(9):3259\u201372","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence."},{"issue":"5","key":"15978_CR23","doi-asserted-by":"publisher","first-page":"3419","DOI":"10.1109\/JIOT.2017.2779865","volume":"5","author":"N Xu","year":"2018","unstructured":"Xu N, Liu A, Nie W, Su Y (2018) Attention-in-Attention Networks for Surveillance Video Understanding in Internet of Things. IEEE Internet of Things Journal. 5(5):3419\u201329","journal-title":"IEEE Internet of Things Journal."},{"issue":"7","key":"15978_CR24","doi-asserted-by":"publisher","first-page":"2631","DOI":"10.1109\/TCYB.2018.2831447","volume":"49","author":"Y Bin","year":"2019","unstructured":"Bin Y, Yang Y, Shen F, Xie N, Shen HT, Li X (2019) Describing Video With Attention-Based Bidirectional LSTM. IEEE Transactions on Cybernetics. 49(7):2631\u201341","journal-title":"IEEE Transactions on Cybernetics."},{"issue":"10","key":"15978_CR25","doi-asserted-by":"publisher","first-page":"3047","DOI":"10.1109\/TNNLS.2018.2851077","volume":"30","author":"J Song","year":"2019","unstructured":"Song J, Guo Y, Gao L, Li X, Hanjalic A, Shen HT (2019) From Deterministic to Generative: Multimodal Stochastic RNNs for Video Captioning. IEEE Transactions on Neural Networks and Learning Systems. 30(10):3047\u201358","journal-title":"IEEE Transactions on Neural Networks and Learning Systems."},{"key":"15978_CR26","doi-asserted-by":"crossref","unstructured":"Yang Y, Zhou J, Ai J, Bin Y, Hanjalic A, Shen HT, et\u00a0al. Video Captioning by Adversarial LSTM. IEEE Transactions on Image Processing;27(11):5600-11","DOI":"10.1109\/TIP.2018.2855422"},{"key":"15978_CR27","doi-asserted-by":"crossref","unstructured":"Zheng Q, Wang C, Tao D. Syntax-Aware Action Targeting for Video Captioning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR); 2020.","DOI":"10.1109\/CVPR42600.2020.01311"},{"key":"15978_CR28","doi-asserted-by":"crossref","unstructured":"Srinivasu PN, SivaSai JG, Ijaz MF, Bhoi AK, Kim W, Kang JJ. Classification of Skin Disease Using Deep Learning Neural Networks with MobileNet V2 and LSTM. Sensors. 2021;21(8). Available from: https:\/\/www.mdpi.com\/1424-8220\/21\/8\/2852","DOI":"10.3390\/s21082852"},{"key":"15978_CR29","doi-asserted-by":"crossref","unstructured":"Yang Y, Zhang L, Du M, Bo J, Liu H, Ren L, et\u00a0al. A comparative analysis of eleven neural networks architectures for small datasets of lung images of COVID-19 patients toward improved clinical decisions. Computers in Biology and Medicine. 2021;139:104887. Available from: https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0010482521006818","DOI":"10.1016\/j.compbiomed.2021.104887"},{"key":"15978_CR30","doi-asserted-by":"crossref","unstructured":"Alok N, Krishan K, Chauhan P. Deep learning-Based image classifier for malaria cell detection. Machine Learning for Healthcare Applications. 2021:187-97","DOI":"10.1002\/9781119792611.ch12"},{"key":"15978_CR31","doi-asserted-by":"crossref","unstructured":"Negi A, Kumar K, Chauhan P. Deep neural network-based multi-class image classification for plant diseases. Agricultural informatics: automation using the IoT and machine learning. 2021:117-29","DOI":"10.1002\/9781119769231.ch6"},{"issue":"2","key":"15978_CR32","doi-asserted-by":"publisher","first-page":"78","DOI":"10.1080\/09747338.2022.2044396","volume":"63","author":"K Kumar","year":"2022","unstructured":"Kumar K, Nishanth P, Singh M, Dahiya S (2022) Image Encoder and Sentence Decoder Based Video Event Description Generating Model: A Storytelling. IETE Journal of Education. 63(2):78\u201384","journal-title":"IETE Journal of Education."},{"issue":"2","key":"15978_CR33","doi-asserted-by":"publisher","first-page":"323","DOI":"10.1109\/TMM.2017.2741423","volume":"20","author":"K Kumar","year":"2018","unstructured":"Kumar K, Shrimankar DD (2018) F-DES: Fast and Deep Event Summarization. IEEE Transactions on Multimedia. 20(2):323\u201334","journal-title":"IEEE Transactions on Multimedia."},{"key":"15978_CR34","doi-asserted-by":"crossref","unstructured":"Negi A, Kumar K. Classification and detection of citrus diseases using deep learning. In: Data science and its applications. Chapman and Hall\/CRC; 2021. p. 63-85","DOI":"10.1201\/9781003102380-4"},{"key":"15978_CR35","unstructured":"Vision OOSC. OpenCV -Object Detection,;. Accessed: 12-12-2021. https:\/\/docs.opencv.org\/3.4.3\/df\/dfb\/group__imgproc__object.html"},{"key":"15978_CR36","doi-asserted-by":"crossref","unstructured":"Zoph B, Vasudevan V, Shlens J, Le QV. Learning transferable architectures for scalable image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition; 2018. p. 8697-710","DOI":"10.1109\/CVPR.2018.00907"},{"key":"15978_CR37","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et\u00a0al. Attention Is All You Need. CoRR. 2017;abs\/1706.03762"},{"key":"15978_CR38","unstructured":"Chen D, Dolan W. Collecting Highly Parallel Data for Paraphrase Evaluation. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA: Association for Computational Linguistics; 2011. p. 190-200"},{"key":"15978_CR39","doi-asserted-by":"crossref","unstructured":"Xu J, Mei T, Yao T, Rui Y. Msr-vtt: A large video description dataset for bridging video and language. In: Proceedings of the IEEE conference on computer vision and pattern recognition; 2016. p. 5288-96","DOI":"10.1109\/CVPR.2016.571"},{"key":"15978_CR40","doi-asserted-by":"crossref","unstructured":"Venugopalan S, Rohrbach M, Donahue J, Mooney R, Darrell T, Saenko K. Sequence to Sequence \u2013 Video to Text. In: 2015 IEEE International Conference on Computer Vision (ICCV); 2015. p. 4534-42","DOI":"10.1109\/ICCV.2015.515"},{"issue":"1","key":"15978_CR41","doi-asserted-by":"publisher","first-page":"229","DOI":"10.1109\/TMM.2019.2924576","volume":"22","author":"C Yan","year":"2020","unstructured":"Yan C, Tu Y, Wang X, Zhang Y, Hao X, Zhang Y et al (2020) STAT: Spatial-Temporal Attention Mechanism for Video Captioning. IEEE Transactions on Multimedia. 22(1):229\u201341","journal-title":"IEEE Transactions on Multimedia."},{"issue":"1","key":"15978_CR42","doi-asserted-by":"publisher","first-page":"147","DOI":"10.1007\/s10044-018-00770-3","volume":"23","author":"S Sah","year":"2020","unstructured":"Sah S, Nguyen T, Ptucha R (2020) Understanding temporal structure for video captioning. Pattern Analysis and Applications. 23(1):147\u201359","journal-title":"Pattern Analysis and Applications."},{"key":"15978_CR43","doi-asserted-by":"crossref","unstructured":"Hao X, Zhou F, Li X. Scene-Edge GRU for Video Caption. In: 2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). vol.\u00a01; 2020. p. 1290-5","DOI":"10.1109\/ITNEC48623.2020.9084781"},{"issue":"12","key":"15978_CR44","doi-asserted-by":"publisher","first-page":"4312","DOI":"10.3390\/app10124312","volume":"10","author":"J Xu","year":"2020","unstructured":"Xu J, Wei H, Li L, Fu Q, Guo J (2020) Video Description Model Based on Temporal-Spatial and Channel Multi-Attention Mechanisms. Applied Sciences. 10(12):4312","journal-title":"Applied Sciences."},{"key":"15978_CR45","doi-asserted-by":"publisher","DOI":"10.1016\/j.jvcir.2020.102751","volume":"67","author":"R Wei","year":"2020","unstructured":"Wei R, Mi L, Hu Y, Chen Z (2020) Exploiting the local temporal information for video captioning. Journal of Visual Communication and Image Representation. 67:102751","journal-title":"Journal of Visual Communication and Image Representation."},{"key":"15978_CR46","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2019.102840","volume":"190","author":"M Nabati","year":"2020","unstructured":"Nabati M, Behrad A (2020) Video captioning using boosted and parallel Long Short-Term Memory networks. Computer Vision and Image Understanding. 190:102840","journal-title":"Computer Vision and Image Understanding."},{"key":"15978_CR47","doi-asserted-by":"crossref","unstructured":"Aafaq N, Akhtar N, Liu W, Gilani SZ, Mian A. Spatio-temporal dynamics and semantic attribute enriched visual encoding for video captioning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition; 2019. p. 12487-96","DOI":"10.1109\/CVPR.2019.01277"},{"key":"15978_CR48","doi-asserted-by":"crossref","unstructured":"Chen T, Zhao Q, Song J. Boundary Detector Encoder and Decoder with Soft Attention for Video Captioning. In: Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer; 2019. p. 105-15","DOI":"10.1007\/978-3-030-33982-1_9"},{"key":"15978_CR49","doi-asserted-by":"crossref","unstructured":"Lin JC, Zhang CY. A New Memory Based on Sequence to Sequence Model for Video Captioning. In: 2021 International Conference on Security, Pattern Analysis, and Cybernetics (SPAC). IEEE; 2021. p. 470-6","DOI":"10.1109\/SPAC53836.2021.9539903"},{"key":"15978_CR50","doi-asserted-by":"crossref","unstructured":"Pei W, Zhang J, Wang X, Ke L, Shen X, Tai Y. Memory-Attended Recurrent Network for Video Captioning. In: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR); 2019. p. 8339-48","DOI":"10.1109\/CVPR.2019.00854"},{"key":"15978_CR51","doi-asserted-by":"crossref","unstructured":"Yadav N, Generating Naik D, Description Short Video, using Deep-LSTM and Attention Mechanism. In, (2021) 6th International Conference for Convergence in Technology (I2CT). IEEE 2021:1\u20136","DOI":"10.1109\/I2CT51068.2021.9417907"},{"issue":"6","key":"15978_CR52","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2020.102302","volume":"57","author":"M Nabati","year":"2020","unstructured":"Nabati M, Behrad A (2020) Multi-sentence video captioning using content-oriented beam searching and multi-stage refining algorithm. Information Processing & Management. 57(6):102302","journal-title":"Information Processing & Management."},{"key":"15978_CR53","doi-asserted-by":"crossref","unstructured":"Wang J, Wang W, Huang Y, Wang L, Tan T. M3: Multimodal memory modelling for video captioning. In: Proceedings of the IEEE conference on computer vision and pattern recognition; 2018. p. 7512-20","DOI":"10.1109\/CVPR.2018.00784"},{"issue":"11","key":"15978_CR54","doi-asserted-by":"publisher","first-page":"5600","DOI":"10.1109\/TIP.2018.2855422","volume":"27","author":"Y Yang","year":"2018","unstructured":"Yang Y, Zhou J, Ai J, Bin Y, Hanjalic A, Shen HT et al (2018) Video captioning by adversarial LSTM. IEEE Transactions on Image Processing. 27(11):5600\u201311","journal-title":"IEEE Transactions on Image Processing."},{"key":"15978_CR55","unstructured":"Shekhar CC, et\u00a0al. Domain-specific semantics guided approach to video captioning. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision; 2020. p. 1587-96"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-15978-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-15978-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-15978-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,10]],"date-time":"2024-01-10T09:42:55Z","timestamp":1704879775000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-15978-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,6,27]]},"references-count":55,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2024,1]]}},"alternative-id":["15978"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-15978-7","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,6,27]]},"assertion":[{"value":"1 August 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 April 2023","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 May 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 June 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no competing interests to declare.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflicts of interest"}}]}}