{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,11]],"date-time":"2026-07-11T17:13:35Z","timestamp":1783790015064,"version":"3.55.0"},"reference-count":46,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2025,3,24]],"date-time":"2025-03-24T00:00:00Z","timestamp":1742774400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,3,24]],"date-time":"2025-03-24T00:00:00Z","timestamp":1742774400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"IITP","award":["2022-0-00688"],"award-info":[{"award-number":["2022-0-00688"]}]},{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"publisher","award":["RS-2024-00451909"],"award-info":[{"award-number":["RS-2024-00451909"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Machine Vision and Applications"],"published-print":{"date-parts":[[2025,5]]},"DOI":"10.1007\/s00138-025-01676-x","type":"journal-article","created":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T22:38:07Z","timestamp":1743028687000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":14,"title":["ViCap-AD: video caption-based weakly supervised video anomaly detection"],"prefix":"10.1007","volume":"36","author":[{"given":"Junwoo","family":"Lim","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Juyeob","family":"Lee","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hyunji","family":"Kim","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Eunil","family":"Park","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2025,3,24]]},"reference":[{"issue":"1","key":"1676_CR1","first-page":"1","volume":"18","author":"Z Li","year":"2023","unstructured":"Li, Z., Zhu, Y., Van Leeuwen, M.: A survey on explainable anomaly detection. ACM Trans. Knowl. Discov. Data 18(1), 1\u201354 (2023)","journal-title":"ACM Trans. Knowl. Discov. Data"},{"issue":"6","key":"1676_CR2","doi-asserted-by":"publisher","first-page":"865","DOI":"10.1109\/TSMCC.2011.2178594","volume":"42","author":"OP Popoola","year":"2012","unstructured":"Popoola, O.P., Wang, K.: Video-based abnormal human behavior recognition\u2013a review. IEEE Trans. Syst. Man Cybernet. Part C (Appl. Rev.) 42(6), 865\u2013878 (2012)","journal-title":"IEEE Trans. Syst. Man Cybernet. Part C (Appl. Rev.)"},{"key":"1676_CR3","doi-asserted-by":"publisher","first-page":"2213","DOI":"10.1109\/TIP.2024.3374070","volume":"33","author":"P Wu","year":"2024","unstructured":"Wu, P., Liu, J., He, X., Peng, Y., Wang, P., Zhang, Y.: Toward video anomaly retrieval from video anomaly detection: new benchmarks and model. IEEE Trans. Image Process. 33, 2213\u20132225 (2024)","journal-title":"IEEE Trans. Image Process."},{"issue":"1","key":"1676_CR4","first-page":"18","volume":"36","author":"W Li","year":"2013","unstructured":"Li, W., Mahadevan, V., Vasconcelos, N.: Anomaly detection and localization in crowded scenes. IEEE Trans. Pattern Anal. Mach. Intell. 36(1), 18\u201332 (2013)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1676_CR5","unstructured":"Zong, B., Song, Q., Min, M.R., Cheng, W., Lumezanu, C., Cho, D., Chen, H.: Deep autoencoding gaussian mixture model for unsupervised anomaly detection. In: Proceeding of ICLR \u201918 (2018)"},{"key":"1676_CR6","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3450734","author":"Y Zhou","year":"2024","unstructured":"Zhou, Y., Qu, Y., Xu, X., Shen, F., Song, J., Shen, H.T.: Batchnorm-based weakly supervised video anomaly detection. IEEE Trans. Circ. Syst. Video Technol. (2024). https:\/\/doi.org\/10.1109\/TCSVT.2024.3450734","journal-title":"IEEE Trans. Circ. Syst. Video Technol."},{"key":"1676_CR7","doi-asserted-by":"publisher","first-page":"4923","DOI":"10.1109\/TIP.2024.3451935","volume":"33","author":"Y Pu","year":"2024","unstructured":"Pu, Y., Wu, X., Yang, L., Wang, S.: Learning prompt-enhanced context features for weakly-supervised video anomaly detection. IEEE Trans. Image Process. 33, 4923\u20134936 (2024)","journal-title":"IEEE Trans. Image Process."},{"key":"1676_CR8","doi-asserted-by":"publisher","first-page":"329","DOI":"10.1016\/j.patcog.2017.10.009","volume":"77","author":"M-A Carbonneau","year":"2018","unstructured":"Carbonneau, M.-A., Cheplygina, V., Granger, E., Gagnon, G.: Multiple instance learning: A survey of problem characteristics and applications. Patt. Recogn. 77, 329\u2013353 (2018)","journal-title":"Patt. Recogn."},{"key":"1676_CR9","doi-asserted-by":"crossref","unstructured":"Tan, W., Yao, Q., Liu, J.: Overlooked video classification in weakly supervised video anomaly detection. In: Proceeding of WACV \u201924, pp. 202\u2013210 (2024)","DOI":"10.1109\/WACVW60836.2024.00029"},{"issue":"2","key":"1676_CR10","doi-asserted-by":"publisher","first-page":"2017","DOI":"10.1109\/TASE.2023.3251383","volume":"21","author":"M Lee","year":"2023","unstructured":"Lee, M., Ji, H., Park, E.: Deepaup: a deep neural network framework for abnormal underground heat transport pipelines. IEEE Trans. Autom. Sci. Eng. 21(2), 2017\u20132026 (2023)","journal-title":"IEEE Trans. Autom. Sci. Eng."},{"key":"1676_CR11","doi-asserted-by":"crossref","unstructured":"Liu, Z., Nie, Y., Long, C., Zhang, Q., Li, G.: A hybrid video anomaly detection framework via memory-augmented flow reconstruction and flow-guided frame prediction. In: Proceeding of ICCV \u201921, pp. 13588\u201313597 (2021)","DOI":"10.1109\/ICCV48922.2021.01333"},{"key":"1676_CR12","doi-asserted-by":"crossref","unstructured":"Luo, W., Liu, W., Gao, S.: A revisit of sparse coding based anomaly detection in stacked rnn framework. In: Proceeding of ICCV \u201917, pp. 341\u2013349 (2017)","DOI":"10.1109\/ICCV.2017.45"},{"key":"1676_CR13","doi-asserted-by":"crossref","unstructured":"Nguyen, T.-N., Meunier, J.: Anomaly detection in video sequence with appearance-motion correspondence. In: Proceeding of ICCV \u201919, pp. 1273\u20131283 (2019)","DOI":"10.1109\/ICCV.2019.00136"},{"key":"1676_CR14","doi-asserted-by":"crossref","unstructured":"Park, H., Noh, J., Ham, B.: Learning memory-guided normality for anomaly detection. In: Proceeding of CVPR \u201920, pp. 14372\u201314381 (2020)","DOI":"10.1109\/CVPR42600.2020.01438"},{"key":"1676_CR15","doi-asserted-by":"crossref","unstructured":"Abati, D., Porrello, A., Calderara, S., Cucchiara, R.: Latent space autoregression for novelty detection. In: Proc. of CVPR \u201919, pp. 481\u2013490 (2019)","DOI":"10.1109\/CVPR.2019.00057"},{"key":"1676_CR16","doi-asserted-by":"crossref","unstructured":"Georgescu, M.-I., Barbalau, A., Ionescu, R.T., Khan, F.S., Popescu, M., Shah, M.: Anomaly detection in video via self-supervised and multi-task learning. In: Proceeding of CVPR \u201921, pp. 12742\u201312752 (2021)","DOI":"10.1109\/CVPR46437.2021.01255"},{"key":"1676_CR17","doi-asserted-by":"crossref","unstructured":"Pang, G., Yan, C., Shen, C., Hengel, A.v.d., Bai, X.: Self-trained deep ordinal regression for end-to-end video anomaly detection. In: Proceeding of CVPR \u201920, pp. 12173\u201312182 (2020)","DOI":"10.1109\/CVPR42600.2020.01219"},{"key":"1676_CR18","doi-asserted-by":"crossref","unstructured":"Sultani, W., Chen, C., Shah, M.: Real-world anomaly detection in surveillance videos. In: Proceeding of CVPR \u201918, pp. 6479\u20136488 (2018)","DOI":"10.1109\/CVPR.2018.00678"},{"key":"1676_CR19","doi-asserted-by":"crossref","unstructured":"Li, W., Vasconcelos, N.: Multiple instance learning for soft bags via top instances. In: Proceeding of CVPR \u201915, pp. 4277\u20134285 (2015)","DOI":"10.1109\/CVPR.2015.7299056"},{"issue":"18","key":"1676_CR20","doi-asserted-by":"publisher","first-page":"6125","DOI":"10.3390\/s21186125","volume":"21","author":"D Lv","year":"2021","unstructured":"Lv, D., Luktarhan, N., Chen, Y.: Conanomaly: content-based anomaly detection for system logs. Sensors 21(18), 6125 (2021)","journal-title":"Sensors"},{"key":"1676_CR21","doi-asserted-by":"crossref","unstructured":"Feng, J.-C., Hong, F.-T., Zheng, W.-S.: Mist: Multiple instance self-training framework for video anomaly detection. In: Proceeding of CVPR \u201921, pp. 14009\u201314018 (2021)","DOI":"10.1109\/CVPR46437.2021.01379"},{"key":"1676_CR22","doi-asserted-by":"crossref","unstructured":"Tian, Y., Pang, G., Chen, Y., Singh, R., Verjans, J.W., Carneiro, G.: Weakly-supervised video anomaly detection with robust temporal feature magnitude learning. In: Proceeding of ICCV \u201921, pp. 4975\u20134986 (2021)","DOI":"10.1109\/ICCV48922.2021.00493"},{"key":"1676_CR23","doi-asserted-by":"crossref","unstructured":"Zhen, Y., Guo, Y., Wei, J., Bao, X., Huang, D.: Multi-scale background suppression anomaly detection in surveillance videos. In: Proceeding of ICIP \u201921. IEEE, pp. 1114\u20131118 (2021)","DOI":"10.1109\/ICIP42928.2021.9506580"},{"key":"1676_CR24","doi-asserted-by":"crossref","unstructured":"Pu, Y., Wu, X.: Locality-aware attention network with discriminative dynamics learning for weakly supervised anomaly detection. In: Proceeding of ICME \u201922. IEEE, pp. 1\u20136 (2022)","DOI":"10.1109\/ICME52920.2022.9859718"},{"key":"1676_CR25","doi-asserted-by":"crossref","unstructured":"Chen, Y., Liu, Z., Zhang, B., Fok, W., Qi, X., Wu, Y.-C.: Mgfn: Magnitude-contrastive glance-and-focus network for weakly-supervised video anomaly detection. In: Proceeding of AAAI \u201923, vol. 37, pp. 387\u2013395 (2023)","DOI":"10.1609\/aaai.v37i1.25112"},{"key":"1676_CR26","doi-asserted-by":"publisher","first-page":"109765","DOI":"10.1016\/j.patcog.2023.109765","volume":"143","author":"W Shao","year":"2023","unstructured":"Shao, W., Xiao, R., Rajapaksha, P., Wang, M., Crespi, N., Luo, Z., Minerva, R.: Video anomaly detection with NTCN-ML: A novel TCN for multi-instance learning. Patt. Recogn. 143, 109765 (2023)","journal-title":"Patt. Recogn."},{"key":"1676_CR27","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: Proceeding of ICML \u201921. PMLR, pp. 8748\u20138763 (2021)"},{"key":"1676_CR28","doi-asserted-by":"crossref","unstructured":"Tang, M., Wang, Z., Liu, Z., Rao, F., Li, D., Li, X.: Clip4caption: Clip for video caption. In: Proceeding of ACM MM \u201921, pp. 4858\u20134862 (2021)","DOI":"10.1145\/3474085.3479207"},{"key":"1676_CR29","doi-asserted-by":"publisher","first-page":"293","DOI":"10.1016\/j.neucom.2022.07.028","volume":"508","author":"H Luo","year":"2022","unstructured":"Luo, H., Ji, L., Zhong, M., Chen, Y., Lei, W., Duan, N., Li, T.: Clip4clip: an empirical study of clip for end to end video clip retrieval and captioning. Neurocomputing 508, 293\u2013304 (2022)","journal-title":"Neurocomputing"},{"key":"1676_CR30","doi-asserted-by":"crossref","unstructured":"Wu, P., Zhou, X., Pang, G., Zhou, L., Yan, Q., Wang, P., Zhang, Y.: Vadclip: Adapting vision-language models for weakly supervised video anomaly detection. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 6074\u20136082 (2024)","DOI":"10.1609\/aaai.v38i6.28423"},{"key":"1676_CR31","unstructured":"Zhang, H., Xu, X., Wang, X., Zuo, J., Han, C., Huang, X., Gao, C., Wang, Y., Sang, N.: Holmes-VAD: towards unbiased and explainable video anomaly detection via multi-modal LLM. arxiv:2406.12235 (2024)"},{"key":"1676_CR32","doi-asserted-by":"crossref","unstructured":"Sun, Z., Fang, Y., Wu, T., Zhang, P., Zang, Y., Kong, S., Xiong, Y., Lin, D., Wang, J.: Alpha-clip: A clip model focusing on wherever you want. In: Proceeding of CVPR \u201924, pp. 13019\u201313029 (2024)","DOI":"10.1109\/CVPR52733.2024.01237"},{"key":"1676_CR33","doi-asserted-by":"crossref","unstructured":"Kim, J., Ahn, H., Park, E.: Multi-pop: Enhancing user engagement with content-based multimodal popularity prediction in social media. Expert Systems, 13707 (2024)","DOI":"10.1111\/exsy.13707"},{"key":"1676_CR34","unstructured":"Ilse, M., Tomczak, J., Welling, M.: Attention-based deep multiple instance learning. In: Proceeding of ICML \u201918. PMLR, pp. 2127\u20132136 (2018)"},{"key":"1676_CR35","unstructured":"Devlin, J., Chang, M.-W., Lee, K., Toutanova, K.: BERT: pre-training of Deep Bidirectional Transformers for Language Understanding. arxiv:1810.04805 (2019)"},{"issue":"3","key":"1676_CR36","doi-asserted-by":"publisher","first-page":"3862","DOI":"10.1109\/TCSS.2023.3329434","volume":"11","author":"S Lee","year":"2024","unstructured":"Lee, S., Kim, S., Chu, Y., Choi, J., Park, E., Woo, S.S.: Eae-gan: emotion-aware emoji generative adversarial network for computational modeling diverse and fine-grained human emotions. IEEE Trans. Comput. Social Syst. 11(3), 3862\u20133872 (2024)","journal-title":"IEEE Trans. Comput. Social Syst."},{"key":"1676_CR37","doi-asserted-by":"publisher","first-page":"124553","DOI":"10.1016\/j.eswa.2024.124553","volume":"255","author":"S Kim","year":"2024","unstructured":"Kim, S., Park, E.: STAD-GCN: spatial-temporal attention-based dynamic graph convolutional network for retail market price prediction. Expert Syst. Appl. 255, 124553 (2024)","journal-title":"Expert Syst. Appl."},{"issue":"14","key":"1676_CR38","doi-asserted-by":"publisher","first-page":"e34016","DOI":"10.1016\/j.heliyon.2024.e34016","volume":"10","author":"D Lee","year":"2024","unstructured":"Lee, D., Lee, J., Park, E.: Automated vehicle damage classification using the three-quarter view car damage dataset and deep learning approaches. Heliyon 10(14), e34016 (2024)","journal-title":"Heliyon"},{"key":"1676_CR39","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? A new model and the kinetics dataset. In: Proceeding of CVPR \u201917, pp. 6299\u20136308 (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"1676_CR40","doi-asserted-by":"crossref","unstructured":"Aberkane, S., Elarbi, M.: Deep reinforcement learning for real-world anomaly detection in surveillance videos. In: Proceeding of ISPA \u201919. IEEE, pp. 1\u20135 (2019)","DOI":"10.1109\/ISPA48434.2019.8966795"},{"issue":"4","key":"1676_CR41","doi-asserted-by":"publisher","first-page":"310","DOI":"10.1109\/ICJECE.2023.3320958","volume":"46","author":"T-Y Kim","year":"2023","unstructured":"Kim, T.-Y., Park, E.: Detecting wireless signal noise in mobile radio communications using spatiotemporal anogan-based approaches. IEEE Canad. J. Electr. Comput. Eng. 46(4), 310\u2013321 (2023)","journal-title":"IEEE Canad. J. Electr. Comput. Eng."},{"key":"1676_CR42","doi-asserted-by":"crossref","unstructured":"Wu, P., Liu, J., Shi, Y., Sun, Y., Shao, F., Wu, Z., Yang, Z.: Not only look, but also listen: Learning multimodal violence detection under weak supervision. In: Proceeding of ECCV \u201920. Springer, pp. 322\u2013339 (2020)","DOI":"10.1007\/978-3-030-58577-8_20"},{"issue":"2","key":"1676_CR43","doi-asserted-by":"publisher","first-page":"121","DOI":"10.1023\/A:1009715923555","volume":"2","author":"CJ Burges","year":"1998","unstructured":"Burges, C.J.: A tutorial on support vector machines for pattern recognition. Data Min. Knowl. Disc. 2(2), 121\u2013167 (1998)","journal-title":"Data Min. Knowl. Disc."},{"key":"1676_CR44","doi-asserted-by":"publisher","first-page":"5","DOI":"10.1023\/A:1010933404324","volume":"45","author":"L Breiman","year":"2001","unstructured":"Breiman, L.: Random forests. Mach. Learn. 45, 5\u201332 (2001)","journal-title":"Mach. Learn."},{"key":"1676_CR45","doi-asserted-by":"crossref","unstructured":"Chen, T., Guestrin, C.: Xgboost: A scalable tree boosting system. In: Proceeding of KDD \u201916, pp. 785\u2013794 (2016)","DOI":"10.1145\/2939672.2939785"},{"key":"1676_CR46","doi-asserted-by":"crossref","unstructured":"Yang, Z., Liu, J., Wu, P.: Text prompt with normality guidance for weakly supervised video anomaly detection. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 18899\u201318908 (2024)","DOI":"10.1109\/CVPR52733.2024.01788"}],"container-title":["Machine Vision and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-025-01676-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00138-025-01676-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-025-01676-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,9]],"date-time":"2025-05-09T14:29:43Z","timestamp":1746800983000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00138-025-01676-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,3,24]]},"references-count":46,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2025,5]]}},"alternative-id":["1676"],"URL":"https:\/\/doi.org\/10.1007\/s00138-025-01676-x","relation":{},"ISSN":["0932-8092","1432-1769"],"issn-type":[{"value":"0932-8092","type":"print"},{"value":"1432-1769","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,3,24]]},"assertion":[{"value":"9 September 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 March 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 March 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 March 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"61"}}