{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,27]],"date-time":"2025-10-27T18:10:18Z","timestamp":1761588618648,"version":"build-2065373602"},"reference-count":47,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"Higher Education Commission (HEC), Pakistan, through the National Research Program for Universities","award":["15873"],"award-info":[{"award-number":["15873"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/access.2025.3622638","type":"journal-article","created":{"date-parts":[[2025,10,17]],"date-time":"2025-10-17T17:42:01Z","timestamp":1760722921000},"page":"181363-181384","source":"Crossref","is-referenced-by-count":0,"title":["Real-Time Detection of Mixed-Critical Events Using Vision-Language Models"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-0779-3551","authenticated-orcid":false,"given":"Suraksha","family":"Sadhwani","sequence":"first","affiliation":[{"name":"Department of Computer Science, System Research Laboratory (Syslab), National University of Computer and Emerging Sciences (FAST-NUCES), Islamabad, Pakistan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6813-2673","authenticated-orcid":false,"given":"Jawwad Ahmed","family":"Shamsi","sequence":"additional","affiliation":[{"name":"Department of Computer Science, System Research Laboratory (Syslab), National University of Computer and Emerging Sciences (FAST-NUCES), Islamabad, Pakistan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Muhammad Burhan","family":"Khan","sequence":"additional","affiliation":[{"name":"Department of Electrical Engineering, System Research Laboratory (Syslab), National University of Computer and Emerging Sciences (FAST-NUCES), Islamabad, Pakistan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Narmeen Zakaria","family":"Bawany","sequence":"additional","affiliation":[{"name":"Faculty of Science, Jinnah University for Women, Karachi, Pakistan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1834-1810","authenticated-orcid":false,"given":"Hassan Jamil","family":"Syed","sequence":"additional","affiliation":[{"name":"Asia Pacific University of Technology and Innovation (APU), Kuala Lumpur, Malaysia"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","first-page":"489","article-title":"Convolutional neural networks for enhanced real-time traffic incident detection and image classification","volume-title":"Proc. 3rd Int. Conf. Advancement Comput. Comput. Technol. (InCACCT)","author":"Monisha"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00459"},{"key":"ref3","first-page":"1","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","author":"Li"},{"key":"ref4","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. 38th Int. Conf. Mach. Learn. (ICML)","author":"Radford"},{"key":"ref5","article-title":"Flamingo: A visual language model for few-shot learning","author":"Alayrac","year":"2022","journal-title":"arXiv:2204.14198"},{"issue":"12","key":"ref6","first-page":"1","article-title":"Image captioning via deep reinforcement learning","volume":"40","author":"Shi","year":"2018","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"ref7","article-title":"Uform-Gen: Unified multi-modal representation learning with image\u2013text pairs","author":"Wang","year":"2022","journal-title":"arxiv: 2212.05238"},{"key":"ref8","article-title":"UForm: Unified multimodal learning with text, image, and audio","author":"Mustofa","year":"2023","journal-title":"arxiv: 2303.05002"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref10","article-title":"YOLOv3: An incremental improvement","author":"Redmon","year":"2018","journal-title":"arXiv:1804.02767"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2004.10934"},{"key":"ref12","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020","journal-title":"arXiv:2010.11929"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2016.90"},{"key":"ref14","first-page":"6105","article-title":"EfficientNet: Rethinking model scaling for convolutional neural networks","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Tan"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref16","article-title":"YOLOv11 for vehicle detection: Advancements, performance, and applications in intelligent transportation systems","author":"Alif","year":"2024","journal-title":"arXiv:2410.22898"},{"key":"ref17","article-title":"The complex heavy-quark potential with the gribov-zwanziger action","author":"Debnath","year":"2023","journal-title":"arXiv:2305.16250"},{"key":"ref18","article-title":"YOLOv11: An overview of the key architectural enhancements","author":"Khanam","year":"2024","journal-title":"arXiv:2410.17725"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.91"},{"key":"ref20","article-title":"Yolov11: You only look one-level feature fusion","author":"Wang","year":"2023","journal-title":"arXiv:2303.15452"},{"key":"ref21","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Touvron"},{"issue":"1","key":"ref22","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/TPAMI.2024.3471571","article-title":"E-Vit: Expediting vision transformers via token reorganizations","volume":"46","author":"Wang","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"ref23","first-page":"104768","article-title":"Challenges and advances in vision transformers for real-world surveillance: A survey","volume":"137","author":"Wang","year":"2024","journal-title":"Image Vis. Comput."},{"issue":"2","key":"ref24","first-page":"1","article-title":"Are transformers all you need for video surveillance? a critical reviewof visual transformer models in smart cities","volume":"56","author":"Liu","year":"2024","journal-title":"ACM Comput. Surv."},{"issue":"5","key":"ref25","first-page":"1872","article-title":"Context-aware surveillance system for detecting violent activities using deep learning","volume":"10","author":"Lee","year":"2020","journal-title":"Appl. Sci."},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/1180639.1180698"},{"key":"ref27","article-title":"BLIP-2: Bootstrapping languageimage pre-training with frozen image encoders and large language models","author":"Li","year":"2023","journal-title":"arXiv:2301.12597"},{"key":"ref28","article-title":"MiniGPT-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023","journal-title":"arXiv:2304.10592"},{"key":"ref29","article-title":"Unifying multimodal pretraining and instruction tuning for vision-language understanding and generation","author":"Liu","year":"2023","journal-title":"arxiv: 2306.02089"},{"key":"ref30","article-title":"mPLUG-Owl: Modularization empowers large language models with multimodality","author":"Ye","year":"2023","journal-title":"arXiv:2304.14178"},{"key":"ref31","article-title":"OpenFlamingo: An open-source framework for training large autoregressive vision-language models","author":"Awadalla","year":"2023","journal-title":"arxiv: 2304.14198"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.3390\/drones9050347"},{"key":"ref33","article-title":"SafePLUG: Empowering multimodal LLMs with pixel-level insight and temporal grounding for traffic accident understanding","author":"Sheng","year":"2025","journal-title":"arXiv:2508.06763"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2025.3617460"},{"issue":"10","key":"ref35","first-page":"33","article-title":"A survey of visual surveillance systems","volume":"133","author":"Bhatia","year":"2016","journal-title":"Int. J. Comput. Appl."},{"key":"ref36","first-page":"110","article-title":"A survey of automated visual surveillance systems for public safety","volume":"132","author":"Zhao","year":"2017","journal-title":"Signal Process."},{"key":"ref37","first-page":"273","article-title":"Classification of video surveillance events using deep learning: A review","volume":"128","author":"Ullah","year":"2022","journal-title":"Future Gener. Comput. Syst."},{"key":"ref38","first-page":"466","article-title":"Data-efficient deep learning for intelligent video analytics: A survey","volume":"91","author":"Ullah","year":"2023","journal-title":"Inf. Fusion"},{"key":"ref39","article-title":"Data augmentation using a GAN for improved classification of violence in surveillance videos","volume":"209","author":"Ullah","year":"2021","journal-title":"Comput. Vis. Image Underst."},{"key":"ref40","first-page":"668","article-title":"Edge computing for video surveillance using container-based container orchestration","volume":"94","author":"Muhammad","year":"2019","journal-title":"Future Gener. Comput. Syst."},{"issue":"11","key":"ref41","first-page":"7558","article-title":"Efficient action detection in surveillance videos using deep spatio-temporal features","volume":"17","author":"Muhammad","year":"2021","journal-title":"IEEE Trans. Ind. Informat."},{"issue":"5","key":"ref42","first-page":"1939","article-title":"Multimodal deep learning for traffic incident classification","volume":"21","author":"Wang","year":"2020","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"ref43","first-page":"3210","article-title":"Multimodal transformer for traffic incident detection","volume-title":"Proc. IEEE Int. Conf. Big Data","author":"Sun"},{"key":"ref44","article-title":"Extract free dense video captioning from web videos","author":"Zhou","year":"2022","journal-title":"arxiv: 2209.07646"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2938758"},{"key":"ref46","first-page":"1","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Dosovitskiy"},{"issue":"16","key":"ref47","doi-asserted-by":"crossref","first-page":"137","DOI":"10.31449\/inf.v49i16.7979","article-title":"Vision transformer-based framework for AI-generated image detection in interior design","volume":"49","author":"Wang","year":"2025","journal-title":"Informatica"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10820123\/11206327.pdf?arnumber=11206327","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,27]],"date-time":"2025-10-27T18:05:59Z","timestamp":1761588359000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11206327\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":47,"URL":"https:\/\/doi.org\/10.1109\/access.2025.3622638","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2025]]}}}