{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,25]],"date-time":"2026-02-25T23:55:01Z","timestamp":1772063701825,"version":"3.50.1"},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2013,3,28]],"date-time":"2013-03-28T00:00:00Z","timestamp":1364428800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2014,9]]},"DOI":"10.1007\/s11042-013-1363-6","type":"journal-article","created":{"date-parts":[[2013,3,27]],"date-time":"2013-03-27T02:49:40Z","timestamp":1364352580000},"page":"1167-1191","source":"Crossref","is-referenced-by-count":18,"title":["A framework for automatic semantic video annotation"],"prefix":"10.1007","volume":"72","author":[{"given":"Amjad","family":"Altadmri","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Amr","family":"Ahmed","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2013,3,28]]},"reference":[{"key":"1363_CR1","doi-asserted-by":"crossref","unstructured":"Ahmed A (2009) Video representation and processing for multimedia data mining, pp 1\u201331. Semantic Mining Technologies for Multimedia Databases. Information Science Publishing","DOI":"10.4018\/978-1-60566-188-9.ch001"},{"key":"1363_CR2","doi-asserted-by":"crossref","unstructured":"Altadmri A, Ahmed A (2009) Automatic semantic video annotation in wide domain videos based on similarity and commonsense knowledgebases. In: The IEEE international conference on signal and image processing applications, pp 74\u201379","DOI":"10.1109\/ICSIPA.2009.5478723"},{"key":"1363_CR3","unstructured":"Altadmri A, Ahmed A (2009) Video databases annotation enhancing using commonsense knowledgebases for indexing and retrieval. In: The IASTED international conference on artificial intelligence and soft computing, vol 683, pp 34\u201339"},{"key":"1363_CR4","doi-asserted-by":"crossref","unstructured":"Altadmri A, Ahmed A (2009) Visualnet: commonsense knowledgebase for video and image indexing and retrieval application. In: IEEE international conference on intelligent computing and intelligent systems, vol\u00a03, pp 636\u2013641","DOI":"10.1109\/ICICISYS.2009.5358084"},{"issue":"2","key":"1363_CR5","doi-asserted-by":"crossref","first-page":"216","DOI":"10.1016\/j.cviu.2004.02.006","volume":"96","author":"A Amir","year":"2004","unstructured":"Amir A, Basu S, Iyengar G, Lin CY, Naphade M, Smith JR, Srinivasan S, Tseng B (2004) A multi-modal system for the retrieval of semantic video events. Comput Vis Image Underst 96(2):216\u2013236","journal-title":"Comput Vis Image Underst"},{"key":"1363_CR6","doi-asserted-by":"crossref","unstructured":"Bagdanov AD, Bertini M, Bimbo AD, Serra G, Torniai C (2007) Semantic annotation and retrieval of video events using multimedia ontologies. In: International conference on semantic computing, pp 713\u2013720","DOI":"10.1109\/ICSC.2007.30"},{"issue":"3","key":"1363_CR7","doi-asserted-by":"crossref","first-page":"360","DOI":"10.1016\/j.cviu.2007.09.016","volume":"110","author":"A Basharat","year":"2008","unstructured":"Basharat A, Zhai Y, Shah M (2008) Content based video matching using spatiotemporal volumes. Comput Vis Image Underst 110(3):360\u2013377","journal-title":"Comput Vis Image Underst"},{"key":"1363_CR8","doi-asserted-by":"crossref","unstructured":"Bay H, Tuytelaars T, Gool LV (2006) Surf: speeded up robust features. In: European conference on computer vision, vol 3951, pp 404\u2013417","DOI":"10.1007\/11744023_32"},{"key":"1363_CR9","doi-asserted-by":"crossref","unstructured":"Blank M, Gorelick L, Shechtman E, Irani M, Basri R (2005) Actions as space-time shapes. In: Tenth IEEE international conference on computer vision, vol\u00a02, pp 1395\u20131402","DOI":"10.1109\/ICCV.2005.28"},{"issue":"3","key":"1363_CR10","doi-asserted-by":"crossref","first-page":"500","DOI":"10.1109\/TPAMI.2010.143","volume":"33","author":"T Brox","year":"2011","unstructured":"Brox T, Malik J (2011) Large displacement optical flow: descriptor matching in variational motion estimation. IEEE Trans Pattern Anal Mach Intell 33(3):500\u2013513","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"1","key":"1363_CR11","doi-asserted-by":"crossref","first-page":"20","DOI":"10.1109\/5254.747902","volume":"14","author":"B Chandrasekaran","year":"1999","unstructured":"Chandrasekaran B, Josephson JR, Benjamins VR (1999) What are ontologies, and why do we need them? IEEE Intell Syst Their Appl 14(1):20\u201326","journal-title":"IEEE Intell Syst Their Appl"},{"key":"1363_CR12","doi-asserted-by":"crossref","unstructured":"Deng Y, Manjunath B (1997) Content-based search of video using color, texture, and motion. In: International conference on image processing, vol\u00a02, pp 534\u2013537","DOI":"10.1109\/ICIP.1997.638826"},{"key":"1363_CR13","doi-asserted-by":"crossref","unstructured":"Deng J, Dong W, Socher R, Li LJ, Li K, Fei-Fei L (2009) Imagenet: a large-scale hierarchical image database. In: Computer vision and pattern recognition, pp 248\u2013255","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1363_CR14","doi-asserted-by":"crossref","unstructured":"Farhadi A, Hejrati M, Sadeghi M, Young P, Rashtchian C, Hockenmaier J, Forsyth D (2010) Every picture tells a story: generating sentences from images. In: The 11th European conference on computer vision, vol 6314, pp 15\u201329","DOI":"10.1007\/978-3-642-15561-1_2"},{"key":"1363_CR15","doi-asserted-by":"crossref","DOI":"10.7551\/mitpress\/7287.001.0001","volume-title":"WordNet: an electronic lexical database","author":"C Fellbaum","year":"1998","unstructured":"Fellbaum C (1998) WordNet: an electronic lexical database. MIT Press, Cambridge, MA"},{"issue":"8","key":"1363_CR16","doi-asserted-by":"crossref","first-page":"1453","DOI":"10.1109\/JPROC.2010.2048990","volume":"98","author":"R Fergus","year":"2010","unstructured":"Fergus R, Fei-Fei L, Perona P, Zisserman A (2010) Learning object categories from internet image searches. Proc IEEE 98(8):1453\u20131466","journal-title":"Proc IEEE"},{"key":"1363_CR17","doi-asserted-by":"crossref","unstructured":"Guillaumin M, Mensink T, Verbeek J, Schmid C (2009) Tagprop: discriminative metric learning in nearest neighbor models for image auto-annotation. In: IEEE 12th international conference on computer vision, pp 309\u2013316","DOI":"10.1109\/ICCV.2009.5459266"},{"issue":"10","key":"1363_CR18","doi-asserted-by":"crossref","first-page":"1775","DOI":"10.1109\/TPAMI.2009.83","volume":"31","author":"A Gupta","year":"2009","unstructured":"Gupta A, Kembhavi A, Davis LS (2009) Observing human-object interactions: using spatial and functional compatibility for recognition. IEEE Trans Pattern Anal Mach Intell 31(10):1775\u20131789","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"6","key":"1363_CR19","doi-asserted-by":"crossref","first-page":"857","DOI":"10.1109\/76.867923","volume":"10","author":"N Haering","year":"2000","unstructured":"Haering N, Qian RJ, Sezan MI (2000) A semantic event-detection approach and its application to detecting hunts in wildlife video. IEEE Trans Circuits Syst Video Technol 10(6):857\u2013868","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"1363_CR20","doi-asserted-by":"crossref","unstructured":"Hauptmann AG, Chen MY, Christel M, Lin WH, Yang J (2007) A hybrid approach to improving semantic extraction of news video. In: International conference on semantic computing, pp 79\u201386","DOI":"10.1109\/ICSC.2007.68"},{"key":"1363_CR21","doi-asserted-by":"crossref","unstructured":"Hsu MH, Tsai MF, Chen HH (2008) Combining wordnet and conceptnet for automatic query expansion: a learning approach. In: Asia information retrieval symposium, vol 4993, pp 213\u2013224. Springer","DOI":"10.1007\/978-3-540-68636-1_21"},{"key":"1363_CR22","doi-asserted-by":"crossref","unstructured":"Ikizler N, Duygulu P (2007) Human action recognition using distribution of oriented rectangular patches. In: ICCV workshop on human motion understanding, modeling, capture and animation, pp 271\u2013284","DOI":"10.1007\/978-3-540-75703-0_19"},{"issue":"1","key":"1363_CR23","doi-asserted-by":"crossref","first-page":"42","DOI":"10.1109\/TMM.2009.2036235","volume":"12","author":"YG Jiang","year":"2010","unstructured":"Jiang YG, Yang J, Ngo CW, Hauptmann AG (2010) Representations of keypoint-based semantic concept detection: a comprehensive study. IEEE Trans Multimedia 12(1):42\u201353","journal-title":"IEEE Trans Multimedia"},{"issue":"2","key":"1363_CR24","doi-asserted-by":"crossref","first-page":"169","DOI":"10.1007\/s11263-009-0268-3","volume":"88","author":"A Kapoor","year":"2010","unstructured":"Kapoor A, Grauman K, Urtasun R, Darrell T (2010) Gaussian processes for object categorization. Int J Comput Vis 88(2):169\u2013188","journal-title":"Int J Comput Vis"},{"issue":"11","key":"1363_CR25","doi-asserted-by":"crossref","first-page":"33","DOI":"10.1145\/219717.219745","volume":"38","author":"DB Lenat","year":"1995","unstructured":"Lenat DB (1995) Cyc: a large-scale investment in knowledge infrastructure. Commun ACM 38(11):33\u201338","journal-title":"Commun ACM"},{"issue":"4","key":"1363_CR26","doi-asserted-by":"crossref","first-page":"211","DOI":"10.1023\/B:BTTJ.0000047600.45421.6d","volume":"22","author":"H Liu","year":"2004","unstructured":"Liu H, Singh P (2004) Conceptnet: a practical commonsense reasoning tool-kit. BT Technol J 22(4):211\u2013226","journal-title":"BT Technol J"},{"key":"1363_CR27","doi-asserted-by":"crossref","unstructured":"Liu J, Luo J, Shah M (2009) Recognizing realistic actions from videos in the wild. In: Computer vision and pattern recognition, pp 1996\u20132003","DOI":"10.1109\/CVPR.2009.5206744"},{"key":"1363_CR28","doi-asserted-by":"crossref","unstructured":"Lowe DG (1999) Object recognition from local scale-invariant features. In: 7th international conference on computer vision, vol\u00a02, pp 1150\u20131157","DOI":"10.1109\/ICCV.1999.790410"},{"key":"1363_CR29","volume-title":"Analyzing data with GraphPad prism","author":"H Motulsky","year":"1999","unstructured":"Motulsky H (1999) Analyzing data with GraphPad prism. GraphPad Software Inc, San Diego, CA"},{"key":"1363_CR30","unstructured":"Ngo CW, Jiang YG, Wei XY, Zhao W, Liu Y, Wang J, Zhu S, Chang SF (2009) Vireo\/dvmm at trecvid 2009: high-level feature extraction, automatic video search, and content-based copy detection. In: TREC video retrieval evaluation workshop online proceedings"},{"key":"1363_CR31","doi-asserted-by":"crossref","unstructured":"Niebles J, Fei-Fei L (2007) A hierarchical model of shape and appearance for human action classification. In: IEEE conference on computer vision and pattern recognition, pp 1\u20138","DOI":"10.1109\/CVPR.2007.383132"},{"key":"1363_CR32","unstructured":"Over P, Awad G, Fiscus J, Antonishek B, Michel M, Smeaton AF, Kraaij W, Qunot G (2011) Trecvid 2010: an overview of the goals, tasks, data, evaluation mechanisms, and metrics. In: TRECVid 2010, pp 1\u201334"},{"issue":"2","key":"1363_CR33","doi-asserted-by":"crossref","first-page":"252","DOI":"10.1109\/TMM.2007.911830","volume":"10","author":"ML Shyu","year":"2008","unstructured":"Shyu ML, Xie Z, Chen M, Chen SC (2008) Video semantic event\/concept detection using a subspace-based multimedia data mining framework. IEEE Trans Multimedia 10(2):252\u2013259","journal-title":"IEEE Trans Multimedia"},{"key":"1363_CR34","doi-asserted-by":"crossref","unstructured":"Siersdorfer S, Pedro JS, Sanderson M (2009) Automatic video tagging using content redundancy. In: The 32nd international ACM SIGIR conference on research and development in information retrieval, pp 395\u2013402","DOI":"10.1145\/1571941.1572010"},{"issue":"4","key":"1363_CR35","doi-asserted-by":"crossref","first-page":"591","DOI":"10.1109\/TPAMI.2008.111","volume":"31","author":"J Sivic","year":"2009","unstructured":"Sivic J, Zisserman A (2009) Efficient visual search of videos cast as text retrieval. IEEE Trans Pattern Anal Mach Intell 31(4):591\u2013606","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"5","key":"1363_CR36","doi-asserted-by":"crossref","first-page":"1330","DOI":"10.1016\/j.ipm.2005.11.003","volume":"42","author":"AF Smeaton","year":"2006","unstructured":"Smeaton AF, Browne P (2006) A usage study of retrieval modalities for video shot retrieval. Inf Process Manag 42(5):1330\u20131344","journal-title":"Inf Process Manag"},{"key":"1363_CR37","unstructured":"Stanford_NLP_Group (2008) The Stanford nlp log-linear part of speech tagger (28\u201309\u20132008). http:\/\/nlp.stanford.edu\/software\/tagger.shtml"},{"key":"1363_CR38","unstructured":"TrecVid (2011) Trec video retrieval track, bbc ruch 2005 (01\u201302\u20132011). http:\/\/www-nlpir.nist.gov\/projects\/trecvid\/"},{"key":"1363_CR39","unstructured":"UCF_Computer_Vision_lab (2011) Ucf action dataset (11\u201311\u20132011). http:\/\/www.cs.ucf.edu\/~liujg\/YouTube_Action_dataset.html"},{"issue":"4","key":"1363_CR40","doi-asserted-by":"crossref","first-page":"429","DOI":"10.1016\/j.cviu.2009.08.002","volume":"114","author":"A Ulges","year":"2010","unstructured":"Ulges A, Schulze C, Koch M, Breuel TM (2010) Learning automatic concept detectors from online video. Comput Vis Image Underst 114(4):429\u2013438","journal-title":"Comput Vis Image Underst"},{"key":"1363_CR41","doi-asserted-by":"crossref","unstructured":"Ventura C, Martos M, Nieto XG, Vilaplana V, Marques F (2012) Hierarchical navigation and visual search for video keyframe retrieval. In: The international conference on advances in multimedia modeling, pp 652\u2013654","DOI":"10.1007\/978-3-642-27355-1_67"},{"issue":"1","key":"1363_CR42","doi-asserted-by":"crossref","first-page":"62","DOI":"10.1109\/TCSVT.2011.2105597","volume":"21","author":"XY Wei","year":"2011","unstructured":"Wei XY, Jiang YG, Ngo CW (2011) Concept-driven multi-modality fusion for video search. IEEE Trans Circuits Syst Video Technol 21(1):62\u201373","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"1363_CR43","doi-asserted-by":"crossref","unstructured":"Yuan P, Zhang B, Li J (2008) Semantic concept learning through massive internet video mining. In: IEEE international conference on data mining workshops, pp 847\u2013853","DOI":"10.1109\/ICDMW.2008.114"},{"issue":"5","key":"1363_CR44","doi-asserted-by":"crossref","first-page":"448","DOI":"10.1109\/TMM.2010.2050651","volume":"12","author":"WL Zhao","year":"2010","unstructured":"Zhao WL, Wu X, Ngo CW (2010) On the annotation of Web videos by efficient near-duplicate search. IEEE Trans Multimedia 12(5):448\u2013461","journal-title":"IEEE Trans Multimedia"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-013-1363-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-013-1363-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-013-1363-6","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,7,11]],"date-time":"2019-07-11T07:45:02Z","timestamp":1562831102000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-013-1363-6"}},"subtitle":["Utilizing similarity and commonsense knowledge bases"],"short-title":[],"issued":{"date-parts":[[2013,3,28]]},"references-count":44,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2014,9]]}},"alternative-id":["1363"],"URL":"https:\/\/doi.org\/10.1007\/s11042-013-1363-6","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2013,3,28]]}}}