{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,27]],"date-time":"2025-03-27T15:28:54Z","timestamp":1743089334152,"version":"3.40.3"},"publisher-location":"Cham","reference-count":49,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319056951"},{"type":"electronic","value":"9783319056968"}],"license":[{"start":{"date-parts":[[2014,1,1]],"date-time":"2014-01-01T00:00:00Z","timestamp":1388534400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2014,1,1]],"date-time":"2014-01-01T00:00:00Z","timestamp":1388534400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2014]]},"DOI":"10.1007\/978-3-319-05696-8_5","type":"book-chapter","created":{"date-parts":[[2014,5,9]],"date-time":"2014-05-09T14:19:39Z","timestamp":1399645179000},"page":"109-133","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Evaluating Multimedia Features and Fusion for Example-Based Event Detection"],"prefix":"10.1007","author":[{"given":"Gregory K.","family":"Myers","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Cees G. M.","family":"Snoek","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ramakant","family":"Nevatia","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ramesh","family":"Nallapati","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Julien","family":"van Hout","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stephanie","family":"Pancoast","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chen","family":"Sun","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Amirhossein","family":"Habibian","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dennis C.","family":"Koelma","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Koen E. A.","family":"van de Sande","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Arnold W. M.","family":"Smeulders","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2014,3,26]]},"reference":[{"key":"5_CR1","doi-asserted-by":"crossref","unstructured":"Smeaton AF, Over P, Kraaij W (2006) Evaluation campaigns and TRECVID. In: Proceedings of the 8th ACM international workshop on multimedia information retrieval (MIR \u201906), Santa Barbara, 26\u201327 October 2006, ACM Press, New York, pp 321\u2013330","DOI":"10.1145\/1178677.1178722"},{"key":"5_CR2","first-page":"1","volume":"2","author":"Y-G Jiang","year":"2012","unstructured":"Jiang Y-G, Bhattacharya S, Chang S-F, Shah M (2012) High-level event recognition in unconstrained videos. Int J Multimedia Inf Retrieval 2:1\u201329","journal-title":"Int J Multimedia Inf Retrieval"},{"key":"5_CR3","doi-asserted-by":"crossref","unstructured":"Natarajan P, Wu S, Vitaladevuni S, Zhuang X, Tsakalidis S, Paurk U, Prasad R (2012) Multimodal feature fusion for robust event detection in web videos. In: Proceedings of the IEEE computer society conference on computer vision and pattern recognition (CVPR), pp 1298\u20131305","DOI":"10.1109\/CVPR.2012.6247814"},{"key":"5_CR4","unstructured":"Sawhney H, Cheng H, Divakaran A, Javed O, Liu J, Yu Q, Ali S, Tamrakar A (2012) Evaluation of low-level features and their combinations for complex event detection in open source videos. In: CVPR, pp 2496\u20132499"},{"key":"5_CR5","doi-asserted-by":"crossref","unstructured":"Jiang Y (2013) Super: towards real-time event recognition in internet videos. In: ACM international conference on multimedia retrieval (ICMR), Article No. 33","DOI":"10.1145\/2324796.2324805"},{"issue":"1","key":"5_CR6","doi-asserted-by":"publisher","first-page":"279","DOI":"10.1007\/s11042-010-0643-7","volume":"51","author":"L Ballan","year":"2011","unstructured":"Ballan L, Bertini M, Del Bimbo A, Seidenari L, Serra G (2011) Event detection and recognition for semantic annotation of video. Multimedia Tools Appl 51(1):279\u2013302","journal-title":"Multimedia Tools Appl"},{"issue":"11","key":"5_CR7","doi-asserted-by":"publisher","first-page":"1985","DOI":"10.1109\/TPAMI.2008.129","volume":"30","author":"D Xu","year":"2008","unstructured":"Xu D, Chang S-F (2008) Video event recognition using kernel methods with multilevel temporal alignment. IEEE Trans Pattern Anal Mach Intell 30(11):1985\u20131997","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"4","key":"5_CR8","first-page":"214","volume":"2","author":"CGM Snoek","year":"2009","unstructured":"Snoek CGM, Worring M (2009) Concept-based video retrieval. Found Trends Inf Retr 2(4):214\u2013322","journal-title":"Found Trends Inf Retr"},{"issue":"9","key":"5_CR9","doi-asserted-by":"publisher","first-page":"1627","DOI":"10.1109\/TPAMI.2009.167","volume":"32","author":"P Felzenszwalb","year":"2010","unstructured":"Felzenszwalb P, Girshick R, McAllester D, Ramanan D (2010) Object detection with discriminatively trained part-based models. IEEE TPAMI 32(9):1627\u20131645","journal-title":"IEEE TPAMI"},{"key":"5_CR10","unstructured":"Li L, Su H, Xing E, Fei-Fei L (2010) Object bank: a high-level image representation for scene classification and semantic feature sparsification. In: Advances in Neural Information Processing Systems, p. 24"},{"key":"5_CR11","doi-asserted-by":"crossref","unstructured":"Sadanand S, Corso JJ (2012) Action bank: a high-level representation of activity in video. In: CVPR","DOI":"10.1109\/CVPR.2012.6247806"},{"issue":"6","key":"5_CR12","doi-asserted-by":"publisher","first-page":"76","DOI":"10.1109\/MC.2010.183","volume":"43","author":"CGM Snoek","year":"2010","unstructured":"Snoek CGM, Smeulders AWM (2010) Visual-concept search solved? IEEE Comput 43(6):76\u201378","journal-title":"IEEE Comput"},{"issue":"1","key":"5_CR13","doi-asserted-by":"publisher","first-page":"88","DOI":"10.1109\/TMM.2011.2168948","volume":"14","author":"M Merler","year":"2012","unstructured":"Merler M, Huang B, Xie L, Hua G, Natsev A (2012) Semantic model vectors for complex video event recognition. IEEE Trans Multimedia (TMM) 14(1):88\u2013101","journal-title":"IEEE Trans Multimedia (TMM)"},{"key":"5_CR14","doi-asserted-by":"crossref","unstructured":"Althoff T, Song H, Darrell T (2012) Detection bank: an object detection based video representation for multimedia event recognition. In: ACM Multimedia (MM)","DOI":"10.1145\/2393347.2396384"},{"key":"5_CR15","doi-asserted-by":"crossref","unstructured":"Tsampoulatidis I, Gkalelis N, Dimou A, Mezaris V, Kompatsiaris I (2011) High-level event detection in video exploiting discriminant concepts. In: Proceedings of the 1st ACM international conference on multimedia retrieval, p 8590","DOI":"10.1145\/1991996.1992064"},{"key":"5_CR16","doi-asserted-by":"crossref","unstructured":"Habibian A, van de Sande KEA, Snoek CGM (2013) Recommendations for video event recognition using concept vocabularies. In: Proceedings of the ACM international conference on multimedia retrieval, Dallas, pp 89\u201396","DOI":"10.1145\/2461466.2461482"},{"key":"5_CR17","unstructured":"Perera AGA, Oh S, Leotta M, Kim I, Byun B, Lee CH, McCloskey S, Liu J, Miller B, Huang ZF, Vahdat A, Yang W, Mori G, Tang K, Koller D, Fei-Fei L, Li K, Chen G, Corso J, Fu Y, Srihari R (2011) GENIE TRECVID 2011 multimedia event detection: late-fusion approaches to combine multiple audio-visual features. In: NIST TRECVID workshop"},{"key":"5_CR18","unstructured":"Pinquier J, Karaman S, Letoupin L, Guyot P, M\u00e9gret R, Benois-Pineau J, Ga\u00ebstel Y, Dartigues J-F (2012) Strategies for multiple feature fusion with Hierarchical HMM: application to activity recognition from wearable audiovisual sensors. In: International conference on pattern recognition, pp 3192\u20133195"},{"key":"5_CR19","doi-asserted-by":"crossref","unstructured":"Csurka G, Clinchant S (2012) An empirical study of fusion operators for multimodal image retrieval. In: Content-based multimedia indexing, pp 1\u20136","DOI":"10.1109\/CBMI.2012.6269843"},{"key":"5_CR20","unstructured":"Strassel S, Morris A, Fiscus J, Caruso C, Lee H, Over P, Fiumara J, Shaw B, Antonishek B, Michel M (2012) Creating HAVIC: heterogeneous audio visual internet collection. In: Calzolari N, Choukri K, Declerck T, U\u011fur Do\u011fan M, Maegaard B, Mariani J, Odijk J, Piperidis S (eds) Proceedings of the eighth international conference on language resources and evaluation, Istanbul"},{"key":"5_CR21","unstructured":"Jaakkola T, Haussler D (1999) Exploiting generative models in discriminative classifiers. In: Proceedings of the 1998 conference on advances in neural information processing systems II, pp 489\u2013493"},{"issue":"9","key":"5_CR22","doi-asserted-by":"publisher","first-page":"1704","DOI":"10.1109\/TPAMI.2011.235","volume":"34","author":"H J\u00e9gou","year":"2012","unstructured":"J\u00e9gou H, Perronnin F, Douze M, Sanchez J, P\u00e9rez P, Schmid C (2012) Aggregating local image descriptors into compact codes. IEEE TPAMI 34(9):1704\u20131716","journal-title":"IEEE TPAMI"},{"key":"5_CR23","doi-asserted-by":"crossref","unstructured":"Perronnin F, Dance C (2007) Fisher kernels on visual vocabularies for image categorization. In: CVPR","DOI":"10.1109\/CVPR.2007.383266"},{"key":"5_CR24","doi-asserted-by":"crossref","unstructured":"Mironica I, Uijlings J, Rostamzadeh N, Ionescu B, Sebe N (2013) Time matters!: capturing variation in time in video using fisher kernels. In: ACM multimedia, pp 701\u2013704","DOI":"10.1145\/2502081.2502183"},{"key":"5_CR25","unstructured":"Snoek CGM, van de Sande KEA, Habibian A, Kordumova S, Li Z, Mazloom M, Pintea SL, Tao R, Koelma DC, Smeulders AWM (2012) The MediaMill TRECVID 2012 semantic video search engine. In: Proceeding of TRECVID Workshop, Gaithersburg"},{"issue":"3","key":"5_CR26","doi-asserted-by":"publisher","first-page":"177","DOI":"10.1561\/0600000017","volume":"3","author":"T Tuytelaars","year":"2008","unstructured":"Tuytelaars T, Mikolajczyk K (2008) Local invariant feature detectors: a survey. Found Trends Comp Graphics Vision 3(3):177\u2013280","journal-title":"Found Trends Comp Graphics Vision"},{"key":"5_CR27","unstructured":"Snoek CGM, Worring M, Geusebroek J-M, Koelma DC, Seinstra FJ (2005) On the surplus value of semantic video analysis beyond the key frame. In: Proceedings of the IEEE international conference on multimedia and expo"},{"key":"5_CR28","doi-asserted-by":"crossref","unstructured":"Lazebnik S, Schmid C, Ponce J (2006) Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. In: CVPR, New York, vol 2. pp 2169\u20132178","DOI":"10.1109\/CVPR.2006.68"},{"issue":"9","key":"5_CR29","doi-asserted-by":"publisher","first-page":"1582","DOI":"10.1109\/TPAMI.2009.154","volume":"32","author":"KEA van de Sande","year":"2010","unstructured":"van de Sande KEA, Gevers T, Snoek CGM (2010) Evaluating color descriptors for object and scene recognition. IEEE TPAMI 32(9):1582\u20131596","journal-title":"IEEE TPAMI"},{"key":"5_CR30","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vision 60:91\u2013110","journal-title":"Int J Comput Vision"},{"issue":"12","key":"5_CR31","doi-asserted-by":"publisher","first-page":"13381350","DOI":"10.1109\/34.977559","volume":"23","author":"J-M Geusebroek","year":"2001","unstructured":"Geusebroek J-M, Boomgaard R, Smeulders AWM, Geerts H (2001) Color invariance. IEEE TPAMI 23(12):13381350","journal-title":"IEEE TPAMI"},{"issue":"4","key":"5_CR32","doi-asserted-by":"crossref","first-page":"450","DOI":"10.1016\/j.cviu.2009.08.004","volume":"114","author":"JC Gemert","year":"2010","unstructured":"van Gemert JC, Snoek CGM, Veenman CJ, Smeulders AWM, Geusebroek J-M (2010) Comparing compact codebooks for visual categorization. Comput Vis Image Und 114(4):450\u2013462","journal-title":"Comput Vis Image Und"},{"key":"5_CR33","doi-asserted-by":"crossref","unstructured":"Maji S, Berg AC, Malik J (2008) Classification using intersection kernel support vector machines is efficient. In: Proceedings of the IEEE computer society conference on CVPR, Anchorage, pp 619\u2013626","DOI":"10.1109\/CVPR.2008.4587630"},{"key":"5_CR34","doi-asserted-by":"crossref","unstructured":"Wang H, Kl\u00e4ser A, Schmid C, Cheng-Lin L (2011) Action recognition by dense trajectories. In: CVPR, pp 3169\u20133176","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"5_CR35","unstructured":"Chen M-Y, Hauptmann A (2009) MoSIFT: recognizing human actions in surveillance videos. In: CMU-CS-09-161, Carnegie Mellon University"},{"issue":"2\/3","key":"5_CR36","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev I (2005) On space-time interest points. Int J of Comput Vision 64(2\/3):107\u2013123","journal-title":"Int J of Comput Vision"},{"key":"5_CR37","doi-asserted-by":"crossref","unstructured":"Sun C, Nevatia R (2013) Large scale web video classification by use of Fisher vectors. In: Workshop on applications of computer vision, Clearwater","DOI":"10.1109\/WACV.2013.6474994"},{"key":"5_CR38","doi-asserted-by":"crossref","unstructured":"Chechik G, Ie E, Rehn M, Bengio S, Lyon D (2008) Large-scale content-based audio retrieval from text queries. In: Proceedings of 1$$^{st}$$ ACM international conference on multimedia information retrieval (MIR \u201908), New York, pp 105\u2013112","DOI":"10.1145\/1460096.1460115"},{"key":"5_CR39","unstructured":"Uchida Y, Sakazawa S, Argawal M, Akbacak M (2010) KDDI labs and SRI international at TRECVID 2010: content-based copy detection. In: NIST TRECVID 2010 evaluation, workshop"},{"key":"5_CR40","unstructured":"Jiang Y, Zeng X, Ye G, Ellis D, Shah M, Chang S (2010) Columbia-UCF TRECVID 2010 multimedia event detection: combining multiple modalities, contextual concepts, and temporal matching. In: NIST TRECVID Workshop"},{"key":"5_CR41","doi-asserted-by":"crossref","unstructured":"Pancoast S, Akbacak M (2012) Bag-of-audio-words approach for multimedia event detection. In: Proceedings of interspeech","DOI":"10.21437\/Interspeech.2012-561"},{"issue":"1","key":"5_CR42","doi-asserted-by":"publisher","first-page":"88101","DOI":"10.1109\/TMM.2011.2168948","volume":"14","author":"M Merler","year":"2012","unstructured":"Merler M, Huang B, Xie L, Hua G, Natsev A (2012) Semantic model vectors for complex video event recognition. IEEE Trans Multimedia 14(1):88101","journal-title":"IEEE Trans Multimedia"},{"key":"5_CR43","unstructured":"Over P, Awad G, Michel M, Fiscus J, Sanders G, Shaw B, Kraaij W, Smeaton AF, Qu\u00e9enot G (2012) TRECVID 2012: an overview of the goals, tasks, data, evaluation mechanisms, and metrics. In: Proceedings of TRECVID. http:\/\/www-nlpir.nist.gov\/projects\/tvpubs\/tv12.papers\/tv12overview.pdf"},{"key":"5_CR44","unstructured":"Berg A, Deng J, Satheesh S, Su H, Li F-F (2011) Imagenet large scale visual recognition challenge. http:\/\/www.image-net.org\/challenges\/LSVRC\/2011\/"},{"key":"5_CR45","doi-asserted-by":"crossref","unstructured":"Janin A, Stolcke A, Anguera X, Boakye K, \u00c7etin \u00d6, Frankel J, Zheng J (2006) The ICSI-SRI spring 2006 meeting recognition system. In: MLMI\u201906 proceedings of the third international conference on machine learning for multimodal, interaction, pp 444\u2013456","DOI":"10.1007\/11965152_39"},{"key":"5_CR46","doi-asserted-by":"crossref","unstructured":"van Hout J, Akbacak M, Castaneda D, Yeh E, Sanchez M (2013) Extracting audio and spoken concepts for multimedia event detection. In: International conference on acoustics, speech, and signal processing (ICASSP)","DOI":"10.1109\/ICASSP.2013.6638340"},{"key":"5_CR47","doi-asserted-by":"crossref","unstructured":"Nallapati R, Yeh E, Myers G (2012) Sparse mixture model: late fusion with missing scores for multimedia event detection. Algorithms and systems VII, SPIE multimedia content access","DOI":"10.1117\/12.2007463"},{"key":"5_CR48","unstructured":"Fiscus J, Michel M (2012) TRECVID 2012 multimedia event detection task. In: NIST TRECVID 2012 evaluation, workshop"},{"issue":"5","key":"5_CR49","doi-asserted-by":"publisher","first-page":"958","DOI":"10.1109\/TMM.2007.900150","volume":"9","author":"A Hauptmann","year":"2007","unstructured":"Hauptmann A, Yan R, Lin W-H, Christel M, Wactlar H (2007) Can high-level concepts fill the semantic gap in video retrieval? A case study with broadcast retrieval. IEEE Trans Multimedia 9(5):958\u2013966","journal-title":"IEEE Trans Multimedia"}],"container-title":["Advances in Computer Vision and Pattern Recognition","Fusion in Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-05696-8_5","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,28]],"date-time":"2023-01-28T06:35:17Z","timestamp":1674887717000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-319-05696-8_5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2014]]},"ISBN":["9783319056951","9783319056968"],"references-count":49,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-05696-8_5","relation":{},"ISSN":["2191-6586","2191-6594"],"issn-type":[{"type":"print","value":"2191-6586"},{"type":"electronic","value":"2191-6594"}],"subject":[],"published":{"date-parts":[[2014]]},"assertion":[{"value":"26 March 2014","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}}]}}