{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,4,17]],"date-time":"2024-04-17T09:06:25Z","timestamp":1713344785418},"reference-count":46,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2013,7,23]],"date-time":"2013-07-23T00:00:00Z","timestamp":1374537600000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/2.0"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Machine Vision and Applications"],"published-print":{"date-parts":[[2014,1]]},"DOI":"10.1007\/s00138-013-0527-8","type":"journal-article","created":{"date-parts":[[2013,7,22]],"date-time":"2013-07-22T19:34:51Z","timestamp":1374521691000},"page":"17-32","source":"Crossref","is-referenced-by-count":26,"title":["Evaluating multimedia features and fusion for example-based event detection"],"prefix":"10.1007","volume":"25","author":[{"given":"Gregory K.","family":"Myers","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ramesh","family":"Nallapati","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Julien","family":"van Hout","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stephanie","family":"Pancoast","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ramakant","family":"Nevatia","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chen","family":"Sun","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Amirhossein","family":"Habibian","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dennis C.","family":"Koelma","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Koen E. A.","family":"van de Sande","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Arnold W. M.","family":"Smeulders","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Cees G. M.","family":"Snoek","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2013,7,23]]},"reference":[{"key":"527_CR1","doi-asserted-by":"crossref","unstructured":"Smeaton, A.F., Over, P., Kraaij, W.: Evaluation campaigns and TRECVID. In: Proceedings of the 8th ACM international workshop on multimedia information retrieval, Santa Barbara, 26\u201327 October 2006 (MIR \u201906). ACM Press, New York, pp. 321\u2013330 (2006)","DOI":"10.1145\/1178677.1178722"},{"key":"527_CR2","doi-asserted-by":"crossref","unstructured":"Jiang, Y.-G., Bhattacharya, S., Chang, S.-F., Shah, M.: High-level event recognition in unconstrained videos. Int. J. Multimed. Inform. Retr. 1\u201329 (2012)","DOI":"10.1007\/s13735-012-0024-2"},{"key":"527_CR3","doi-asserted-by":"crossref","unstructured":"Natarajan, P., Wu, S., Vitaladevuni, S., Zhuang, X., Tsakalidis, S., Paurk, U., Prasad., R.: Multimodal feature fusion for robust event detection in web videos. In: Proceedings of the IEEE computer society conference on computer vision and pattern recognition (CVPR), pp. 1298\u20131305 (2012)","DOI":"10.1109\/CVPR.2012.6247814"},{"key":"527_CR4","unstructured":"Sawhney, H., Cheng, H., Divakaran, A., Javed, O., Liu, J., Yu, Q., Ali, S., Tamrakar, A.: Evaluation of low-level features and their combinations for complex event detection in open source videos. CVPR, 2496\u20132499 (2012)"},{"key":"527_CR5","doi-asserted-by":"crossref","unstructured":"Jiang, Y.: Super: towards real-time event recognition in internet videos. ACM Int. Conf. Multimed. Retr. (ICMR) (2012) (article no. 33)","DOI":"10.1145\/2324796.2324805"},{"issue":"1","key":"527_CR6","doi-asserted-by":"crossref","first-page":"279","DOI":"10.1007\/s11042-010-0643-7","volume":"51","author":"L Ballan","year":"2011","unstructured":"Ballan, L., Bertini, M., Del Bimbo, A., Seidenari, L., Serra, G.: Event detection and recognition for semantic annotation of video. Multimed. Tools Appl. 51(1), 279\u2013302 (2011)","journal-title":"Multimed. Tools Appl."},{"issue":"11","key":"527_CR7","doi-asserted-by":"crossref","first-page":"1985","DOI":"10.1109\/TPAMI.2008.129","volume":"30","author":"D Xu","year":"2008","unstructured":"Xu, D., Chang, S.-F.: Video event recognition using kernel methods with multilevel temporal alignment. IEEE Trans. Pattern Anal. Mach. Intell. (IEEE TPAMI) 30(11), 1985\u20131997 (2008)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell. (IEEE TPAMI)"},{"issue":"4","key":"527_CR8","first-page":"214","volume":"2","author":"CGM Snoek","year":"2009","unstructured":"Snoek, C.G.M., Worring, M.: Concept-based video retrieval. Found. Trends Inf. Retr. 2(4), 214\u2013322 (2009)","journal-title":"Found. Trends Inf. Retr."},{"issue":"9","key":"527_CR9","doi-asserted-by":"crossref","first-page":"1627","DOI":"10.1109\/TPAMI.2009.167","volume":"32","author":"P Felzenszwalb","year":"2010","unstructured":"Felzenszwalb, P., Girshick, R., McAllester, D., Ramanan, D.: Object detection with discriminatively trained part-based models. IEEE TPAMI 32(9), 1627\u20131645 (2010)","journal-title":"IEEE TPAMI"},{"key":"527_CR10","unstructured":"Li, L., SU, H., Xing, E., Fei-Fei, L.: Object bank: a high-level image representation for scene classification and semantic feature sparsification. Adv. Neural Inf. Process. Syst., 24 (2010)"},{"key":"527_CR11","doi-asserted-by":"crossref","unstructured":"Sadanand, S., Corso, J.J.: Action bank: a high-level representation of activity in video. CVPR (2012)","DOI":"10.1109\/CVPR.2012.6247806"},{"issue":"6","key":"527_CR12","doi-asserted-by":"crossref","first-page":"76","DOI":"10.1109\/MC.2010.183","volume":"43","author":"CGM Snoek","year":"2010","unstructured":"Snoek, C.G.M., Smeulders, A.W.M.: Visual-concept search solved? IEEE Comput. 43(6), 76\u201378 (2010)","journal-title":"IEEE Comput."},{"issue":"1","key":"527_CR13","doi-asserted-by":"crossref","first-page":"88","DOI":"10.1109\/TMM.2011.2168948","volume":"14","author":"M Merler","year":"2012","unstructured":"Merler, M., Huang, B., Xie, L., Hua, G., Natsev, A.: Semantic model vectors for complex video event recognition. IEEE Trans. Multimed. (TMM) 14(1), 88\u2013101 (2012)","journal-title":"IEEE Trans. Multimed. (TMM)"},{"key":"527_CR14","doi-asserted-by":"crossref","unstructured":"Althoff, T., Song, H., Darrell, T.: Detection bank: an object detection based video representation for multimedia event recognition. ACM Multimed. (MM) (2012)","DOI":"10.1145\/2393347.2396384"},{"key":"527_CR15","doi-asserted-by":"crossref","unstructured":"Tsampoulatidis, I., Gkalelis, N., Dimou, A., Mezaris, V., Kompatsiaris, I.: High-level event detection in video exploiting discriminant concepts. In: Proceedings of the 1st ACM international conference on multimedia retrieval, pp. 85\u201390 (2011)","DOI":"10.1145\/1991996.1992064"},{"key":"527_CR16","doi-asserted-by":"crossref","unstructured":"Habibian, A., van de Sande, K.E.A., Snoek, C.G.M.: Recommendations for video event recognition using concept vocabularies. In: Proceedings of the ACM international conference on multimedia retrieval, pp. 89\u201396 Dallas (2013)","DOI":"10.1145\/2461466.2461482"},{"key":"527_CR17","unstructured":"Perera, A.G.A., Oh, S., Leotta, M., Kim, I., Byun, B., Lee, C.-H., McCloskey, S., Liu, J., Miller, B., Huang, Z.F., Vahdat, A., Yang, W., Mori, G., Tang, K., Koller, D., Fei-Fei, L., Li, K., Chen, G., Corso, J., Fu, Y., Srihari, R.: GENIE TRECVID 2011 multimedia event detection: late-fusion approaches to combine multiple audio\u2013visual features. In: NIST TRECVID, workshop (2011)"},{"key":"527_CR18","unstructured":"Strassel, S., Morris, A., Fiscus, J., Caruso, C., Lee, H., Over, P., Fiumara, J., Shaw, B., Antonishek, B., Michel, M.: Creating HAVIC: heterogeneous audio visual internet collection. In: Calzolari N., Choukri K., Declerck T., U\u011fur Do\u011fan M., Maegaard B., Mariani J., Odijk J., Piperidis S. (eds.) Proceedings of the eighth international conference on language resources and evaluation, Istanbul (2012)"},{"key":"527_CR19","unstructured":"Jaakkola, T., Haussler. D.: Exploiting generative models in discriminative classifiers. In:Proceedings of the 1998 conference on advances in neural information processing systems II, pp. 489\u2013493 (1999)"},{"issue":"9","key":"527_CR20","doi-asserted-by":"crossref","first-page":"1704","DOI":"10.1109\/TPAMI.2011.235","volume":"34","author":"H J\u00e9gou","year":"2012","unstructured":"J\u00e9gou, H., Perronnin, F., Douze, M., Sanchez, J., P\u00e9rez, P., Schmid, C.: Aggregating local image descriptors into compact codes. IEEE TPAMI 34(9), 1704\u20131716 (2012)","journal-title":"IEEE TPAMI"},{"key":"527_CR21","doi-asserted-by":"crossref","unstructured":"Perronnin, F., Dance, C.: Fisher kernels on visual vocabularies for image categorization. CVPR, (2007)","DOI":"10.1109\/CVPR.2007.383266"},{"key":"527_CR22","unstructured":"Snoek, C.G.M., van de Sande, K.E.A., Habibian, A., Kordumova, S., Li, Z., Mazloom, M., Pintea, S.L., Tao, R., Koelma, D.C., Smeulders, A.W.M.: The MediaMill TRECVID 2012 semantic video search engine. In: Proceeding of the TRECVID workshop, Gaithersburg (2012)"},{"key":"527_CR23","unstructured":"Tuytelaars, T., Mikolajczyk, K.: Local invariant feature detectors: a survey. Found. Trends. Comput. Graph. Vis. 3(3), 177\u2013280 (2008)"},{"key":"527_CR24","doi-asserted-by":"crossref","unstructured":"Snoek, C.G.M., Worring, M., Geusebroek, J.-M., Koelma, D.C., Seinstra, F.J.: On the surplus value of semantic video analysis beyond the key frame.In: Proceedings of the IEEE international conference on multimedia and expo (2005)","DOI":"10.1109\/ICME.2005.1521441"},{"key":"527_CR25","doi-asserted-by":"crossref","unstructured":"Lazebnik, S., Schmid, C., Ponce, J.: Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. CVPR 2, 2169\u20132178 (2006) (New York)","DOI":"10.1109\/CVPR.2006.68"},{"issue":"9","key":"527_CR26","doi-asserted-by":"crossref","first-page":"1582","DOI":"10.1109\/TPAMI.2009.154","volume":"32","author":"KEA Sande van de","year":"2010","unstructured":"van de Sande, K.E.A., Gevers, T., Snoek, C.G.M.: Evaluating color descriptors for object and scene recognition. IEEE TPAMI 32(9), 1582\u20131596 (2010)","journal-title":"IEEE TPAMI"},{"key":"527_CR27","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe, D.G.: Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vis. 60, 91\u2013110 (2004)","journal-title":"Int. J. Comput. Vis."},{"key":"527_CR28","doi-asserted-by":"crossref","unstructured":"Geusebroek, J.-M., Boomgaard, R., Smeulders, A.W.M., Geerts, H.: Color invariance. IEEE TPAMI 23(12), 1338\u20131350 (2001)","DOI":"10.1109\/34.977559"},{"key":"527_CR29","doi-asserted-by":"crossref","unstructured":"van Gemert, J.C., Snoek, C.G.M., Veenman, C.J., Smeulders, A.W.M., Geusebroek, J.-M.: Comparing compact codebooks for visual categorization. Comput. Vis. Image Underst. 114(4), 450\u2013462 (2010)","DOI":"10.1016\/j.cviu.2009.08.004"},{"key":"527_CR30","doi-asserted-by":"crossref","unstructured":"Maji, S., Berg, A.C., Malik, J.: Classification using intersection kernel support vector machines is efficient. In: Proceedings of the IEEE computer society conference on CVPR, pp. 619\u2013626, Anchorage (2008)","DOI":"10.1109\/CVPR.2008.4587630"},{"key":"527_CR31","doi-asserted-by":"crossref","unstructured":"Wang, H., Kl\u00e4ser, A., Schmid, C., Cheng-Lin, L.: Action recognition by dense trajectories. CVPR, 3169\u20133176 (2011)","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"527_CR32","unstructured":"Chen, M.-Y., Hauptmann, A.: MoSIFT: recognizing human actions in surveillance videos. CMU-CS-09-161. Carnegie Mellon Univ. (2009)"},{"issue":"2\/3","key":"527_CR33","doi-asserted-by":"crossref","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev, I.: On space-time interest points. Int. J. Comput. Vis. 64(2\/3), 107\u2013123 (2005)","journal-title":"Int. J. Comput. Vis."},{"key":"527_CR34","doi-asserted-by":"crossref","unstructured":"Sun, C., Nevatia, R.: Large scale web video classification by use of Fisher vectors. In: Workshop on applications of computer vision, Clearwater (2013) (January)","DOI":"10.1109\/WACV.2013.6474994"},{"key":"527_CR35","doi-asserted-by":"crossref","unstructured":"Chechik, G., Ie, E., Rehn, M., Bengio, S., Lyon, D.: Large-scale content-based audio retrieval from text queries. In: Proceedings of 1st ACM international conference on multimedia information retrieval (MIR \u201908), pp. 105\u2013112, New York (2008)","DOI":"10.1145\/1460096.1460115"},{"key":"527_CR36","unstructured":"Uchida, Y., Sakazawa, S., Argawal, M., Akbacak, M.: KDDI labs and SRI international at TRECVID 2010: content-based copy detection. In: NIST TRECVID 2010 evaluation, workshop (2010)"},{"key":"527_CR37","unstructured":"Jiang, Y., Zeng, X., Ye, G., Ellis, D., Shah, M., Chang, S.: Columbia-UCF TRECVID 2010 multimedia event detection: combining multiple modalities, contextual concepts, and temporal matching. In: NIST TRECVID, workshop (2010)"},{"key":"527_CR38","doi-asserted-by":"crossref","unstructured":"Pancoast, S., Akbacak, M.: Bag-of-audio-words approach for multimedia event detection. In: Proceedings of interspeech (2012)","DOI":"10.21437\/Interspeech.2012-561"},{"issue":"1","key":"527_CR39","doi-asserted-by":"crossref","first-page":"88","DOI":"10.1109\/TMM.2011.2168948","volume":"14","author":"M Merler","year":"2012","unstructured":"Merler, M., Huang, B., Xie, L., Hua, G., Natsev, A.: Semantic model vectors for complex video event recognition. IEEE Trans. Multimed. 14(1), 88\u2013101 (2012)","journal-title":"IEEE Trans. Multimed."},{"key":"527_CR40","unstructured":"Over, P., Awad, G., Michel, M., Fiscus, J., Sanders, G., Shaw, B., Kraaij, W., Smeaton, A.F., Qu\u00e9enot, G.: TRECVID 2012\u2014an overview of the goals, tasks, data, evaluation mechanisms, and metrics. In: Proceedings of TRECVID (2012) http:\/\/www-nlpir.nist.gov\/projects\/tvpubs\/tv12.papers\/tv12overview.pdf"},{"key":"527_CR41","unstructured":"Berg, A., Deng, J., Satheesh, S., Su, H., Li, F.-F.: Imagenet large scale visual recognition challenge (2011) http:\/\/www.image-net.org\/challenges\/LSVRC\/2011\/"},{"key":"527_CR42","doi-asserted-by":"crossref","unstructured":"Janin, A., Stolcke, A., Anguera, X., Boakye, K., \u00c7etin, \u00d6., Frankel, J., Zheng, J.: The ICSI\u2013SRI spring 2006 meeting recognition system, MLMI\u201906. In: Proceedings of the third international conference on machine learning for multimodal, interaction, pp. 444\u2013456 (2006)","DOI":"10.1007\/11965152_39"},{"key":"527_CR43","doi-asserted-by":"crossref","unstructured":"van Hout, J., Akbacak, M., Castaneda, D., Yeh, E., Sanchez, M.: Extracting audio and spoken concepts for multimedia event detection. In: International conference on acoustics, speech, and signal processing (ICASSP) (2013)","DOI":"10.1109\/ICASSP.2013.6638340"},{"key":"527_CR44","doi-asserted-by":"crossref","unstructured":"Nallapati, R., Yeh, E., Myers, G.: Sparse mixture model: late fusion with missing scores for multimedia event detection. Algorithms and systems VII. SPIE Multimed. Content Access (2012)","DOI":"10.1117\/12.2007463"},{"key":"527_CR45","unstructured":"Fiscus, J., Michel, M.: TRECVID 2012 multimedia event detection task. In: NIST TRECVID 2012 evaluation, workshop (2012)"},{"issue":"5","key":"527_CR46","doi-asserted-by":"crossref","first-page":"958","DOI":"10.1109\/TMM.2007.900150","volume":"9","author":"A Hauptmann","year":"2007","unstructured":"Hauptmann, A., Yan, R., Lin, W.-H., Christel, M., Wactlar, H.: Can high-level concepts fill the semantic gap in video retrieval? A case study with broadcast retrieval. IEEE Trans Multimed. 9(5), 958\u2013966 (2007)","journal-title":"IEEE Trans Multimed."}],"container-title":["Machine Vision and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00138-013-0527-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-013-0527-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-013-0527-8","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,3,1]],"date-time":"2022-03-01T22:47:54Z","timestamp":1646174874000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00138-013-0527-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2013,7,23]]},"references-count":46,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2014,1]]}},"alternative-id":["527"],"URL":"https:\/\/doi.org\/10.1007\/s00138-013-0527-8","relation":{},"ISSN":["0932-8092","1432-1769"],"issn-type":[{"value":"0932-8092","type":"print"},{"value":"1432-1769","type":"electronic"}],"subject":[],"published":{"date-parts":[[2013,7,23]]}}}