{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T04:54:43Z","timestamp":1755838483970},"reference-count":33,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2016,1,11]],"date-time":"2016-01-11T00:00:00Z","timestamp":1452470400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2017,1]]},"DOI":"10.1007\/s11042-015-3181-5","type":"journal-article","created":{"date-parts":[[2016,1,11]],"date-time":"2016-01-11T08:37:24Z","timestamp":1452501444000},"page":"2223-2242","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":12,"title":["Multimodal speaker clustering in full length movies"],"prefix":"10.1007","volume":"76","author":[{"given":"I.","family":"Kapsouras","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"A.","family":"Tefas","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"N.","family":"Nikolaidis","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"G.","family":"Peeters","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"L.","family":"Benaroya","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"I.","family":"Pitas","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2016,1,11]]},"reference":[{"key":"3181_CR1","doi-asserted-by":"crossref","first-page":"5","DOI":"10.1145\/2733373.2806238","volume-title":"Proceedings of the 23rd ACM international conference on multimedia, MM \u201915","author":"X Alameda-Pineda","year":"2015","unstructured":"Alameda-Pineda X, Yan Y, Ricci E, Lanz O, Sebe N (2015) Analyzing free-standing conversational groups: a multimodal approach. In: Proceedings of the 23rd ACM international conference on multimedia, MM \u201915. ACM, New York, pp 5\u201314"},{"key":"3181_CR2","doi-asserted-by":"crossref","unstructured":"Asthana A, Zafeiriou S, Cheng S, Pantic M (2013) Robust discriminative response map fitting with constrained local models. In: Proceedings of 2013 IEEE conference on computer vision and pattern recognition (CVPR), pp 3444\u20133451","DOI":"10.1109\/CVPR.2013.442"},{"key":"3181_CR3","doi-asserted-by":"crossref","first-page":"33","DOI":"10.1007\/978-3-540-79547-6_4","volume-title":"Proceedings of the 6th international conference on computer vision systems, ICVS\u201908","author":"H Baltzakis","year":"2008","unstructured":"Baltzakis H, Argyros A, Lourakis M, Trahanias P (2008) Tracking of human hands and faces through probabilistic fusion of multiple visual cues. In: Proceedings of the 6th international conference on computer vision systems, ICVS\u201908. Springer, Berlin, Heidelberg, pp 33\u201342"},{"key":"3181_CR4","doi-asserted-by":"crossref","unstructured":"Calic J, Campbell N, Dasiopoulou S, Kompatsiaris Y (2005) A survey on multimodal video representation for semantic retrieval. In: The international conference on computer as a tool, 2005. EUROCON 2005, vol 1, pp 135\u2013138","DOI":"10.1109\/EURCON.2005.1629877"},{"issue":"1","key":"3181_CR5","first-page":"3","volume":"1","author":"J Carletta","year":"2006","unstructured":"Carletta J (2006) Announcing the ami meeting corpus. The ELRA Newsletter 1(1):3\u20135","journal-title":"The ELRA Newsletter"},{"key":"3181_CR6","unstructured":"Chen S, Gopalakrishnan P (1998) Speaker, environment and channel change detection and clustering via the bayesian information criterion. In: Proceedings of DARPA broadcast news transcription and understanding workshop"},{"issue":"3","key":"3181_CR7","doi-asserted-by":"crossref","first-page":"747","DOI":"10.1007\/s11042-012-1080-6","volume":"68","author":"E El Khoury","year":"2014","unstructured":"El Khoury E, Snac C, Joly P (2014) Audiovisual diarization of people in video content. Multimed Tools Appl 68(3):747\u2013775","journal-title":"Multimed Tools Appl"},{"issue":"1","key":"3181_CR8","first-page":"80","volume":"55","author":"MM Elmansori","year":"2011","unstructured":"Elmansori MM, Omar K (2011) An enhanced face detection method using skin color and back-propagation neural network. Eur J Sci Res 55(1):80","journal-title":"Eur J Sci Res"},{"issue":"3","key":"3181_CR9","doi-asserted-by":"crossref","first-page":"188","DOI":"10.1016\/j.jvlc.2009.01.009","volume":"20","author":"W Feng","year":"2009","unstructured":"Feng W, Xie L, Zeng J, Liu ZQ (2009) Audio-visual human recognition using semi-supervised spectral learning and hidden markov models. J Vis Lang Comput 20(3):188\u2013195","journal-title":"J Vis Lang Comput"},{"key":"3181_CR10","doi-asserted-by":"crossref","unstructured":"Friedland G, Hung H, Yeo C (2009) Multi-modal speaker diarization of real-world meetings using compressed-domain video features. In: Proceedings of the IEEE international conference on acoustics, speech and signal processing, 2009. ICASSP 2009, pp 4069\u20134072","DOI":"10.1109\/ICASSP.2009.4960522"},{"key":"3181_CR11","doi-asserted-by":"crossref","first-page":"195","DOI":"10.1145\/1631272.1631301","volume-title":"Proceedings of the 17th ACM international conference on multimedia, MM \u201909","author":"G Friedland","year":"2009","unstructured":"Friedland G, Yeo C, Hung H (2009) Visual speaker localization aided by acoustic models. In: Proceedings of the 17th ACM international conference on multimedia, MM \u201909. ACM, New York, pp 195\u2013202"},{"key":"3181_CR12","doi-asserted-by":"crossref","unstructured":"Garau G, Bourlard H (2010) Using audio and visual cues for speaker diarisation initialisation. In: Proceedings of the IEEE international conference on acoustics speech and signal processing (ICASSP), pp 4942\u20134945","DOI":"10.1109\/ICASSP.2010.5495101"},{"key":"3181_CR13","doi-asserted-by":"crossref","first-page":"11","DOI":"10.1016\/j.patrec.2014.12.003","volume":"54","author":"A Iosifidis","year":"2015","unstructured":"Iosifidis A, Tefas A, Pitas I (2015) On the kernel extreme learning machine classifier. Pattern Recogn Lett 54:11\u201317","journal-title":"Pattern Recogn Lett"},{"key":"3181_CR14","doi-asserted-by":"crossref","unstructured":"Jaimes A, Sebe N (2005) Multimodal human computer interaction: a survey. In: Computer vision in human-computer interaction. Lecture notes in computer science, vol 3766. Springer, Berlin Heidelberg, pp 1\u201315","DOI":"10.1007\/11573425_1"},{"key":"3181_CR15","doi-asserted-by":"crossref","first-page":"86","DOI":"10.1007\/978-3-540-85853-9_8","volume-title":"Proceedings of the 5th international workshop on machine learning for multimodal interaction, MLMI \u201908","author":"V Khalidov","year":"2008","unstructured":"Khalidov V, Forbes F, Hansard M, Arnaud E, Horaud R (2008) Audio-visual clustering for 3d speaker localization. In: Proceedings of the 5th international workshop on machine learning for multimodal interaction, MLMI \u201908. Springer, Berlin, Heidelberg, pp 86\u201397"},{"key":"3181_CR16","first-page":"849","volume-title":"Proceedings of NIPS","author":"AY Ng","year":"2001","unstructured":"Ng AY, Jordan MI, Weiss Y (2001) On spectral clustering: analysis and an algorithm. In: Proceedings of NIPS. MIT Press, Cambridge, MA, pp 849\u2013856"},{"issue":"1","key":"3181_CR17","doi-asserted-by":"crossref","first-page":"79","DOI":"10.1109\/TPAMI.2011.47","volume":"34","author":"A Noulas","year":"2012","unstructured":"Noulas A, Englebienne G, Krose B (2012) Multimodal speaker diarization. IEEE Trans Pattern Anal Mach Intell 34(1):79\u201393","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"3181_CR18","volume-title":"Proceedings of the IEEE conference on computer vision and pattern recognition workshops: human activity understanding from 3D Data, CVPR \u201913","author":"E Ohn-Bar","year":"2013","unstructured":"Ohn-Bar E, Trivedi MM (2013) Joint angles similiarities and HOG 2 for action recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops: human activity understanding from 3D Data, CVPR \u201913. IEEE Press, Piscataway, NJ"},{"key":"3181_CR19","doi-asserted-by":"crossref","unstructured":"Ojala T, Pietikainen M, Harwood D (1994) Performance evaluation of texture measures with classification based on kullback discrimination of distributions. In: Proceedings of the 12th IAPR international conference on pattern recognition, vol 1, pp 582\u2013585","DOI":"10.1109\/ICPR.1994.576366"},{"key":"3181_CR20","doi-asserted-by":"crossref","unstructured":"Orfanidis G, Tefas A, Nikolaidis N, Pitas I (2014) Facial image clustering in stereo videos using local binary patterns and double spectral analysis. In: IEEE Symposium Series on Computational Intelligence (SSCI)","DOI":"10.1109\/CIDM.2014.7008670"},{"key":"3181_CR21","doi-asserted-by":"crossref","first-page":"86","DOI":"10.1016\/j.image.2015.01.009","volume":"33","author":"G Orfanidis","year":"2015","unstructured":"Orfanidis G, Tefas A, Nikolaidis N, Pitas I (2015) Facial image clustering in stereoscopic videos using double spectral analysis. Signal Process Image Commun 33:86\u2013105","journal-title":"Signal Process Image Commun"},{"key":"3181_CR22","doi-asserted-by":"crossref","unstructured":"Patrona F, Iosifidis A, Tefas A, Nikolaidis N, Pitas I (2015) Visual voice activity detection based on spatiotemporal information and bag of words. In: IEEE international conference on image processing, ICIP 2015","DOI":"10.1109\/ICIP.2015.7351219"},{"key":"3181_CR23","doi-asserted-by":"crossref","unstructured":"Sargin M, Aradhye H, Moreno P, Zhao M (2009) Audiovisual celebrity recognition in unconstrained web videos. In: Proceedings of the IEEE international conference on acoustics, speech and signal processing, 2009. ICASSP 2009, pp 1977\u20131980","DOI":"10.1109\/ICASSP.2009.4959999"},{"issue":"1","key":"3181_CR24","doi-asserted-by":"crossref","first-page":"5","DOI":"10.1023\/B:MTAP.0000046380.27575.a5","volume":"25","author":"CGM Snoek","year":"2005","unstructured":"Snoek CGM, Worring M (2005) Multimodal video indexing: A review of the state-of-the-art. Multimed Tools Appl 25(1):5\u201335","journal-title":"Multimed Tools Appl"},{"issue":"2","key":"3181_CR25","doi-asserted-by":"crossref","first-page":"31","DOI":"10.1007\/BF02910057","volume":"1","author":"G Stamou","year":"2007","unstructured":"Stamou G, Krinidis M, Nikolaidis N, Pitas I (2007) A monocular system for person tracking: implementation and testing. Journal on Multimodal User Interfaces 1(2):31\u201347","journal-title":"Journal on Multimodal User Interfaces"},{"key":"3181_CR26","doi-asserted-by":"crossref","first-page":"3","DOI":"10.1145\/2522848.2522862","volume-title":"Proceedings of the 15th ACM on international conference on multimodal interaction, ICMI \u201913","author":"R Subramanian","year":"2013","unstructured":"Subramanian R, Yan Y, Staiano J, Lanz O, Sebe N (2013) On the relationship between head pose, social attention and personality prediction for unstructured and dynamic group interactions. In: Proceedings of the 15th ACM on international conference on multimodal interaction, ICMI \u201913. ACM, New York, pp 3\u201310"},{"key":"3181_CR27","unstructured":"Uricar M, Franc V, Hlac V (2012) Detector of facial landmarks learned by the structured output svm. In: Proceedings of VISAPP 2012, pp 547\u2013556"},{"issue":"3","key":"3181_CR28","doi-asserted-by":"crossref","first-page":"509","DOI":"10.1109\/TMM.2012.2233724","volume":"15","author":"F Vallet","year":"2013","unstructured":"Vallet F, Essid S, Carrive J (2013) A multimodal approach to speaker diarization on tv talk-shows. IEEE Trans Multimedia 15(3):509\u2013520","journal-title":"IEEE Trans Multimedia"},{"key":"3181_CR29","doi-asserted-by":"crossref","unstructured":"Wang H, Kl\u00e4ser A, Schmid C, Liu CL (2011) Action recognition by dense trajectories. In: Proceedings of the IEEE conference on computer vision and pattern recognition, 2011. CVPR 2011. IEEE, pp 3169\u20133176","DOI":"10.1109\/CVPR.2011.5995407"},{"key":"3181_CR30","doi-asserted-by":"crossref","unstructured":"Wang H, Ullah M, Kl\u00e4serr A, Laptev I, Schmid C (2009) Evaluation of local spatio-temporal features for action recognition. In: BMVC 2009-British machine vision conference","DOI":"10.5244\/C.23.124"},{"issue":"6","key":"3181_CR31","doi-asserted-by":"crossref","first-page":"1867","DOI":"10.1109\/TIP.2015.2413294","volume":"24","author":"Y Yan","year":"2015","unstructured":"Yan Y, Yang Y, Meng D, Liu G, Tong W, Hauptmann A, Sebe N (2015) Event oriented dictionary learning for complex event detection. IEEE Trans Image Process 24(6):1867\u20131878","journal-title":"IEEE Trans Image Process"},{"issue":"5","key":"3181_CR32","doi-asserted-by":"crossref","first-page":"573","DOI":"10.1016\/j.image.2014.03.004","volume":"29","author":"O Zoidi","year":"2014","unstructured":"Zoidi O, Nikolaidis N, Tefas A, Pitas I (2014) Stereo object tracking with fusion of texture, color and disparity information. Signal Process Image Commun 29(5):573\u2013589","journal-title":"Signal Process Image Commun"},{"key":"3181_CR33","doi-asserted-by":"crossref","unstructured":"Zoidi O, Nikolaidis N, Pitas I (2013) Appearance based object tracking in stereo sequences. In: Proceedings of the 2013 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp 2434\u20132438","DOI":"10.1109\/ICASSP.2013.6638092"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-015-3181-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-015-3181-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-015-3181-5","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-015-3181-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T08:46:44Z","timestamp":1654073204000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-015-3181-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,1,11]]},"references-count":33,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2017,1]]}},"alternative-id":["3181"],"URL":"https:\/\/doi.org\/10.1007\/s11042-015-3181-5","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2016,1,11]]}}}