{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,23]],"date-time":"2025-08-23T05:07:56Z","timestamp":1755925676038},"reference-count":68,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2012,4,29]],"date-time":"2012-04-29T00:00:00Z","timestamp":1335657600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2014,2]]},"DOI":"10.1007\/s11042-012-1080-6","type":"journal-article","created":{"date-parts":[[2012,4,28]],"date-time":"2012-04-28T00:47:11Z","timestamp":1335574031000},"page":"747-775","source":"Crossref","is-referenced-by-count":30,"title":["Audiovisual diarization of people in video content"],"prefix":"10.1007","volume":"68","author":[{"given":"Elie","family":"El Khoury","sequence":"first","affiliation":[]},{"given":"Christine","family":"S\u00e9nac","sequence":"additional","affiliation":[]},{"given":"Philippe","family":"Joly","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2012,4,29]]},"reference":[{"key":"1080_CR1","doi-asserted-by":"crossref","unstructured":"Anguera X, Wooters C, Hernando J (2006) Robust speaker diarization for meetings: ICSI RT06 evaluation system. In: International conference on spoken language processing","DOI":"10.1007\/11965152_31"},{"key":"1080_CR2","doi-asserted-by":"crossref","unstructured":"Andriluka M, Roth S, Schiele B (2008) People-tracking-by-detection and people-detection-by-tracking. In: IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2008.4587583"},{"key":"1080_CR3","unstructured":"Arandjelovic O, Zisserman A (2005) Automatic face recognition for film character retrieval in feature-length films. In: IEEE conference on computer vision and pattern recognition"},{"key":"1080_CR4","doi-asserted-by":"crossref","first-page":"602","DOI":"10.1109\/34.216730","volume":"15","author":"A Azarbayejani","year":"1993","unstructured":"Azarbayejani A, Starner T, Horowitz B, Pentland A (1993) Visually controlled graphics. IEEE Trans Pattern Anal Mach Intell 15:602\u2013605","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"1080_CR5","unstructured":"Bicego M, Lagorio A, Grosso E, Tistarelli M (2006) On the use of sift features for face authentication. In: Computer vision and pattern recognition workshop"},{"key":"1080_CR6","doi-asserted-by":"crossref","unstructured":"Bigot B, Ferran\u00e9 I, Pinquier J (2010) Exploiting speaker segmentations for automatic role detection. An application to broadcast news documents. In: International workshop on content-based multimedia indexing","DOI":"10.1109\/CBMI.2010.5529900"},{"key":"1080_CR7","doi-asserted-by":"crossref","unstructured":"Bozonnet S, Evans N, Fredouille C (2010) The LIA-EURECOM RT09 Speaker diarization system: anhancements in speaker modelling and cluster purification. In: IEEE international conference on acoustics, speech, and signal processing","DOI":"10.1109\/ICASSP.2010.5495088"},{"key":"1080_CR8","unstructured":"Cettolo M, Vescovi M (2003) Efficient audio segmentation algorithms based on the bic. In: IEEE international conference on acoustics, speech, and signal processing"},{"key":"1080_CR9","unstructured":"Chang SF, He J, Jiang YG, El\u00a0Khoury E, Ngo CW, Yanagawa A, Zavesky E (2008) Columbia University\/VIREO-CityU\/IRIT TRECVID2008 high-level feature extraction and interactive video search. In: TREC video retrieval workshop, NIST"},{"key":"1080_CR10","unstructured":"Chaudhari UV, Ramaswamy GN, Potamianos G, Neti C (2003) Audio-visual speaker recognition using time-varying stream. In: IEEE international conference on acoustics, speech and signal processing"},{"key":"1080_CR11","doi-asserted-by":"crossref","unstructured":"Chaudhari UV, Ramaswamy GN, Potamianos G, Neti C (2003) Information fusion and decision cascading for audio-visual speaker recognition based on time-varying stream reliability prediction. In: IEEE international conference on multimedia and expo","DOI":"10.1109\/ICME.2003.1221235"},{"key":"1080_CR12","unstructured":"Chen SS, Gopalakrishnan PS (1998) Clustering via the bayesian information criterion with applications in speech recognition. In: IEEE international conference on acoustics, speech and signal processing"},{"key":"1080_CR13","doi-asserted-by":"crossref","unstructured":"Chu WT, Lee YL, Yu JY (2009) Visual language model for face clustering in consumer photos. In: ACM international conference on multimedia","DOI":"10.1145\/1631272.1631372"},{"key":"1080_CR14","doi-asserted-by":"crossref","unstructured":"Cinbis G, Verbeek J, Schmid C (2011) Unsupervised metric learning for face identification in TV video. In: IEEE international conference on computer vision","DOI":"10.1109\/ICCV.2011.6126415"},{"key":"1080_CR15","unstructured":"Czirjek C, Marlow S, Murphy N (2003) Face detection and clustering for video indexing applications. In: Advanced concepts for intelligent vision systems"},{"key":"1080_CR16","doi-asserted-by":"crossref","unstructured":"Dielmann A (2010) Unsupervised detection of multimodal clusters in edited recordings. In: IEEE international workshop on Multimedia Signal Processing (MMSP)","DOI":"10.1109\/MMSP.2010.5662015"},{"issue":"2","key":"1080_CR17","doi-asserted-by":"crossref","first-page":"127","DOI":"10.1007\/s12652-010-0034-y","volume":"2","author":"G Doretto","year":"2011","unstructured":"Doretto G, Sebastian T, Tu P, Rittscher J (2011) Appearance-based person re-identification in camera networks: Problem overview and current approaches. Journal of Ambient Intelligence and Humanized Computing 2(2):127\u2013151","journal-title":"Journal of Ambient Intelligence and Humanized Computing"},{"key":"1080_CR18","unstructured":"Everingham M, Sivic J, Zisserman A (2006) Hello! my name is... buffy\u2014automatic naming of characters in TV video. In: British Machine Vision Conference, BMVC06"},{"issue":"5","key":"1080_CR19","doi-asserted-by":"crossref","first-page":"545","DOI":"10.1016\/j.imavis.2008.04.018","volume":"27","author":"M Everingham","year":"2009","unstructured":"Everingham M, Sivic J, Zisserman A (2009) Taking the bite out of automated naming of characters in TV video. Image Vision Comput 27(5):545\u2013559","journal-title":"Image Vision Comput"},{"key":"1080_CR20","doi-asserted-by":"crossref","unstructured":"Fitzgibbon AW, Zisserman A (2002) On affine invariant clustering and automatic cast listing in movies. In: ECCV \u201902: European Conference on Computer Vision","DOI":"10.1007\/3-540-47977-5_20"},{"key":"1080_CR21","unstructured":"Fredouille C, Bozonnet S, Evans N (2009) The LIA-EURECOM RT09 speaker diarization system. In: NIST Rich transcription workshop"},{"key":"1080_CR22","doi-asserted-by":"crossref","unstructured":"Friedland G, Hung H, Chuohao Yeo (2009) Multi-modal speaker diarization of real-world meetings using compressed-domain video features. In: IEEE international conference on acoustics, speech and signal processing","DOI":"10.1109\/ICASSP.2009.4960522"},{"issue":"4","key":"1080_CR23","first-page":"27","volume":"6","author":"G Friedland","year":"2010","unstructured":"Friedland G, Yeo C, Hung H (2010) Dialocalisation: acoustic speaker diarization and visual localization as joint optimization problem. ACM Trans Multimedia Comput Commun Appl, TOMCCAP 6(4):27","journal-title":"ACM Trans Multimedia Comput Commun Appl, TOMCCAP"},{"key":"1080_CR24","doi-asserted-by":"crossref","unstructured":"Galliano S, Geofrois E, Mosterfa D, Bonastre JF, Gravier G (2005) The ESTER phase II evaluation campaign for the rich transcription of the French broadcast news. In: European conference on speech communication and technology","DOI":"10.21437\/Interspeech.2005-441"},{"key":"1080_CR25","doi-asserted-by":"crossref","unstructured":"Galliano S, Gravier G, Chaubard L (2009) The ester 2 evaluation campaign for the rich transcription of French radio broadcasts. INTERSPEECH","DOI":"10.21437\/Interspeech.2009-680"},{"key":"1080_CR26","doi-asserted-by":"crossref","unstructured":"Gish H, Siu MH, Rohlicek R (1991) Segregation of speakers for speech recognition and speaker identification. In: International conference on acoustics, speech, and signal processing","DOI":"10.1109\/ICASSP.1991.150477"},{"key":"1080_CR27","doi-asserted-by":"crossref","unstructured":"Guillaumin M, Verbeek J, Schmid C (2009) Is that you? Metric learning approaches for face identification. ICCV","DOI":"10.1109\/ICCV.2009.5459197"},{"key":"1080_CR28","doi-asserted-by":"crossref","unstructured":"Hilsmann A, Eisert P (2009) Tracking and retexturing cloth for real-time virtual clothing applications. In: International conference on computer vision\/computer graphics collaboration techniques","DOI":"10.1007\/978-3-642-01811-4_9"},{"key":"1080_CR29","unstructured":"Hung H, Friedland G (2008) Towards audio-visual on-line diarization of participants In group meetings. In: Workshop on multi-camera and multi-modal sensor fusion"},{"key":"1080_CR30","doi-asserted-by":"crossref","unstructured":"Ioffe S, Forsyth DA (2001) Human tracking with mixtures of trees. ICCV01","DOI":"10.1109\/ICCV.2001.937589"},{"key":"1080_CR31","unstructured":"Jaffr\u00e9 G, Joly P (2004) Costume: a new feature for automatic video content indexing. RIAO"},{"key":"1080_CR32","doi-asserted-by":"crossref","unstructured":"El\u00a0Khoury E, Senac C, Andr\u00e9-Obrecht R (2007) Speaker Diarization: Towards a more robust and portable system. In: IEEE international conference on acoustics, speech, and signal processing","DOI":"10.1109\/ICASSP.2007.366956"},{"key":"1080_CR33","doi-asserted-by":"crossref","unstructured":"El-Khoury E, Senac C, Pinquier J (2009) Improved speaker diarization system for meetings. In: IEEE international conference on acoustics, speech, and signal processing","DOI":"10.1109\/ICASSP.2009.4960529"},{"key":"1080_CR34","author":"E El-Khoury","year":"2010","unstructured":"El Khoury E, Senac C, Joly P (2010) Unsupervised segmentation methods of TV contents. Int J Digital Multimedia Broadcast. doi: 10.1155\/2010\/539796","journal-title":"Int J Digital Multimedia Broadcast"},{"key":"1080_CR35","doi-asserted-by":"crossref","unstructured":"El\u00a0Khoury E, Senac C, Joly P (2010) Face-and-clothing based people clustering in video content. In: ACM International conference on multimedia information retrieval","DOI":"10.1145\/1743384.1743435"},{"key":"1080_CR36","doi-asserted-by":"crossref","unstructured":"Leeuwen DAV, Konecn\u00fd M (2008) Progress in the AMIDA speaker diarization system for meeting data. In: Multimodal technologies for perception of humans: international evaluation workshops CLEAR 2007 and RT 2007","DOI":"10.1007\/978-3-540-68585-2_44"},{"issue":"7","key":"1080_CR37","doi-asserted-by":"crossref","first-page":"1059","DOI":"10.1016\/j.patcog.2004.11.022","volume":"38","author":"C Lerdsudwichai","year":"2005","unstructured":"Lerdsudwichai C, Abdel-MottalebM, Ansari AN (2005) Tracking multiple people with recovery from partial and total occlusion. Pattern Recogn 38(7):1059\u20131070","journal-title":"Pattern Recogn"},{"key":"1080_CR38","doi-asserted-by":"crossref","unstructured":"Liu Z, Gibbon D, Zavesky E, Shahraray B, Haffner P (2007) A fast, comprehensive shot boundary determination system. In: IEEE international conference on multimedia and expo","DOI":"10.1109\/ICME.2007.4284943"},{"key":"1080_CR39","unstructured":"Liu Z, Wang Y (2001) Major cast detection in video using both audio and visual information. In: IEEE international conference on acoustics, speech, and signal processing"},{"issue":"1","key":"1080_CR40","doi-asserted-by":"crossref","first-page":"89","DOI":"10.1109\/TMM.2006.886360","volume":"9","author":"Z Liu","year":"2007","unstructured":"Liu Z, Wang Y (2007) Major cast detection in video using both speaker and face information. IEEE Transactions on Multimedia 9(1):89\u2013101","journal-title":"IEEE Transactions on Multimedia"},{"issue":"2","key":"1080_CR41","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vision 60(2):91\u2013110","journal-title":"Int J Comput Vision"},{"issue":"8","key":"1080_CR42","doi-asserted-by":"crossref","first-page":"837","DOI":"10.1109\/34.531803","volume":"18","author":"BS Manjunath","year":"1996","unstructured":"Manjunath BS, Ma WY (1996) Texture features for browsing and retrieval of image data. IEEE Trans Pattern Anal Mach Intell 18(8):837\u2013842","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"1080_CR43","unstructured":"Nguyen TH, Sun H, Zhao S, Khine SZ, Tran HD, Ma TL, Ma B, Chng ES, Li H (2009) The IIR-NTU speaker diarization systems for RT 2009. In: NIST rich transcription workshop"},{"key":"1080_CR44","doi-asserted-by":"crossref","unstructured":"Nockc HJ, Iyengar G, Neti C (2003) Speaker localisation using audio-visual synchrony: an ampirical study. In: CIVR: ACM international conference on image and video retrieval","DOI":"10.1007\/3-540-45113-7_48"},{"key":"1080_CR45","isbn-type":"print","doi-asserted-by":"crossref","first-page":"475","DOI":"10.1109\/CISP.2008.405","volume-title":"Proceedings of the 2008 congress on image and signal processing, CISP \u201908, vol 2","author":"J Peng","year":"2008","unstructured":"Peng J, Lin QX (2008) Automatic classification video for person indexing. In: Proceedings of the 2008 congress on image and signal processing, CISP \u201908, vol 2. IEEE Computer Society, Washington, DC, USA, pp 475\u2013479. ISBN 978-0-7695-3119-9","ISBN":"http:\/\/id.crossref.org\/isbn\/9780769531199"},{"key":"1080_CR46","unstructured":"Philippeau J, Pinquier J, Joly P (2006) Intervenant classification in an audiovisual document. In: International conference on signal processing and multimedia applications"},{"key":"1080_CR47","doi-asserted-by":"crossref","unstructured":"Pinquier J, Rouas JL, Andr\u00e9-Obrecht R (2003) A fusion study in speech\/music classification. In: IEEE international conference on acoustics, speech and signal processing","DOI":"10.1109\/ICME.2003.1220941"},{"issue":"1","key":"1080_CR48","doi-asserted-by":"crossref","first-page":"59","DOI":"10.2307\/1402731","volume":"51","author":"RL Plackett","year":"1983","unstructured":"Plackett RL (1983) Karl Pearson and the chi-squared test. Int Stat Rev 51(1):59\u201372","journal-title":"Int Stat Rev"},{"key":"1080_CR49","doi-asserted-by":"crossref","unstructured":"Ramirez J, Girriz JM, Segura JC (2007) Voice activity detection. In: Grimm M, Kroschel K (eds) Fundamentals and speech recognition system robustness. Robust Speech Recognition and Understanding","DOI":"10.5772\/4740"},{"key":"1080_CR50","doi-asserted-by":"crossref","unstructured":"Rosenhahn B, Kersting U, Powell K, Brox T, Seidel HP (2007) Tracking clothed people. In: Human motion\u2014understanding, modeling, capture, and animation. Springer","DOI":"10.1007\/978-1-4020-6693-1_12"},{"key":"1080_CR51","unstructured":"Scheirer E, Slaney M (1997) Construction and evaluation of a robust multifeature speech\/music discriminator. In: IEEE international conference on acoustics, speech, and signal processing"},{"issue":"5","key":"1080_CR52","doi-asserted-by":"crossref","first-page":"845","DOI":"10.1109\/JSTSP.2010.2050519","volume":"4","author":"J Schmalenstroeer","year":"2010","unstructured":"Schmalenstroeer J, Haeb-Umbach R (2010) Online Diarization of Streaming Audio-Visual Data for Smart Environments. J Sel Topics Signal Processing 4(5):845\u2013856","journal-title":"J Sel Topics Signal Processing"},{"key":"1080_CR53","unstructured":"Siegler MA, Jain U, Raj B, Stern RM (1997) Automatic segmentation, classification and clustering of broadcast news audio. In: DARPA Speech Recognition Workshop"},{"key":"1080_CR54","doi-asserted-by":"crossref","unstructured":"Sivakumaran P, Fortuna J, Ariyaeeinia AM (2001) On the use of the bayesian information criterion in multiple speaker detection. In: The 7th European conference on speech communication and technology (Eurospeech\u201901)","DOI":"10.21437\/Eurospeech.2001-248"},{"issue":"4","key":"1080_CR55","doi-asserted-by":"crossref","first-page":"411","DOI":"10.1016\/j.cviu.2009.03.011","volume":"114","author":"AF Smeaton","year":"2010","unstructured":"Smeaton AF, Over P, Doherty AR (2010) Video shot boundary detection: seven years of trecvid activity. Comput Vis Image Und 114(4):411\u2013418","journal-title":"Comput Vis Image Und"},{"key":"1080_CR56","doi-asserted-by":"crossref","unstructured":"Stiefelhagen R, Bowers R, Fiscus J (2008) Multimodal technologies for perception of humans: international evaluation workshops CLEAR 2007 and RT 2007. ser. Lecture Notes in Computer Science. Springer","DOI":"10.1007\/978-3-540-68585-2"},{"issue":"2","key":"1080_CR57","doi-asserted-by":"crossref","first-page":"260","DOI":"10.1007\/s11263-007-0125-1","volume":"80","author":"JW Sung","year":"2008","unstructured":"Sung JW, Kanade T, Kim DJ (2008) Pose robust face tracking by combining active appearance models and cylinder head models. Int J Comput Vis 80(2):260\u2013274","journal-title":"Int J Comput Vis"},{"issue":"2\/3","key":"1080_CR58","doi-asserted-by":"crossref","first-page":"117","DOI":"10.1023\/B:VLSI.0000015091.47302.07","volume":"36","author":"S Tamura","year":"2004","unstructured":"Tamura S, Iwano K, Furui S (2004) Multi-modal speech recognition using optical-flow analysis for lip images. J VLSI Signal Process Syst 36(2\/3):117\u2013124","journal-title":"J VLSI Signal Process Syst"},{"key":"1080_CR59","doi-asserted-by":"crossref","first-page":"569","DOI":"10.1109\/34.216726","volume":"15","author":"D Terzopoulos","year":"1993","unstructured":"Terzopoulos D, Waters K (1993) Analysis and synthesis of facial image sequences using physical and anatomical models. IEEE Trans Pattern Anal Mach Intell 15:569\u2013579","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"1080_CR60","doi-asserted-by":"crossref","unstructured":"Truong BT, Dorai C, Venkatesh S (2000) New enhancements to cut, fade, and dissolve detection processes in video segmentation. In: ACM international conference on Multimedia","DOI":"10.1145\/354384.354481"},{"key":"1080_CR61","unstructured":"Tsai WH, Cheng SS, Chao YH, Wang HM (2005) Clustering speech utterances by speaker using eigenvoice-motivated vector space model. In: IEEE international conference on acoustics, speech, and signal processing"},{"key":"1080_CR62","doi-asserted-by":"crossref","unstructured":"Vajaria H, Islam T, Sarkar S, Sankar R, Kasturi R (2006) Audio segmentation and speaker localization in meeting videos. In: ICPR\u201906: international conference on pattern recognition","DOI":"10.1109\/ICPR.2006.283"},{"key":"1080_CR63","unstructured":"Vezhnevets V, Sazonov V, Andreeva A (2003) A survey on pixel-based skin color detection techniques. In: Proc. Graphicon"},{"key":"1080_CR64","doi-asserted-by":"crossref","unstructured":"Viola P, Jones MJ, Snow D (2003) Detecting pedestrians using patterns of motion and appearance. In: ICCV \u201903: IEEE international conference on computer vision","DOI":"10.1109\/ICCV.2003.1238422"},{"issue":"2","key":"1080_CR65","doi-asserted-by":"crossref","first-page":"137","DOI":"10.1023\/B:VISI.0000013087.49260.fb","volume":"57","author":"P Viola","year":"2004","unstructured":"Viola P, Jones MJ (2004) Robust real-time face detection. Int J Comput Vis 57(2):137\u2013154","journal-title":"Int J Comput Vis"},{"key":"1080_CR66","doi-asserted-by":"crossref","unstructured":"Yang MH (2009) Face detection. In: Encyclopedia of biometrics. Springer","DOI":"10.1007\/978-0-387-73003-5_87"},{"issue":"4","key":"1080_CR67","doi-asserted-by":"crossref","first-page":"467","DOI":"10.1109\/TSA.2005.845790","volume":"13","author":"B Zhou","year":"2005","unstructured":"Zhou B, Hansen JHL (2005) Efficient audio stream segmentation via the combined T2 statistic and the bayesian information criterion. IEEE Trans Speech Audio Processing 13(4):467\u2013474","journal-title":"IEEE Trans Speech Audio Processing"},{"key":"1080_CR68","doi-asserted-by":"crossref","unstructured":"Zhu X, Barras C, Lamel L, Gauvain JL (2008) Multi-stage speaker diarization for conference and lecture meetings. In: Multimodal technologies for perception of humans. Springer","DOI":"10.1007\/978-3-540-68585-2_49"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-012-1080-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-012-1080-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-012-1080-6","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,6,22]],"date-time":"2023-06-22T10:08:48Z","timestamp":1687428528000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-012-1080-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2012,4,29]]},"references-count":68,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2014,2]]}},"alternative-id":["1080"],"URL":"https:\/\/doi.org\/10.1007\/s11042-012-1080-6","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2012,4,29]]}}}